공부/데이터 엔지니어

[빅데이터 파일럿 프로젝트] - 1. 빅데이터 이해하기

chulphan 2022. 6. 26. 09:51

[강의 들은 내용 끄적끄적임...거의 받아적기?]

 

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%8C%8C%EC%9D%BC%EB%9F%BF-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8

 

15일간의 빅데이터 파일럿 프로젝트 - 인프런 | 강의

"빅데이터+AI 풀스택 개발" - AI에 생명력을 불어 넣는 빅데이터 구축 과정을 파일럿 프로젝트 형식으로 진행합니다. 요구사항을 파악해 단계별로 플랫폼을 구성하고, 스마트카 데이터 탐색과 분

www.inflearn.com

 

1. 빅데이터의 개념

 

2016년 알파고 vs 이세돌

구글 무인 자동차 300만km 주행 성공

트럼프 대선 승리 예측 실패

 

등이 빅데이터의 시작점이 되었고 현재는 전반적인 산업에 걸쳐 빅데이터를 활용하기 시작함

빅데이터는 AI 의 생명력!

 

모바일 + 소셜 데이터 -> 빅데이터의 활성화 -> 현재는 IoT 에도 활용

 

엑사바이트..

 

생성되는 데이터들 중 80% 는 비정형 데이터 (NoSQL 등)

 

빅데이터는 현재까지 쌓인 데이터를 분석해서 데이터에서 만들어지는 다양한 패턴을 해석해

현재를 이해하고 나아가 미래까지 예측하기 시작.

빅데이터라고 해서 단순히 큰 데이터를 지칭하는게 아니라 기술, 분석, 통찰력까지 담는 의미로 사용된다

 

여러 빅데이터에 대한 정의가 있었지만, 6V 로 정의되고 난 뒤로 이 개념이 빅데이터의 전반적인 정의가 된 듯

3V - Volume, Variety, Velocity

2V - Veracity, Visualization

1V - Value

 

3V + 2V = 1V

 

-> 3V를 수용하고, 데이터의 진실성 확보 + 데이터를 시각화 함으로써 새로운 효익을 가져다 줄 '가치'창출

(결국에 빅데이터도 어떠한 수단을 이용해서 가치를 창출하기 위함. 하지만 그 기반이 데이터라는 것에는 큰 의미가 있는 것 같다)

 

 

2. 빅데이터 목적

빅데이터 시스템을 구축, 빅데이터를 통한 정보를 제공하여 의사결정 인사이트(현상에 대한 이해, 발견, 예측)를 도출한다

이러한 시스템을 도입한 기업들이 성공 사례가 많았다

 

 

3. 빅데이터의 활용

상품/서비스, 마케팅 지원, 리스크 관리 등에 사용

 

3V 를 통해서 데이터 레이크와 웨어하우스를 구축

데이터 진실성을 위해 빅데이터 마트를 구축

여기서 시각화를 통해 인사이트를 도출해서

비즈니스 가치를 창출한다 (비용절감, 수익창출, 문제해결)

 

빅데이터 시스템은 AI 개발/학습에 필요한 데이터를 제공하기 위한 역할을 하게 되었다

이로 인해서 AI 시스템에서 데이터에 관련한 부담을 덜어주게 되었다

 

빅데이터에 대한 오해??

RDBMS = BigData -> 아니다

RDBMS vs BigData -> 이렇게 생각해도 안된다.

서로는 상호보완적인 관계이다

 

과거로부터 현재까지 쌓인 데이터에는 중복, 유실 등이 발생할 수 있는데,

그러한 부분은 시스템 또는 사람이 개입하여 처리할 수 있고

분석에 크게 문제가 되지 않는 한 소기의 목적은 달성했다고 볼 수 있다

수집, 적재, 처리에 관한 기술들이 현재 빠르게 발전하고 있다.

 

4. 빅데이터 프로젝트

플랫폼 구축형 프로젝트

- 빅데이터 SI 구축형사업

- 수집 -> 적재 -> 처리 -> 탐색 -> 분석 기능 구현

- 3~6개월 정도 (축적된 데이터 -> 빅데이터 시스템으로 전환 작업)

 

빅데이터 분석 프로젝트

- 빅데이터 플랫폼 구축 완료 후 수행

- 빅데이터 탐색으로 데이터 이해가 높아질때 시작

- 대규모 분석이 필요한 시점에 추진

- 1~3개월 일정으로 추진, 마케팅/고객, 상품/서비스 개발, 리스크 관리를 분석 주제로 잡음

- 이해를 바탕으로 다양한 직군과 조화를 이루어서 해야 함. 초기에 무리하면 실패 가능성이 높다

 

빅데이터 운영 프로젝트

- 구축 완료된 플랫폼을 중장기적으로 운영 관리

- 대규모 하드웨어/소프트웨어로 운영 비용이 높다

- 빅데이터 분야별 전문가 그룹 확보 필요

- 빅데이터 거버넌스 체계 수립이 중요함

- 수평적인 조직은 충돌 가능성이 높아, 빅데이터 센터(빅데이터 분석 부서는 이 쪽 산하)를 CEO 산하에 놓고 IT 부서 내에 빅데이터 플랫폼 팀을 놓고 운영하는 조직이 거버넌스 운영이 가능한 조직 구조임 -> 이상적인 조직 구조 (구글, 페이스북, 카카오, 네이버 등)

** (데이터) 거버넌스? 데이터가 조직 내에서 가능한 많은 가치를 제공하도록 하기 위한 데이터의 효과적인 획득, 관리 및 활용과 관련된 관행, 정책 및 역할의 집합. 조직 전체에서 비즈니스 데이터의 품질/보안을 확인하여 누가 어떤 데이터를 언제 쓸 수 있는지 결정

참고: https://www.tibco.com/ko/reference-center/what-is-data-governance)

 

5. 빅데이터 기술의 변화

초기 빅데이터 기술 -> 낮은 비용의 스토리지로 구축하기 위한 솔루션으로 인식

RDBMS 로 수행하지 못하는 것들을 저비용 고효율로 해결 -> 다양한 산업분야에 깊숙히 관여하여 가치를 만들어내기 함

-> 이머징 기술로 인식하기 시작

 

대용량 저장소/대규모 배치 처리 -> 실시간처리/온라인 분석 -> 전처리 및 분석마트/고급 분석 및 마이닝

 

아키텍쳐 관점의 빅데이터 기술 변화

인프라스트럭쳐 -> 하드웨어 

소프트웨어 플랫폼 -> 클라우드/오픈소스/AI 플랫폼

IT 서비스 -> 구축/운영/분석/인력 양성 등

 

Hadoop 의 등장을 바탕으로 빅데이터 기술들의 발전들이 가속화 됨

 

6. 빅데이터 구현기술

구현 기술은 많다...

수집 -> 적재 -> 처리 -> 탐색 -> 분석 -> 응용 프로세스

전처리 (수집 적재 처리)

후처리 (처리 탐색 분석)

활용 (응용)

 

처리/탐색 <-> 분석/응용은 필요에 따라 순환함

 

* 아래 쓰이는 기술들을 알려주셨지만, 이후에 프로젝트 진행하면서 더 자세히 알아볼 예정이므로 생략

6V 관점 빅데이터 수집 기술

Volume: 대용량 데이터(TB 이상) 수집, 대규모 메세지(1,000TPS 이상) 수집

Variety: 정형/반정형/비정형 데이터 수집 (Log, RSS, XML, 파일, DB, 음성, 사진, 동영상 등)

Velocity: 실시간 스트림 데이터 수집

 

6V 관점 빅데이터 적재 기술

Veracity: 데이터의 품질과 신뢰성을 확보해 적재

 

6V 관점 빅데이터 처리/탐색 기술

Visualization: 후처리된 데이터셋을 시각화해서 탐색

 

6V 관점 빅데이터 분석/응용 기술

Velocity: 인메모리 기반으로 실시간 데이터 분석

Veracity: 신뢰도 높은 분석 결과를 비즈니스에 적용

Visualization: 분석 결과 및 창출된 가치를 시각화

Value: 분석된 결과를 비즈니스에 적용해 가치 창출

 

7. 빅데이터 보안

빅데이터 보안에도 일반적인 보안에 적용하는 보안이 고안/적용 되어야 한다(하지만 그에 관한 중요도는 다를 수 있다)

 

데이터 보안

- 개인정보 비식별화 (개인 식별이 가능한 어떠한 정보도 수집하지 않음...(??))

수집하지 않으면 데이터로써 어떠한 의미도 없기 때문에 비식별화를 진행함

 

개인정보 재식별화 

- 개인정보에 추가적인 정보를 추가해서 식별화가 더 높아진 것

법의 해석에 따라 달라질 수 있으므로 사내 법 관련 부서와 협의 해야함

 

- 비식별화 + 대체키 활용

대체키 + 다른 곳에 저장된 데이터를 활용해서 사용해야함. 그리고 Role 에 따라 접근권한을 엄격하게 따져야 한다

 

접근제어 보안

빅데이터 저장소인 하둡은 접근제어 관련해서는 취약하므로 접근제어 보안을 위해서는 Third Party 솔루션을 사용해야 한다

(e.g 아파치 녹스, sentry, 아파치 레인저(ranger), 커베로스)

 

8. 빅데이터에서 R&R

빅데이터 AI 시스템은 대규모 하드웨어/소프트웨어로 구성 되어 있다

그로 인해서 수많은 관계자들이 있다. 그리고 그들간의 협업이 중요하다

IT / 비IT 직군과의 협업이 중요하다. 

내가 할 일만 잘해서는 안되고 다른 직군이 하는 일에 대해서도 이해가 필요하다