[강의 들은 내용 끄적끄적임...거의 받아적기?]
1. 빅데이터의 개념
2016년 알파고 vs 이세돌
구글 무인 자동차 300만km 주행 성공
트럼프 대선 승리 예측 실패
등이 빅데이터의 시작점이 되었고 현재는 전반적인 산업에 걸쳐 빅데이터를 활용하기 시작함
빅데이터는 AI 의 생명력!
모바일 + 소셜 데이터 -> 빅데이터의 활성화 -> 현재는 IoT 에도 활용
엑사바이트..
생성되는 데이터들 중 80% 는 비정형 데이터 (NoSQL 등)
빅데이터는 현재까지 쌓인 데이터를 분석해서 데이터에서 만들어지는 다양한 패턴을 해석해
현재를 이해하고 나아가 미래까지 예측하기 시작.
빅데이터라고 해서 단순히 큰 데이터를 지칭하는게 아니라 기술, 분석, 통찰력까지 담는 의미로 사용된다
여러 빅데이터에 대한 정의가 있었지만, 6V 로 정의되고 난 뒤로 이 개념이 빅데이터의 전반적인 정의가 된 듯
3V - Volume, Variety, Velocity
2V - Veracity, Visualization
1V - Value
3V + 2V = 1V
-> 3V를 수용하고, 데이터의 진실성 확보 + 데이터를 시각화 함으로써 새로운 효익을 가져다 줄 '가치'창출
(결국에 빅데이터도 어떠한 수단을 이용해서 가치를 창출하기 위함. 하지만 그 기반이 데이터라는 것에는 큰 의미가 있는 것 같다)
2. 빅데이터 목적
빅데이터 시스템을 구축, 빅데이터를 통한 정보를 제공하여 의사결정 인사이트(현상에 대한 이해, 발견, 예측)를 도출한다
이러한 시스템을 도입한 기업들이 성공 사례가 많았다
3. 빅데이터의 활용
상품/서비스, 마케팅 지원, 리스크 관리 등에 사용
3V 를 통해서 데이터 레이크와 웨어하우스를 구축
데이터 진실성을 위해 빅데이터 마트를 구축
여기서 시각화를 통해 인사이트를 도출해서
비즈니스 가치를 창출한다 (비용절감, 수익창출, 문제해결)
빅데이터 시스템은 AI 개발/학습에 필요한 데이터를 제공하기 위한 역할을 하게 되었다
이로 인해서 AI 시스템에서 데이터에 관련한 부담을 덜어주게 되었다
빅데이터에 대한 오해??
RDBMS = BigData -> 아니다
RDBMS vs BigData -> 이렇게 생각해도 안된다.
서로는 상호보완적인 관계이다
과거로부터 현재까지 쌓인 데이터에는 중복, 유실 등이 발생할 수 있는데,
그러한 부분은 시스템 또는 사람이 개입하여 처리할 수 있고
분석에 크게 문제가 되지 않는 한 소기의 목적은 달성했다고 볼 수 있다
수집, 적재, 처리에 관한 기술들이 현재 빠르게 발전하고 있다.
4. 빅데이터 프로젝트
플랫폼 구축형 프로젝트
- 빅데이터 SI 구축형사업
- 수집 -> 적재 -> 처리 -> 탐색 -> 분석 기능 구현
- 3~6개월 정도 (축적된 데이터 -> 빅데이터 시스템으로 전환 작업)
빅데이터 분석 프로젝트
- 빅데이터 플랫폼 구축 완료 후 수행
- 빅데이터 탐색으로 데이터 이해가 높아질때 시작
- 대규모 분석이 필요한 시점에 추진
- 1~3개월 일정으로 추진, 마케팅/고객, 상품/서비스 개발, 리스크 관리를 분석 주제로 잡음
- 이해를 바탕으로 다양한 직군과 조화를 이루어서 해야 함. 초기에 무리하면 실패 가능성이 높다
빅데이터 운영 프로젝트
- 구축 완료된 플랫폼을 중장기적으로 운영 관리
- 대규모 하드웨어/소프트웨어로 운영 비용이 높다
- 빅데이터 분야별 전문가 그룹 확보 필요
- 빅데이터 거버넌스 체계 수립이 중요함
- 수평적인 조직은 충돌 가능성이 높아, 빅데이터 센터(빅데이터 분석 부서는 이 쪽 산하)를 CEO 산하에 놓고 IT 부서 내에 빅데이터 플랫폼 팀을 놓고 운영하는 조직이 거버넌스 운영이 가능한 조직 구조임 -> 이상적인 조직 구조 (구글, 페이스북, 카카오, 네이버 등)
** (데이터) 거버넌스? 데이터가 조직 내에서 가능한 많은 가치를 제공하도록 하기 위한 데이터의 효과적인 획득, 관리 및 활용과 관련된 관행, 정책 및 역할의 집합. 조직 전체에서 비즈니스 데이터의 품질/보안을 확인하여 누가 어떤 데이터를 언제 쓸 수 있는지 결정
참고: https://www.tibco.com/ko/reference-center/what-is-data-governance)
5. 빅데이터 기술의 변화
초기 빅데이터 기술 -> 낮은 비용의 스토리지로 구축하기 위한 솔루션으로 인식
RDBMS 로 수행하지 못하는 것들을 저비용 고효율로 해결 -> 다양한 산업분야에 깊숙히 관여하여 가치를 만들어내기 함
-> 이머징 기술로 인식하기 시작
대용량 저장소/대규모 배치 처리 -> 실시간처리/온라인 분석 -> 전처리 및 분석마트/고급 분석 및 마이닝
아키텍쳐 관점의 빅데이터 기술 변화
인프라스트럭쳐 -> 하드웨어
소프트웨어 플랫폼 -> 클라우드/오픈소스/AI 플랫폼
IT 서비스 -> 구축/운영/분석/인력 양성 등
Hadoop 의 등장을 바탕으로 빅데이터 기술들의 발전들이 가속화 됨
6. 빅데이터 구현기술
구현 기술은 많다...
수집 -> 적재 -> 처리 -> 탐색 -> 분석 -> 응용 프로세스
전처리 (수집 적재 처리)
후처리 (처리 탐색 분석)
활용 (응용)
처리/탐색 <-> 분석/응용은 필요에 따라 순환함
* 아래 쓰이는 기술들을 알려주셨지만, 이후에 프로젝트 진행하면서 더 자세히 알아볼 예정이므로 생략
6V 관점 빅데이터 수집 기술
Volume: 대용량 데이터(TB 이상) 수집, 대규모 메세지(1,000TPS 이상) 수집
Variety: 정형/반정형/비정형 데이터 수집 (Log, RSS, XML, 파일, DB, 음성, 사진, 동영상 등)
Velocity: 실시간 스트림 데이터 수집
6V 관점 빅데이터 적재 기술
Veracity: 데이터의 품질과 신뢰성을 확보해 적재
6V 관점 빅데이터 처리/탐색 기술
Visualization: 후처리된 데이터셋을 시각화해서 탐색
6V 관점 빅데이터 분석/응용 기술
Velocity: 인메모리 기반으로 실시간 데이터 분석
Veracity: 신뢰도 높은 분석 결과를 비즈니스에 적용
Visualization: 분석 결과 및 창출된 가치를 시각화
Value: 분석된 결과를 비즈니스에 적용해 가치 창출
7. 빅데이터 보안
빅데이터 보안에도 일반적인 보안에 적용하는 보안이 고안/적용 되어야 한다(하지만 그에 관한 중요도는 다를 수 있다)
데이터 보안
- 개인정보 비식별화 (개인 식별이 가능한 어떠한 정보도 수집하지 않음...(??))
수집하지 않으면 데이터로써 어떠한 의미도 없기 때문에 비식별화를 진행함
개인정보 재식별화
- 개인정보에 추가적인 정보를 추가해서 식별화가 더 높아진 것
법의 해석에 따라 달라질 수 있으므로 사내 법 관련 부서와 협의 해야함
- 비식별화 + 대체키 활용
대체키 + 다른 곳에 저장된 데이터를 활용해서 사용해야함. 그리고 Role 에 따라 접근권한을 엄격하게 따져야 한다
접근제어 보안
빅데이터 저장소인 하둡은 접근제어 관련해서는 취약하므로 접근제어 보안을 위해서는 Third Party 솔루션을 사용해야 한다
(e.g 아파치 녹스, sentry, 아파치 레인저(ranger), 커베로스)
8. 빅데이터에서 R&R
빅데이터 AI 시스템은 대규모 하드웨어/소프트웨어로 구성 되어 있다
그로 인해서 수많은 관계자들이 있다. 그리고 그들간의 협업이 중요하다
IT / 비IT 직군과의 협업이 중요하다.
내가 할 일만 잘해서는 안되고 다른 직군이 하는 일에 대해서도 이해가 필요하다
'공부 > 데이터 엔지니어' 카테고리의 다른 글
[빅데이터 파일럿 프로젝트] - 2. 파일럿 프로젝트 환경 구성 - 1 (0) | 2022.06.30 |
---|---|
[빅데이터 파일럿 프로젝트] 시작 (2) | 2022.06.25 |