데이터 엔지니어에 관심을 가지고 있었고 그동안 Udemy 의 강의를 샀지만
밍기적 대느라 + 영어의 벽을 넘지 못하고 공부를 하지 않고 있었다.
최근에 빅데이터를 지탱하는 기술이란 책을 읽으면서 실습에 대한 갈망이 있었는데,
이런 갈망을 풀어줄 실습 위주의 강의가 인프런에 있어서 관심만 가지고 있다가 이 참에 질러버렸다(세일하는 것도 한몫했고..)
15일만에 끝낼 수 있을지는 모르겠지만 최대한 끝내는 걸 목표로!!
시작
빅데이터 프로젝트는 많은 비용이 발생됨 -> 본격적인 프로젝트 전에 파일럿 프로젝트(선행연구)를 시행
PoC (Proof of Concept) - 기술적 관점에서 프로젝트의 실현 가능성, 효과/효용을 검증
PoV (Proof of Value) - 해당 프로젝트의 효익을 검증하기 위함
BMT (BenchMark Test) - 하드웨어/소프트웨어 등에 대해 수많은 표준 테스트를 수행해서 상대적인 성능 측정 목적으로 프로그램을 실행하는 단위
이 프로젝트는 PoC와 PoV 위주로 진행
데이터 수접,적재,처리,분석에서 머신러닝으로 이어지는 인사이트를 얻기 위한 프로젝트 강의
프로젝트 목표는 수집, 적재, 처리/탐색, 분석/응용 에 대한 이해를 심어주기 위함
15일로 끝낼 수 있는 강의 구성(개인별로 편차는 있지만)
저사양에서는 2대의 가상환경, 고사양에서는 3대의 가상환경을 사용
분산환경 등(이 프로젝트에서 사용할 환경구축)을 구축하게 되면 수집 단계로 넘어감
시뮬레이터를 구성하는데 이는 실시간/배치 데이터 수집으로 구성된다
실시간 데이터 수집에는 HBase, 배치 데이터 수집에는 Hadoop 을 이용한다
처리/탐색을 위해서 DataLake 를 구성하고 DataMart를 만든다.
DataMart 에 있는 데이터는 데이터 분석 활용, AI까지 이루어진다
DataLake 는 수집된 모든 데이터.. DataMart 는 DataLake 에서 특정 목적에 맞게 가져온 데이터...?
'공부 > 데이터 엔지니어' 카테고리의 다른 글
[빅데이터 파일럿 프로젝트] - 2. 파일럿 프로젝트 환경 구성 - 1 (0) | 2022.06.30 |
---|---|
[빅데이터 파일럿 프로젝트] - 1. 빅데이터 이해하기 (0) | 2022.06.26 |