공부/데이터 엔지니어

[빅데이터 파일럿 프로젝트] 시작

chulphan 2022. 6. 25. 11:56

데이터 엔지니어에 관심을 가지고 있었고 그동안 Udemy 의 강의를 샀지만

밍기적 대느라 + 영어의 벽을 넘지 못하고 공부를 하지 않고 있었다.

 

최근에 빅데이터를 지탱하는 기술이란 책을 읽으면서 실습에 대한 갈망이 있었는데,

이런 갈망을 풀어줄 실습 위주의 강의가 인프런에 있어서 관심만 가지고 있다가 이 참에 질러버렸다(세일하는 것도 한몫했고..)

 

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%8C%8C%EC%9D%BC%EB%9F%BF-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8

 

15일간의 빅데이터 파일럿 프로젝트 - 인프런 | 강의

"빅데이터+AI 풀스택 개발" - AI에 생명력을 불어 넣는 빅데이터 구축 과정을 파일럿 프로젝트 형식으로 진행합니다. 요구사항을 파악해 단계별로 플랫폼을 구성하고, 스마트카 데이터 탐색과 분

www.inflearn.com

 

15일만에 끝낼 수 있을지는 모르겠지만 최대한 끝내는 걸 목표로!!

 

시작

 

빅데이터 프로젝트는 많은 비용이 발생됨 -> 본격적인 프로젝트 전에 파일럿 프로젝트(선행연구)를 시행

 

PoC (Proof of Concept) - 기술적 관점에서 프로젝트의 실현 가능성, 효과/효용을 검증

PoV (Proof of Value) - 해당 프로젝트의 효익을 검증하기 위함

BMT (BenchMark Test) - 하드웨어/소프트웨어 등에 대해 수많은 표준 테스트를 수행해서 상대적인 성능 측정 목적으로 프로그램을 실행하는 단위

 

이 프로젝트는 PoCPoV 위주로 진행

 

데이터 수접,적재,처리,분석에서 머신러닝으로 이어지는 인사이트를 얻기 위한 프로젝트 강의

 

프로젝트 목표는 수집, 적재, 처리/탐색, 분석/응용 에 대한 이해를 심어주기 위함

 

15일로 끝낼 수 있는 강의 구성(개인별로 편차는 있지만)

 

저사양에서는 2대의 가상환경, 고사양에서는 3대의 가상환경을 사용

분산환경 등(이 프로젝트에서 사용할 환경구축)을 구축하게 되면 수집 단계로 넘어감

 

시뮬레이터를 구성하는데 이는 실시간/배치 데이터 수집으로 구성된다

실시간 데이터 수집에는 HBase, 배치 데이터 수집에는 Hadoop 을 이용한다

 

처리/탐색을 위해서 DataLake 를 구성하고 DataMart를 만든다.

DataMart 에 있는 데이터는 데이터 분석 활용, AI까지 이루어진다

 

DataLake 는 수집된 모든 데이터.. DataMart 는 DataLake 에서 특정 목적에 맞게 가져온 데이터...?