목차
- DataLake의 개념 설명과 사례
- Apache NiFi를 활용한 데이터 수집 전략
- Apache NiFi를 활용한 플래티어의 구독형 DataLake 생태계 구축
DataLake
데이터 레이크(Data Lake)는 다양한 종류의 비정형, 반정형, 정형 데이터를 저장할 수 있는 시스템을 말하며, 빅 데이터를 보관하고 분석하는 데 사용됩니다. 기업은 데이터 레이크를 사용함으로써 비용과 복잡성을 줄이고 유연한 분석 및 데이터 활용이 가능해집니다.
데이터 레이크 종류
- Amazon Lake Fomation (클라우드 기반 데이터 레이크)
- Apach Hadoop (오픈 소스 데이터 레이크 엔진)
- HDFS, Hadoop Distributed File System (온-프레미스 데이터 레이크 파일시스템)
데이터 레이크 사용 사례
- 넷플릭스 : AWS의 S3를 사용하여 데이터 레이크를 구축, 수많은 사용자들로부터 발생하는 정보를 저장하고 이를 바탕으로 사용자 경험을 향상시키는데 사용
- Airbnb : Hadoop 기술을 활용한 데이터 레이크를 사용하여 소스에서 데이터를 수집하고, 이를 분석하여 숙소 추천 및 가격 책정 등에 사용
Apache NiFi를 활용한 데이터 수집 전략
행동 데이터 수집 전략
- 검색엔진과 AI Chatbot을 위한 데이터 수집
- X2BEE 솔루션의 gateway를 활용한 데이터 수집
- 배치 프로그램 및 기타 로그에서 비정형 데이터 수집
- 실시간 데이터 수신을 통한 데이터 수집
이미 플래티어는 앞서 발표한 주제를 포함해서 <검색엔진>과 <Store Front> 그리고 <X2BEE 솔루션> 등
컴포져블한 제품들을 가지고 있어 데이터를 수집/분석 할 수 있는 모든 생태계를 이미 구축하고 있습니다
Apache NiFi를 활용한 플래티어의 구독형 DataLake 구축
나이파이를 활용한다면, 앞서 소개하고 시연했듯이 모든 정형, 비정형 데이터를 수집하고 관리할 수 있습니다.
이를 활용하여 플래티어의 구독형 서비스를 위한 기반과 데이터 확보가 가능해졌습니다.
향후, 기대되는 효과로 그루비와의 연계를 강화하여 세그먼트 분석을 위한 더 질 좋고 풍부한 데이터를 제공할 수 있으며,
백오피스 자체 에서 구현가능한 KPI 대시보드, KPI 예측, 업무 지원용 AI 비서 등의 서비스 기획이 가능해졌습니다.
'Tech 공유 세미나 - 2차' 카테고리의 다른 글
3장. 검색 속도 비교와 형태소 분석 (0) | 2023.11.21 |
---|---|
2장. 필드 타입 및 조회 방법 (0) | 2023.11.21 |
1장. Elasticsearch의 특징 및 알고리즘 (0) | 2023.11.20 |
2장 Apache NiFi 활용 사례와 데모 (0) | 2023.11.20 |
1장 Apache NiFi 소개 (0) | 2023.11.20 |