Tech 공유 세미나 - 2차 / / 2023. 11. 20. 16:35

3장 플래티어의 구독형 DataLake 구축과 데이터 수집 전략

목차
  • DataLake의 개념 설명과 사례
  • Apache NiFi를 활용한 데이터 수집 전략
  • Apache NiFi를 활용한 플래티어의 구독형 DataLake 생태계 구축

DataLake

데이터 레이크(Data Lake)는 다양한 종류의 비정형, 반정형, 정형 데이터를 저장할 수 있는 시스템을 말하며, 빅 데이터를 보관하고 분석하는 데 사용됩니다. 기업은 데이터 레이크를 사용함으로써 비용과 복잡성을 줄이고 유연한 분석 및 데이터 활용이 가능해집니다.

 

데이터 레이크 종류

  • Amazon Lake Fomation (클라우드 기반 데이터 레이크)
  • Apach Hadoop (오픈 소스 데이터 레이크 엔진)
  • HDFS, Hadoop Distributed File System (온-프레미스 데이터 레이크 파일시스템)

 

데이터 레이크 사용 사례

  • 넷플릭스 : AWS의 S3를 사용하여 데이터 레이크를 구축, 수많은 사용자들로부터 발생하는 정보를 저장하고 이를 바탕으로 사용자 경험을 향상시키는데 사용

  • Airbnb : Hadoop 기술을 활용한 데이터 레이크를 사용하여 소스에서 데이터를 수집하고, 이를 분석하여 숙소 추천 및 가격 책정 등에 사용

 

Apache NiFi를 활용한 데이터 수집 전략

행동 데이터 수집 전략

  • 검색엔진과 AI Chatbot을 위한 데이터 수집
  • X2BEE 솔루션의 gateway를 활용한 데이터 수집
  • 배치 프로그램 및 기타 로그에서 비정형 데이터 수집
  • 실시간 데이터 수신을 통한 데이터 수집

 

이미 플래티어는 앞서 발표한 주제를 포함해서 <검색엔진>과 <Store Front> 그리고 <X2BEE 솔루션>

컴포져블한 제품들을 가지고 있어 데이터를 수집/분석 할 수 있는 모든 생태계를 이미 구축하고 있습니다

 

Apache NiFi를 활용한 플래티어의 구독형 DataLake 구축

나이파이를 활용한다면, 앞서 소개하고 시연했듯이 모든 정형, 비정형 데이터를 수집하고 관리할 수 있습니다.

이를 활용하여 플래티어의 구독형 서비스를 위한 기반과 데이터 확보가 가능해졌습니다.

 

향후, 기대되는 효과로 그루비와의 연계를 강화하여 세그먼트 분석을 위한 더 질 좋고 풍부한 데이터를 제공할 수 있으며,

백오피스 자체 에서 구현가능한  KPI 대시보드, KPI 예측, 업무 지원용 AI 비서 등의 서비스 기획이 가능해졌습니다.

 

 

 


  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유