NiFi에서 사용되는 주요 데이터 포맷에 대한 설명입니다.
JSON
- 설명: JSON은 경량의 데이터 교환 형식으로, 사람과 기계가 모두 이해하기 쉬운 텍스트 형태의 데이터입니다.
가장 일반적인 데이터 포맷입니다.
Parquet
- 설명: Parquet는 컬럼 기반의 저장 포맷으로, 대용량 데이터 처리 및 저장에 최적화되어 있습니다.
압축률이 높고 쿼리 성능이 우수합니다.
주로 CSV 파일 데이터를 읽고쓸때 Parquet 데이터 형식을 사용합니다.
Avro
- 설명: Avro는 스키마 기반의 데이터 직렬화 형식으로, 이진 형태로 데이터를 저장합니다.
유연한 스키마 및 빠른 직렬화로 데이터 교환에 적합합니다.
주로 사용하는 ExecuteSQL 프로세서 결과값이 Avro 데이터 형식으로 읽어드립니다.
아파치 아브로(Avro) 데이터 포맷 안내
Avro 데이터 포맷이란?
NIFI에서 사용되는 Avro 데이터 포맷은 아파치 하둡 프로젝트에서 나온 데이터 직렬화 프레임워크입니다.
이 데이터 포맷은 원격 프로시저 호출(RPC) 및 데이터 교환을 위한 유연하고 효율적인 방법을 제공합니다.
특징과 용도
JSON을 사용한 자료형 및 프로토콜 정의
Avro는 JSON을 활용하여 데이터의 자료형과 프로토콜을 정의합니다. 이는 데이터 구조를 명확하게 설명하고 데이터를 직렬화 할 수 있도록 도와줍니다.
콤팩트 바이너리 포맷으로 직렬화
데이터를 콤팩트하게 표현하기 위해 바이너리 형태로 직렬화합니다. 이는 데이터를 작고 효율적으로 전송하고 저장하는 데 도움을 줍니다.
주 용도
아파치 하둡에서클라이언트와 하둡 서비스 간의 영구 데이터 저장 및 하둡 노드 간 효율적인 통신을 위한 와이어 포맷을 제공하는 데 사용됩니다.
NIFI에서의 Avro 사용
nifi는 데이터 플로우 관리 시스템으로, 다양한 데이터 포맷을 처리하고 전송하는데 사용됩니다.
Avro 스키마를 통해 데이터의 형식을 정의하고 프로세스들 간에 데이터를 안정적으로 전송할 수 있게 됩니다.
이를 통해 데이터의 구조를 더 명확히 정의하고, 효율적으로 직렬화하여 처리하는데 활용됩니다.
이상으로 NiFi 데이터 포맷에 설명이었습니다.
주로 사용하는 데이터 포맷인 JSON와 Avro를 중점적으로 확인해보았습니다.
'빅데이터 > Apache Nifi' 카테고리의 다른 글
Nifi Database 01. 동기화 업무 공유 및 완성본 확인 (0) | 2023.12.20 |
---|---|
Nifi Database 08. 배치작업 설정 (Cron 표현식) (0) | 2023.12.18 |
Nifi Database 02. Connection Pool 설정 (1) | 2023.12.18 |
Apache NiFi 표현 언어 가이드(3) (0) | 2023.12.14 |
Apache NiFi 표현 언어 가이드(2) (0) | 2023.12.12 |