자연어 처리 모델의 성능을 향상시키기 위해서 사용되는 두 가지 접근 방식입니다.
각각의 방식은 모델이 데이터를 처리하고 학습하는 방법에서 차이를 보입니다.
SFT(Supervised Fine-Tuning)
지도 학습 기반의 미세 조정 방법입니다. 레이블이 지정된 데이터셋을 사용하여 사전 훈련된 모델을 특정 작업이나 도메인에 맞게 추가 학습시킵니다.
대화형식의 데이터를 사용하여, 대화에 대한 이해와 생성 능력을 개선하기 위한 목적으로 사용될 수 있습니다.
예시 데이터 : https://huggingface.co/datasets/davidkim205/kollm-converations
DPO(Discriminative Pretraining Objective)
DPO는 차별적 사전 훈련 목적이라는 의미로, 모델이 특정 질문에 대해 가장 적합한 답변을 선택하도록 학습하는 접근 방식입니다. 이 방법은 주로 선택형 질문이나 답변을 평가하는 작업에 사용됩니다.
예시 데이터 : https://huggingface.co/datasets/davidkim205/kollm-comparision
'A.I.(인공지능) & M.L.(머신러닝) > LLM' 카테고리의 다른 글
[LLM]EXAONE3.0 (0) | 2024.08.09 |
---|---|
[LLM] 자기 추론 프레임워크 (0) | 2024.08.05 |
[논문 리뷰]Better & Faster Large Language Models via Multi-token Prediction (0) | 2024.07.08 |
LLM이 학습하면 기하급수적으로 성능 상향 하는 데이터(1) (0) | 2024.04.26 |
[논문리뷰] Prompt 설정과 스키마 인식을 통한 향상된 SQL 쿼리 생성: PET-SQL (0) | 2024.04.04 |