[개념] sft & dpo 학습이 뭔가요?

자연어 처리 모델의 성능을 향상시키기 위해서 사용되는 두 가지 접근 방식입니다.

각각의 방식은 모델이 데이터를 처리하고 학습하는 방법에서 차이를 보입니다.

 

SFT(Supervised Fine-Tuning)

지도 학습 기반의 미세 조정 방법입니다. 레이블이 지정된 데이터셋을 사용하여 사전 훈련된 모델을 특정 작업이나 도메인에 맞게 추가 학습시킵니다.

대화형식의 데이터를 사용하여, 대화에 대한 이해와 생성 능력을 개선하기 위한 목적으로 사용될 수 있습니다.

예시 데이터 : https://huggingface.co/datasets/davidkim205/kollm-converations

 

davidkim205/kollm-converations · Datasets at Hugging Face

[ { "from": "human", "value": "건국의 아버지들에 대해 설명해줘." }, { "from": "gpt", "value": "미국 건국의 아버지들(영어: Founding Fathers of the United States)은 미국 독립전쟁과 관련되고 미국 역사 초기의 4명의

huggingface.co

 

 

 

DPO(Discriminative Pretraining Objective)

DPO는 차별적 사전 훈련 목적이라는 의미로, 모델이 특정 질문에 대해 가장 적합한 답변을 선택하도록 학습하는 접근 방식입니다. 이 방법은 주로 선택형 질문이나 답변을 평가하는 작업에 사용됩니다.

예시 데이터 : https://huggingface.co/datasets/davidkim205/kollm-comparision

 

davidkim205/kollm-comparision · Datasets at Hugging Face

 

huggingface.co

 

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유