자연어 처리 모델의 성능을 향상시키기 위해서 사용되는 두 가지 접근 방식입니다.
각각의 방식은 모델이 데이터를 처리하고 학습하는 방법에서 차이를 보입니다.
SFT(Supervised Fine-Tuning)
지도 학습 기반의 미세 조정 방법입니다. 레이블이 지정된 데이터셋을 사용하여 사전 훈련된 모델을 특정 작업이나 도메인에 맞게 추가 학습시킵니다.
대화형식의 데이터를 사용하여, 대화에 대한 이해와 생성 능력을 개선하기 위한 목적으로 사용될 수 있습니다.
예시 데이터 : https://huggingface.co/datasets/davidkim205/kollm-converations
davidkim205/kollm-converations · Datasets at Hugging Face
[ { "from": "human", "value": "건국의 아버지들에 대해 설명해줘." }, { "from": "gpt", "value": "미국 건국의 아버지들(영어: Founding Fathers of the United States)은 미국 독립전쟁과 관련되고 미국 역사 초기의 4명의
huggingface.co
DPO(Discriminative Pretraining Objective)
DPO는 차별적 사전 훈련 목적이라는 의미로, 모델이 특정 질문에 대해 가장 적합한 답변을 선택하도록 학습하는 접근 방식입니다. 이 방법은 주로 선택형 질문이나 답변을 평가하는 작업에 사용됩니다.
예시 데이터 : https://huggingface.co/datasets/davidkim205/kollm-comparision
davidkim205/kollm-comparision · Datasets at Hugging Face
huggingface.co
'A.I.(인공지능) & M.L.(머신러닝) > LLM' 카테고리의 다른 글
[LLM]EXAONE3.0 (0) | 2024.08.09 |
---|---|
[LLM] 자기 추론 프레임워크 (0) | 2024.08.05 |
[논문 리뷰]Better & Faster Large Language Models via Multi-token Prediction (0) | 2024.07.08 |
LLM이 학습하면 기하급수적으로 성능 상향 하는 데이터(1) (0) | 2024.04.26 |
[논문리뷰] Prompt 설정과 스키마 인식을 통한 향상된 SQL 쿼리 생성: PET-SQL (0) | 2024.04.04 |