최근 대규모 추론모델들이 많이 나왔습니다. 이들의 학습 과정(주로, 강화학습) 에서 long chainof-thought reasoning에 대한 잠재적 능력을 성장시킨다고 합니다. 강화학습 과정에서 자기 교정, 되짚기, 검증과 같은 고급 추론 행동들을 우연히 이끌어 낼 수 있다고 합니다. 이를 '아하' 순간이라고 합니다. 사실 이러한 아하 순간이 '우연히' 라는 단어에서도 알 수 있듯이 이것이 매우 예측 불가능하고 통제 불가능하기에 LRM(거대 추론 모델)의 추론 능력의 확장성과 신뢰성을 제한합니다. 그래서 해당 논문은 이를 자동으로 생성되고 자체 검증 가능한 작업을 사용하여 연역, 귀납, 가추라는 세 가지 메타 능력으로 모델을 명시적으로 정렬합니다. 이를 위해서 3단계 파이프라인(개별 정렬, 매개..
2025. 5. 28. 15:20 / Tech코알라