딥시크 R2의 시작 : Inference-Time Scaling for Generalist Reward Modeling

딥시크 R1의 등장은 세상을 깜짝 놀라게 했는데요. 미국은 중국의 AI를 견제하기 위해서 고성능 칩들에 대한 수출을 통제하고 있던 중에 미국의 고성능 LLM 과 유사하거나 더 높은 성능의 모델을 세상에 내놓음으로써 사람들은 깜짝 놀랄 수 밖에 없었습니다. 

 

그런, 딥시크가 이제는 R1의 후속으로 R2의 출시가 임박했다는 증거가 arXiv에 게재되었는데요 바로, Inference-Time Scaling for Generalist Reward Modeling 입니다. 

 

 


Reinforcement learning (RL) has been widely adopted in post-training for large language models (LLMs) at scale. Recently, the incentivization of reasoning capabilities in LLMs from RL indicates that proper learning methods could enable effective inference-time scalability. A key challenge of RL is to obtain accurate reward signals for LLMs in various domains beyond verifiable questions or artificial rules. In this work, we investigate how to improve reward modeling (RM) with more inference compute for general queries, i.e. the inference-time scalability of generalist RM, and further, how to improve the effectiveness of performance-compute scaling with proper learning methods. For the RM approach, we adopt pointwise generative reward modeling (GRM) to enable flexibility for different input types and potential for inference-time scaling. For the learning method, we propose Self-Principled Critique Tuning (SPCT) to foster scalable reward generation behaviors in GRMs through online RL, to generate principles adaptively and critiques accurately, resulting in DeepSeek-GRM models. Furthermore, for effective inference-time scaling, we use parallel sampling to expand compute usage, and introduce a meta RM to guide voting process for better scaling performance. Empirically, we show that SPCT significantly improves the quality and scalability of GRMs, outperforming existing methods and models in various RM benchmarks without severe biases, and could achieve better performance compared to training-time scaling. DeepSeek-GRM still meets challenges in some tasks, which we believe can be addressed by future efforts in generalist reward systems. The models will be released and open-sourced.

 

강화 학습(RL)이 대형 언어 모델(LLM)의 후처리 단계에서 널리 사용되고 있습니다. 최근 RL을 통해 LLM의 추론 능력에 대한 인센티브가 부여되면서, 적절한 학습 방법이 효과적인 추론 시 스케일러빌리티를 가능하게 할 수 있음을 보여줍니다. 그러나 RL의 주요 과제는 검증 가능한 질문이나 인위적인 규칙에 국한되지 않고 다양한 분야에서 LLM에 대해 정확한 보상 신호를 획득하는 것입니다.

본 연구에서는 일반 질의에 대해 추가적인 추론 연산량을 활용하여 보상 모델링(RM)을 개선하는 방법, 즉 범용 보상 모델의 추론 시 스케일러빌리티를 향상시키는 방안을 모색합니다. 이를 위해 보상 모델링 기법으로는 다양한 입력 형식에 유연하게 대응하고 추론 단계에서 확장이 가능한 포인트 와이즈 생성 보상 모델링(GRM)을 채택합니다. 또한, 학습 방법으로 Self-Principled Critique Tuning(SPCT)을 제안하여 온라인 RL을 통해 GRM에서 확장 가능한 보상 생성 동작을 촉진하며, 원칙을 적응적으로 생성하고 비평을 정확하게 수행하도록 합니다. 이로 인해 DeepSeek-GRM 모델이 탄생하였습니다.

더불어, 효과적인 추론 시 스케일러빌리티를 위해 병렬 샘플링을 활용하여 연산 자원을 확장하고, 메타 보상 모델(meta RM)을 도입하여 투표 과정을 안내함으로써 스케일링 성능을 향상시켰습니다. 실험 결과, SPCT는 기존 방법과 모델에 비해 보상 모델의 품질 및 스케일러빌리티를 크게 개선하였으며, 학습 시 스케일링보다 더 나은 성능을 보였습니다. 다만, DeepSeek-GRM은 일부 작업에서 여전히 어려움을 겪고 있는 상황이며, 이는 향후 범용 보상 시스템에 대한 추가 연구로 개선할 수 있을 것으로 판단됩니다. 해당 모델은 앞으로 공개될 예정입니다.


 

위의 내용은 초록 부분의 내용인데요. 즉  이 논문에서는 범용 보상 모델의 추론 시 스케일러빌리티를 향상시키기 위해 포인트 와이즈 생성 보상 모델링(GRM)과 Self-Principled Critique Tuning(SPCT)을 적용한 DeepSeek-GRM 모델을 제안하였습니다. 또한, 병렬 샘플링과 메타 보상 모델을 도입하여 스케일링 성능을 강화하였으며, 실험 결과 기존 방법보다 뛰어난 보상 품질과 확장성을 입증하였다고 합니다.

 

 

  • 보상 모델이란?
    • 인공지능이 작업 결과물을 평가할 때, “보상”이라는 점수를 매기는데, 이 점수가 높을수록 결과물이 좋다고 판단합니다.
  • 포인트 와이즈 생성 보상 모델링(GRM)
    • 기존에는 전체 결과물에 대해 한 번에 보상을 계산했다면, GRM은 결과물의 각 부분(예: 문장, 단락 등)을 따로 평가해서 그에 맞는 보상 점수를 만들어냅니다.
    • 이렇게 하면 세부적인 요소 하나하나를 꼼꼼하게 평가할 수 있어, 전체적인 평가의 정확도가 높아집니다.
  • Self-Principled Critique Tuning(SPCT)
    • SPCT는 모델이 스스로 자신의 평가 결과를 점검하고, 잘못된 부분이 있다면 스스로 개선하도록 돕는 방법입니다.
    • 이 과정을 통해 모델은 보다 일관되고 신뢰할 만한 보상 점수를 내게 됩니다.
  • 병렬 샘플링
    • 보통 보상 계산은 하나씩 처리되는데, 병렬 샘플링은 여러 평가를 동시에 진행하여 모델이 훨씬 빠르게 작동하도록 합니다.
  • 메타 보상 모델
    • 메타 보상 모델은 기본 보상 모델 위에서 더 높은 수준의 평가를 추가하는데, 이로 인해 전반적인 보상 체계의 성능이 더 강화됩니다.

 

먼저, 보상 모델링은 주로 보상 생성 패러다임과 스코어링 패턴에 따라 구분되는데, 보상 생성 방식에는 세 가지 주요 접근법이 있습니다.

 

하나는 주어진 질문과 응답에 단순 숫자 값을 부여하는 스칼라 방식,

 

두 번째는 “비판(critique)”이라는 텍스트 형태의 평가와 함께 숫자 보상 값을 생성하는 세미-스칼라 방식,

 

그리고 세 번째는 비판만을 생성하여 그 결과에서 보상 값을 추출하는 생성적(generative) 방식입니다.

 

한편, 스코어링 패턴은 개별 응답마다 점수를 부여하는 포인트와이즈(pointwise) 방식과, 여러 후보 응답 중 최상의 응답을 선택하는 페어와이즈(pairwise) 방식으로 나눌 수 있습니다.

 

본 연구에서는 추론 시 컴퓨팅 자원의 활용도를 높이기 위해 동일한 질문과 응답에 대해 여러 보상 값을 샘플링한 후 최종 보상을 산출하는 방법에 주목하고 있습니다. 여기서 스칼라 방식은 보통 동일한 보상 값을 생성하여 이 과정에 한계를 보이지만, 페어와이즈 방식는 단일 응답 평가에 제약이 있어 추가적인 기법이 필요합니다. 이에 따라, 본 연구에서는 포인트와이즈 생성 보상 모델(Generative Reward Modeling, GRM)을 수식으로 정의하며, 각 응답에 대해 1부터 10 사이의 이산 보상 값을 부여하는 방법을 제시했습니다.

 

한편, 일반 분야에서 보상의 기준이 다양하고 명확한 정답이 없는 상황에서는 고품질 보상 생성을 위해 인위적인 규칙 대신 원칙(principles)을 도입하는 것이 중요합니다. 기존에 헌법형 AI(Constitutional AI)에서 도입된 이 원칙들은 안전한 데이터 처리 흐름을 위해 사용되었으며, 본 연구에서는 GRM의 보상 생성 과정에 이러한 원칙을 포함시켜 보상 품질을 향상시키고자 하였습니다

 

 

1. Self-Principled Critique Tuning(SPCT)

 

SPCT는 포인트와이즈 생성 보상 모델(GRM)이 질문과 여러 응답에 대해 고품질의 원칙(principles)과 비판(critique)을 스스로 생성하여, 그에 따른 보상(reward)을 정밀하게 산출할 수 있도록 하는 방법입니다. 이 방법은 크게 두 단계로 구성됩니다.

 

첫 번째 단계는 'Rejective Fine-Tuning'으로, 초기 단계에서는 모델이 다양한 입력 형식에 대해 올바른 형식의 원칙과 비판을 생성할 수 있도록 훈련합니다. 이 과정에서, 미리 학습된 GRM을 사용해 여러 경로의 결과를 샘플링하고, 예측한 보상이 실제 정답과 일치하지 않으면 해당 경로를 배제하는 전략을 사용합니다. 또한, 'hinted sampling'이라는 기법을 도입해, 정답 정보를 일부 포함시키면서 모델이 보다 올바른 보상을 내도록 돕습니다.

 

두 번째 단계는 'Rule-Based Reinforcement Learning'으로, 온라인 강화 학습을 통해 원칙과 비판의 생성 품질을 더욱 개선합니다. 이 단계에서는 GRM이 질문과 응답을 바탕으로 원칙과 비판을 생성하면, 그 결과에서 추출한 보상 값이 실제 정답과 얼마나 일치하는지를 평가합니다. 평가 결과에 따라 올바르면 보상을, 틀리면 패널티를 주어 모델이 최적의 보상을 산출하도록 유도합니다. 이를 위해 큰 KL 패널티 항을 적용해 형식 오류와 심각한 편향을 방지합니다.

 

요약하면, SPCT는 GRM이 질문에 적합한 원칙을 스스로 생성하고, 이를 바탕으로 비판을 만들어 높은 품질의 보상 값을 산출하도록 하는 새로운 학습 방식입니다. 이를 통해 모델은 다양한 입력에 유연하게 대응하며, 추론 시간에 효율적으로 확장할 수 있는 보상 시스템을 구축하게 됩니다.

 

2. Inference-Time Scaling with SPCT

DeepSeek-GRM 모델이 추론 시 더 많은 계산 자원을 활용하여 보상 생성 성능을 높이는 방법에 대해 설명했는데요. 먼저, 같은 질문과 응답에 대해 여러 번 샘플링하여 각각의 보상 점수를 생성한 후, 이 점수들을 합산하는 “투표(voting)” 방식을 사용합니다.

 

이렇게 하면 개별 보상 값이 작고 제한적인 범위(예를 들어 1부터 10까지)라도 여러 번 샘플링한 결과를 모아 더 다양하고 세밀한 최종 보상 값을 얻을 수 있습니다. 이 과정에서 보상의 다양성을 확보하기 위해 응답 순서를 무작위로 섞어 위치 편향을 줄입니다.

 

또한, 일부 샘플들은 모델의 한계나 무작위성으로 인해 낮은 품질의 원칙과 비판을 생성할 수 있기 때문에, 이에 대응하여 “메타 보상 모델(meta RM)”을 도입합니다. 메타 보상 모델은 DeepSeek-GRM이 생성한 원칙과 비판의 정확성을 평가하도록 학습된 간단한 스칼라 RM으로, 학습 시에는 이진 교차 엔트로피 손실을 사용합니다. 이 모델은 다양한 샘플링 경로에서 생성된 보상들 중에서 상위의 신뢰할 수 있는 결과만 선택하도록 안내하며, 최종적으로 메타 보상 값이 높은 일부 샘플들의 결과만을 투표로 반영하여 최종 보상을 결정합니다.

 

요약하면, 본 방식은 다수의 샘플을 통해 보상의 질과 세밀도를 향상시키고, 메타 보상 모델을 활용해 낮은 품질의 결과를 배제함으로써 추론 시 확장성을 효과적으로 달성하는 방법을 제안한 것입니다.

 

위와 같은 방식으로 학습되어진 DeepSeek-GRM-27B이 Reward Bench, PPE, RMB, ReaLMistake 등의 여러 벤치마크와 정확도 및 ROC-AUC와 같은 지표들을 활용해, 여러 기존 보상 모델과 비교한 결과, DeepSeek-GRM-27B가 전반적으로 더 높은 성능을 보였으며, 특히 여러 번 샘플링하여 보상 값을 투표하는 방식과 메타 보상 모델을 사용하면 보상의 질을 더 높일 수 있음을 확인했으며, 또한, 모델의 크기를 키우는 대신 추론 시에 여러 샘플을 사용하는 방법이 효율적이라는 점도 입증되었다고 합니다. 

 

 

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유