안녕하세요 이번에 Nvidia 가 R1보다 성능이 좋다고 주장하는 모델인 라마-3.1-네모트론-울트라-253B-v1이 출시되었습니다. 해당 모델은 라마-3.1-405B-인스트럭트 모델을 기반으로 제작되었다고 합니다. Nvidia에서 작성한 출시 글을 보면, 이 모델을 제작하게 된 이유를 명확하게 작성하고 있는데요.
현재, AI의 발전은 Agent에 초점을 두고 이루어지는데요. 특히, 여러 기업들이 생산성 향상이라는 목표를 가지고 Agent를 앞다투어 개발하고 있습니다. AI 에이전트는 다양한 데이터 포인트와 동적 환경 속에서 발생하는 문제들을 해결하기 위해 고도의 추론 능력을 필요로 합니다. 또한 복잡한 시나리오에 대해 신속하고 논리적인 결정들을 내릴 수 있으며, 이를 통해 비즈니스의 민첩성과 전략적 대응력을 높일 수 있어야 하기에, Long Thinking, Best-of-N, Self-Verification 등의 기법을 이용한 강력한 성능의 추론 모델이 필요합니다. 이에 엔비디아에서는 Nvidia Llama Nemotron reasoning model family 를 개발했다고 합니다.
Nvidia Llama Nemotron reasoning model family은 총 3가지 크기별로 나뉘는데 나노(Nano, 8B), 슈퍼(super, 49B), 울트라(Ultra, 253B)로 구성되어 있습니다. Nvidia에서는 이 세가지 모델 모두가 동급 모델 대비 가장 뛰어난 성능을 가진다고 얘기하고 있습니다.



또한, Nvidia Llama Nemotron reasoning model family은 테스트 시간 스케일링을 활용하였다고 합니다. 테스트 시간 스케일링는 모델의 응답을 개선하기 위해 추론 시점에 추가 연산 자원을 투입하여 다양한 옵션을 탐색하고 논리적 연결을 형성할 수 있도록 돕는 기법입니다. 이 과정 덕분에 모델은 복잡한 문제에 대해 더 심층적으로 사고하고, 결과적으로 더 나은 해결책을 도출할 가능성이 높아집니다.
다만, 현재 최첨단 추론 모델들은 개발자가 언제 논리적 추론을 활성화할지 선택할 수 없는 한계가 있었는데, NVIDIA의 Llama Nemotron 모델 패밀리는 시스템 프롬프트를 통해 이 기능을 켜거나 끌 수 있도록 하여, 논리적 추론이 필요 없는 경우에도 높은 유연성을 제공하는 점이 돋보인다고 합니다.
해당 블로그 글에는 Ultra 모델을 학습 시키는 방법은 따로 공개하고 있지는 않습니다. 대신, Super 모델의 학습 방법은 공개하고 있는데요. 아마도 Llama-3.1-405B-instruct를 기반으로 동일하게 학습을 진행하지 않았을까 추정됩니다.
NVIDIA Llama Nemotron Super 모델은 Llama 3.3 70B Instruct를 기반으로 한 모델로, 후처리 과정을 통해 모델 크기를 줄이면서도 원래 성능을 유지 및 향상시켰습니다. 후처리 과정은 크게 세 가지 단계로 나뉩니다.
- 네트워크 아키텍처 최적화 및 지식 증류
- Neural Architecture Search(NAS)와 지식 증류 기법을 이용해 모델의 파라미터 수를 특정 하드웨어에 최적화된 수준으로 맞췄습니다.
- 지도 미세조정(SFT)
- 약 60B 토큰 분량의 합성 데이터를 활용해 모델의 비추론(Reasoning OFF) 성능을 개선했습니다. 이 데이터는 NVIDIA가 생성 및 검증한 것으로, Chat, Math, Code, Instruction Following, 그리고 Function Calling 작업에서 최상의 성능을 내기 위한 것입니다.
- 동시에, DeepSeek-R1 데이터를 이용해 순수 추론(Reasoning ON) 성능도 강화했습니다. 두 모드는 시스템 프롬프트를 통해 전환할 수 있어, 하나의 모델로 추론 및 비추론 작업을 모두 수행할 수 있습니다.
- 강화 학습(RL) 단계
- REINFORCE 알고리즘과 인간 피드백(RLHF)을 활용해 사용자 의도에 맞는 응답 및 채팅 성능을 개선했습니다.
후처리 과정을 거치며, NVIDIA Llama Nemotron 모델은 강력한 추론 능력과 함께 도구 호출, 명령 수행 등 기존 LLM의 강점을 잃지 않는 모델로 탄생했습니다. 또한, 전체 파라미터 수를 최적화해 하드웨어 효율성을 극대화하였습니다.
추론 성능 및 테스트 타임 스케일링
- Llama Nemotron Ultra 253B 모델은 253B 파라미터로, 상위 수준의 오픈 추론 모델들과 맞먹거나 뛰어난 성능을 보이며 높은 처리량과 도구 호출 능력을 함께 제공합니다.
- 테스트 타임 스케일링은 멀티에이전트 협업 시스템을 통해 이루어집니다. 이 방법은 인간 팀이 문제에 대해 아이디어를 브레인스토밍하고 피드백을 반영하여 최적의 해결책을 도출하는 방식과 유사합니다. 이를 통해 검증 가능한 문제뿐 아니라, 연구 아이디어 도출이나 복잡한 소프트웨어 개발 같은 검증이 어려운 작업에서도 우수한 성능을 발휘합니다.
모델 활용 및 배포
- NVIDIA NeMo 프레임워크를 사용해 SFT와 RL을 통한 맞춤형 모델 구축이 가능하며, 해당 모델은 오픈소스와 함께 데이터, 기술 보고서 등이 공개되어 있어 사용자들이 쉽게 접할 수 있습니다.
- 빌드나 프로덕션 단계에서는 NVIDIA AI Enterprise 기반의 GPU 시스템 또는 파트너 생태계를 통해 손쉽게 배포할 수 있습니다.
결론적으로, NVIDIA Llama Nemotron 모델 패밀리는 강력한 추론과 기존 명령 수행 능력을 동시에 제공하는 최적화된 모델로, 에이전트 AI 시스템 내에서 복잡하고 다양한 작업을 효과적으로 수행할 수 있도록 설계되었다고 합니다.
'A.I.(인공지능) & M.L.(머신러닝) > LLM' 카테고리의 다른 글
HyperCLOVA X SEED 출시 (1) | 2025.04.30 |
---|---|
Nvidia의 새로운 LLM 파라미터 축소 방법론 : PUZZLE: DISTILLATION-BASED NAS FORINFERENCE-OPTIMIZED LLMS (1) | 2025.04.11 |
딥시크 R2의 시작 : Inference-Time Scaling for Generalist Reward Modeling (0) | 2025.04.08 |
Gaudi로 vLLM을 통해 LLM을 서빙해보자 (0) | 2025.03.29 |
BABEL : 바벨탑 이전으로 (0) | 2025.03.15 |