DeepSeek-V3

DeepSeek-V3는 6710억 개(토큰당 370억 개 활성) 파라미터를 탑재한 강력한 Mixture-of-Experts(MoE) 기반 언어 모델이다. 효율적인 추론과 비용 효율적인 학습을 위해 DeepSeek-V2에서 검증된 Multi-head Latent Attention(MLA)와 DeepSeekMoE 아키텍처를 적용했다. 또한 전문가 분산을 부가 로스 없이 구현하는 “auxiliary-loss-free” 접근법과 여러 토큰을 한 번에 예측하는 “multi-token prediction” 방식을 도입했다.

이 모델은 14.8조 개에 달하는 다양한 고품질 토큰으로 사전학습을 진행했다. 이후 감독학습(Supervised Fine-Tuning)과 강화학습(Reinforcement Learning)을 통해 성능을 극대화했다. 그 결과 DeepSeek-V3는 오픈소스 모델 중 최고 수준의 성능을 보이며, 일부 폐쇄형 모델과도 대등한 성능을 낸다. 전체 학습에는 단 278.8만 H800 GPU 시간을 사용했고, 되돌릴 수 없는 손실 급등이나 롤백 없이 안정적인 훈련 과정을 유지했다. 모델 체크포인트는 GitHub(https://github.com/deepseek-ai/DeepSeek-V3)에서 이용할 수 있다.

1. Basic Architecture

1) Multi-head Latent Attention (MLA)

추론 시 필요한 Key-Value(KV) 캐시 크기를 줄여, 효율적인 추론을 달성하기 위해 Key와 Value를 저차원으로 압축(latent vector)한 후 다시 확장해 사용하는 구조로써, 기존 Multi-Head Attention(MHA)와 유사한 성능을 유지하면서도 KV 캐시를 대폭 절감할 수 있으며 Query 역시 저차원으로 압축하여 학습 시 메모리 사용량을 절감할 수 있다.

2) DeepSeekMoE with Auxiliary-Loss-Free Load Balancing

(1) DeepSeekMoE 구조

여러 개의 공유(shared) 전문가와 라우팅(routed) 전문가를 둠
입력 토큰을 공유 전문가 전체와 라우팅 전문가 중 일부에만 할당(Top-k)
각 토큰이 어떤 전문가에게 배정되는지 게이트(gating) 스코어를 통해 결정

(2) 보조 로스(auxiliary loss) 없이 전문가 부하 균형

MoE에서 특정 전문가로만 토큰이 몰리지 않도록, bias term을 토큰-전문가 친화도에 동적으로 적용
배치 단위로 전문가가 과도하게 혹은 부족하게 할당되면 bias 값을 조정해 균등한 라우팅 유지
필요한 경우, 단일 시퀀스 내에서도 극단적 불균형을 막기 위해 sequence-wise balance loss를 아주 작은 계수로 추가

(3) Node-Limited Routing & No Token-Dropping

통신 비용을 줄이기 위해 각 토큰을 최대 M개 노드까지만 라우팅
로드 밸런싱이 안정적이므로, 학습 및 추론 과정에서 토큰 드롭(drop)은 사용하지 않음

2. 다중 토큰 예측 (Multi-Token Prediction, MTP)

훈련 신호(dense signal)를 풍부하게 하고, 모델이 미래 토큰 예측에 대한 ‘사전 계획(pre-planning)’ 능력을 강화하여 메인 모델 성능 향상시키고 추후에는 speculative decoding 등, 추론 가속 기법으로도 활용 가능하도록 하기 위해 도입하였음

2) 구현 방식

MTP 모듈
- 각 단계(depth)마다 Transformer 블록과 투영(projection) 층을 포함
- 메인 모델의 출력 표현 + 다음 토큰 임베딩을 결합한 뒤, Transformer 블록을 거쳐 추가 토큰을 예측
- 여러 단계( D )에 걸쳐 순차적으로 다음 토큰을 예측하며, 각 단계에서 인과적 연결(causal chain) 을 유지
- 출력 헤드와 임베딩 층은 메인 모델과 공유
MTP Objective
- 각 단계별 Cross-Entropy Loss를 구하고, 이를 평균 낸 뒤 가중치(λ)를 곱해 최종 MTP 로스를 형성
추론(Inference)
- 메인 모델만으로 추론할 수 있으며, MTP 모듈은 선택적으로 폐기 가능
- 필요 시 MTP 모듈을 speculative decoding 등에 활용해 속도 향상을 도모할 수 있음

DeepSeek-V3는 MLA와 DeepSeekMoE라는 효율적인 아키텍처를 유지하면서도, auxiliary-loss-free 방식의 로드 밸런싱, 그리고 Multi-Token Prediction(MTP) 기법을 추가하여 모델 성능과 학습 효율을 모두 한층 더 끌어올렸다. MTP 모듈은 훈련 신호를 밀집(dense)화하고 미래 예측 능력을 강화함으로써, 다양한 벤치마크에서 우수한 성능을 보이는 기반이 된다.

3. Infrastructures

DeepSeek-V3의 “3. Infrastructures” 섹션은 대규모 학습 및 추론 환경에서의 하드웨어 구성, 훈련 프레임워크, FP8 혼합 정밀도 훈련, 추론 및 배포, 그리고 향후 하드웨어 설계 제안에 대해 다룬다. 먼저 NVIDIA H800 GPU 2048개로 구성된 클러스터를 사용하고, 노드 내부에서는 NVLink·NVSwitch로, 노드 간에는 InfiniBand로 연결해 고속 통신을 지원한다. 이 환경 위에서 **16-way 파이프라인 병렬(PP), 64-way 전문가 병렬(EP), ZeRO-1 데이터 병렬(DP)**을 결합하는 방식으로 모델을 효율적으로 학습한다.

1) DualPipe 알고리즘

전·후방 연산과 통신을 겹치게(Overlap) 하여 파이프라인 병렬화 시 발생하는 “버블” 시간을 대폭 줄이고, 크로스 노드 all-to-all 통신을 최적화해 InfiniBand와 NVLink 대역폭을 최대한 활용한다. 또한 메모리 사용량을 줄이기 위해 RMSNorm이나 MLA 업프로젝션 같은 연산을 재계산(recompute)하고, EMA(Exponential Moving Average) 파라미터는 CPU에 저장하며, MTP 모듈의 임베딩과 출력 헤드를 메인 모델과 물리적으로 공유한다.

2) FP8 혼합 정밀도 훈련

(1) 연산 밀도가 높은 핵심 연산(GEMM)을 FP8로 처리하면서도 중요한 연산은 BF16/FP32 정밀도를 유지해 안정성을 확보한다.

(2) 활성화(activation)와 가중치(weights)에 대해 미세한 단위(타일·블록)로 스케일링하는 “fine-grained quantization”을 적용해 FP8의 좁은 표현 범위로 인한 오차를 낮춘다.

(3) 정기적으로 부분 합을 CUDA 코어로 승격(promote)해 FP8 곱셈 누적 과정에서 정확도를 높인다.

(4) 마스터 가중치·옵티마 상태 등은 더 높은 정밀도로 관리한다. 또한 통신과 저장 면에서도 FP8·BF16 같은 저정밀도를 적극 활용해 메모리·대역폭 부담을 줄인다.

3) 추론

“prefilling(문맥 형성 구간)”과 “decoding(토큰 생성 구간)”을 분리 운영하며, 각각의 구간에서 소량의 텐서 병렬(TP)과 전문가 병렬(EP)을 조합해 부하를 효율적으로 분산한다. MoE 전문가 간 불균형을 완화하기 위해 **고부하 전문가 중복 배치(Expert Redundancy)**를 적용하고, InfiniBand와 NVLink를 혼합해 통신 비용을 줄인다. 또한 실시간으로 전문가 라우팅을 최적화하거나, 통신 시간을 숨기기 위해 마이크로 배치를 겹쳐 처리하는 등의 기법을 시도한다.

마지막으로 하드웨어 설계 제안에서는, SM(Streaming Multiprocessors)을 소모하지 않고 통신을 오프로딩(offloading)할 수 있는 통신 전용 코프로세서, FP8 연산 시 더 높은 누적 정밀도(accumulation precision), 타일·블록 단위 양자화(fine-grained quantization) 지원, 온라인 FP8 양자화와 전치(Transposed) GEMM 연산 지원 등을 제안한다. 이를 통해 대규모 MoE 모델의 학습·추론을 더욱 빠르고 저비용으로 구현할 수 있음을 강조한다.

4. Pre-Training

1) 데이터 구성(Data Construction)

사전학습 데이터에서 수학·프로그래밍 비중을 높이고, 다국어(영어·중국어 이외 언어) 커버리지를 확장함.
전체 14.8조(14.8T)개의 다양한 고품질 토큰을 사용.
FIM(Fill-in-Middle) 기법을 도입해 중간 텍스트 예측 능력을 강화하되, 모델의 일반적인 다음 토큰 예측 성능은 저해되지 않음(Prefix-Suffix-Middle 구조를 10% 비율로 적용).
새로 설계한 토크나이저는 12.8만(128K) 어휘를 갖춘 Byte-level BPE 방식으로, 다국어 압축 효율을 높이도록 최적화함.
문장부호와 줄바꿈을 합친 토큰이 few-shot 평가 등에서 편향을 일으킬 수 있어, 학습 시 일부를 랜덤 분할하여 다양한 케이스를 노출함.

2) 하이퍼파라미터(Hyper-Parameters)

모델 구조: Transformer 레이어 61개, 히든 차원 7168, MLA(Multi-head Latent Attention) 및 MoE(1개 공유 전문가+256개 라우팅 전문가, 그중 8개 활성)로 구성.
MTP(Multi-Token Prediction) 깊이 D=1D=1을 적용해 각 토큰이 다음 토큰 이외에도 추가 토큰을 하나 더 예측.
최종적으로 총 6710억 개 파라미터(토큰당 활성 파라미터 370억 개) 보유.
학습 설정: 최대 입력 길이 4K, 14.8조 개 토큰으로 학습.
- 초기 2000 스텝 동안 학습률을 2.2×10^-4까지 선형 상승 후, 10조 토큰 동안 유지 → 이후 코사인 감쇠로 2.2×10^-5까지 감소 → 마지막 5000억 토큰은 두 단계로 나누어 학습률 고정.
- 배치 크기는 3072에서 15360까지 점진적으로 늘린 뒤 고정.
- 노드 제한 라우팅(M=4)·보조 로스 미사용(aux-loss-free) 로드 밸런싱 등을 통해 MoE 학습을 효율적으로 진행.
- MTP 로스 가중치(λ)는 초반 10조 토큰 동안 0.3, 이후 4.8조 토큰은 0.1로 설정.

3) 롱 컨텍스트 확장(Long Context Extension)

사전학습 완료 후, YaRN 기법을 사용해 문맥 길이를 단계적으로 4K→32K→128K까지 늘림(각 1000 스텝).
확장 과정에서도 모델 성능이 안정적으로 유지되어, 최대 128K 길이의 입력에 대해서도 “Needle In A Haystack” 테스트에서 우수한 결과를 확인.

4) 평가(Evaluations)

영어·중국어 중심으로 다국어 벤치마크를 포함해, 다양한 태스크(MMLU, ARC, GSM8K, HumanEval, C-Eval 등)에 대한 퍼플렉서티 기반 및 생성 기반 평가를 수행.
DeepSeek-V3-Base는 DeepSeek-V2-Base, Qwen2.5 72B, LLaMA-3.1 405B 등과 비교 시 수학·코딩 분야를 비롯해 전반적으로 높은 성능을 보이며, 특히 다국어·영어 영역에서도 우수한 결과를 기록.
동시에 각 트릴리언(1조) 토큰 학습당 약 18만(H800 GPU 시간)만 소요할 정도로 학습 효율이 뛰어남.

5) 추가 논의(Discussion)

- MTP 전략

작은/큰 스케일의 MoE 모델에서 MTP를 적용했을 때, 대부분의 벤치마크에서 성능이 상승함을 확인.
추론 시에는 MTP 모듈을 제거해도 되므로, 추가 계산 비용 없이 성능 이점을 확보 가능.

- 보조 로스 없는(aux-loss-free) 로드 밸런싱

보조 로스를 사용하는 기존 방식 대비 대부분의 태스크에서 성능이 개선됨을 실험으로 입증.
게이트 스코어에 동적으로 bias를 더해 전문화(specialization)와 부하 균형을 동시에 달성.

- 배치 단위 VS. 시퀀스 단위 로드 밸런싱

시퀀스 단위로 균형을 강제하면 도메인별 전문가 특화가 제한될 수 있으나, 배치 단위나 보조 로스 미사용 방법은 더 유연한 로드 밸런스를 허용.
실제로 배치 단위 균형 방식도 aux-loss-free 방식과 유사한 수준의 성능을 달성 가능.
소규모 시퀀스나 추론 시 도메인 편향 문제 등을 해결하기 위해, 대규모 병렬학습·전문가 중복 배치 등 최적화 방안도 제시.

5. Post-Training

1) Supervised Fine-Tuning (SFT)

데이터 구성: 총 150만 개의 도메인별 학습 데이터(수학, 코드, 논리 퍼즐, 창의적 글쓰기 등)를 마련함.
R1 기반 데이터 생성: DeepSeek-R1 모델로부터 긴 Chain-of-Thought(Cot) 데이터를 생성하되, 불필요하게 장황하거나 형식이 어지러운 부분을 정제함.
학습 과정:
1. 특정 도메인(코드, 수학, 일반 추론 등)에 특화된 “전문가 모델”을 만든 뒤(예: SFT + RL로 학습),
2. 이 전문가 모델이 생성한 품질 높은 응답을 기반으로 최종 SFT용 데이터를 엄선(rejection sampling)하여 DeepSeek-V3에 반영.
非추론 데이터(창의적 글쓰기, 간단 Q&A 등)는 DeepSeek-V2.5로부터 응답을 생성하고, 휴먼 검수를 거쳐 정확도·적절성을 보장.

2) Reinforcement Learning (RL)

Reward Model(RM):
- Rule-based RM: 정답 검증이 명확한 문제(수학, LeetCode 등)에 대해 컴파일·테스트 케이스 등으로 정확성을 측정.
- Model-based RM: 정답이 자유형 또는 정해지지 않은 문제(창의적 글쓰기 등)에 대해, 모델이 직접 적합성을 평가.
GRPO(Group Relative Policy Optimization):
- 과거 정책(old policy)으로 여러 개의 응답을 생성하고, 그룹 내 상대적 우수성(advantage)에 따라 정책을 업데이트.
- 이로써 별도의 대형 ‘비평 모델(critic model)’ 없이도 RL을 효과적으로 수행.

3) 평가(Evaluations)

표준 벤치마크: MMLU, DROP, GPQA, SimpleQA, C-Eval, LongBench 등 다양한 태스크에서 DeepSeek-V3는 오픈소스 모델 중 최고 성능을 달성했고, GPT-4o·Claude-3.5 같은 폐쇄형 모델에도 견줄 만한 결과를 보임.
코드·수학 성능:
- 코딩 문제(HumanEval, LiveCodeBench, Codeforces 등)와 SWE-Bench, Aider 같은 실용 영역 모두에서 우수함.
- 수학 영역(AIME, MATH-500, CNMO)에서도 큰 폭으로 성능을 끌어올려, 오픈소스 모델 중 최고 수준을 입증.
오픈엔드 평가: Arena-Hard, AlpacaEval 2.0 등 GPT-4기반 심사 환경에서 Claude-3.5, GPT-4o 등과 대등하거나 우수한 성능을 시현.
Generative Reward Model(RewardBench): GPT-4o·Claude-3.5와 비슷한 판단 능력을 보였으며, 자체 투표(majority voting)로 판단 정확도를 더 높일 수 있음을 확인.

4) DeepSeek-R1 증류(Distillation)

DeepSeek-R1 모델로부터 긴 코딩/수학 CoT를 받아 “전문가 모델”로 학습함으로써 문제 해결 정확도가 크게 향상됨(하지만 응답 길이가 길어지는 trade-off 존재).
DeepSeek-V3에서는 성능과 출력 길이를 균형 있게 조율하여 최적 세팅을 채택.

5) Self-Rewarding

일반적인 태스크에선 하드코딩된 룰 검증이 어려워, 모델 자체가 스스로 투표·평가를 수행하는 “헌법적 AI(constitutional AI)” 접근을 적용.
이로써 주관적 평가 영역에서도 DeepSeek-V3가 일정 수준 이상 정합된 답변을 생산하도록 유도.

6) Multi-Token Prediction (MTP) 활용

MTP를 통해 한 번에 2토큰씩 예측하고, speculative decoding 기법과 결합하면 생성 속도가 약 1.8배 향상됨.
실제 생성 과정에서 추가 토큰(두 번째 토큰) 예측의 **수용률이 85~90%**로 높게 나타나, 디코딩 효율을 크게 개선.

6. Conclusion

1. 결론(Conclusion)

DeepSeek-V3는 총 6710억 개 파라미터 중 370억 개가 활성화되는 대규모 MoE 모델로, 14.8조(14.8T) 토큰으로 학습했다.
MLA(Multi-head Latent Attention)와 DeepSeekMoE 아키텍처에 더해, 보조 로스를 사용하지 않는(aux-loss-free) 전문가 부하 균형 기법과 멀티 토큰 예측(Multi-Token Prediction) 목표 함수를 새롭게 도입했다.
FP8 혼합 정밀 학습과 정교한 엔지니어링 최적화를 통해 비용 효율적인 학습을 달성했다(총 학습 비용 278.8만 H800 GPU 시간).
DeepSeek-R1 계열 모델의 추론 능력 증류를 성공적으로 진행해, 수학·코드 등 다양한 영역에서 우수한 성능을 발휘했다.
평가는 DeepSeek-V3가 현재 공개된 오픈소스 모델 중 최고 수준의 성능을 보여줌을 입증하며, GPT-4o·Claude-3.5-Sonnet 등 주요 폐쇄형 모델과도 대등한 결과를 보인다고 결론 내렸다.

2. 한계점(Limitations)

배포 부담: 효율적인 추론을 위해 권장되는 배포 단위가 상대적으로 커서, 소규모 팀에는 다소 부담이 될 수 있다.
추가 성능 향상의 여지: 이미 DeepSeek-V2보다 2배 이상 빠른 생성 속도를 달성했으나, 하드웨어 발전과 함께 더 높은 추론 효율을 기대할 수 있다.

3. 향후 연구 방향(Future Directions)

아키텍처 개선:
- 학습·추론 효율을 더 높이고, 무한대에 가까운 문맥 길이를 처리할 수 있는 방법을 모색.
- Transformer 구조 한계를 넘어 새로운 모델링 역량을 발굴하고자 함.
데이터 확장:
- 양적·질적 측면에서 학습 데이터를 계속 늘리고, 다양한 신호를 결합해 데이터 스케일링을 추진할 계획.
심화 추론(Deep Thinking) 능력 고도화:
- 모델의 추론 길이와 깊이를 확장해, 보다 지능적이고 난해한 문제 해결이 가능한 상태로 발전시키고자 함.
다차원 평가 체계 구축:
- 특정 벤치마크만 최적화하는 것을 방지하고, 보다 폭넓고 다각적인 모델 역량 평가 방법을 개발해 연구 방향을 왜곡 없이 정진할 계획.

결론적으로 DeepSeek-V3는 장기적 관점의 오픈소스 노선(“longtermism”)을 견지하며, AGI(Artificial General Intelligence) 달성을 위한 도전들을 꾸준히 이어갈 예정이다.

'A.I.(인공지능) & M.L.(머신러닝) > LLM' 카테고리의 다른 글

DeepSeek 살펴보기 (0)	2025.01.31
Custom Model Training을 위한 Hugging Face Trainer 구조 파악하기 (0)	2025.01.22
DeBERTa: Decoding-enhanced BERT with Disentangled Attention 느낌만 맛보기 (0)	2024.12.24
eCeLLM 논문 리뷰: Instruction Tuning for E-Commerce (Data Example 추가) (0)	2024.12.23
DSPy(Declarative Self-improving Language Programs, pythonically) (1)	2024.12.16