BABEL : 바벨탑 이전으로

최근 LLM 개발에서 Qwen 과  QwQ 와 같은 모델들로 새로운 강자로 부상한 중국의 Alibaba가 이번에 새로운 모델을 발표했습니다. 
이 모델의 이름은 바벨입니다. Babel의 arixiv 논문 제목은 Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers 인데요 말 그대로 90% 이상의 화자가 사용할 수 있도록 여러 언어로 학습된 모델이라고 합니다. 

(인간은 바벨탑을 짓고 신의 권위에 도전했다가 바벨탑은 무너지고 그 이전까지 같은 언어를 사용했던 인간들은 서로 다른 언어를 하게 되어 갈등과 분쟁을 반복했다고 전해지죠.)

 

사실, 현재 LLM들은 영어나 중국어를 기반으로 프랑스어나 독일어 와 같은 발달된 국가들의 주요 언어들만을 학습하여 오픈소스 다국어 LLM은 여전히 부족하며 기존 모델들은 언어 커버리지가 제한적입니다. 특히 힌디어(3억 4,500만 명 L1 화자), 벵골어(2억 3,700만 명 L1 화자), 우르두어(7천만 명 L1 화자)와 같은 인구수는 많으나, 덜 발달된 국가의 언어들은 LLM으로 부터 상대적으로 소외되어 왔습니다. 그래서, 이 BABEL은 세계 인구의 90% 이상을 지원하며, 화자 수 기준 상위 25개 언어를 포함하고, 다른 오픈 다국어 LLM들이 소홀히 다루는 여러 언어를 포괄하는 오픈 다국어 LLM으로 개발되었다고 합니다. BABEL은 두가지 버전으로 학습되었다고 합니다. 효율적인 추론 및 파인튜닝에 최적화되어 있는 Babel-9B 그리고 Babel-83B으로 개발되어 국어 태스크에서 다른 동급 오픈 LLM보다 뛰어난 성능을 보이며, Babel-9B-Chat과 Babel-83B-Chat은 각각 최고 및 상업용 모델 수준의 성능을 기록하였다고 합니다.

* L1 : 제1언어, 사람이 태어나서 처음으로 익히게 되는 언어

 



화자수 상위 25개 언어 : 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 벵골어, 포르투갈어, 러시아어, 우르두어, 인도네시아어, 독일어, 일본어, 스와힐리어, 필리핀어, 타밀어, 베트남어, 터키어, 이탈리아어, 자바어, 한국어, 하우사어, 페르시아어, 태국어, 버마어 


 

지원 언어 목록

 

25개 국어를 학습하기에, 데이터 수집에 어려움이 있었을 것으로 추정됩니다. 저자는 학습에 사용된 데이터를 위키피디아 및 각 국의 교과서, CC-News(Crawl)에서 제공하는 언론 콘텐츠, CulturaX(와 같은 웹 기반 코퍼스, 그리고 MADLAD-400 데이터셋 등을 활용했다고 합니다. 이후 많은 언어에 대해 고품질 학습 데이터의 가용성이 제한적이기 때문에, 가능한 최고의 데이터 품질을 보장하기 위해 데이터 정제 파이프라인 최적화에 큰 중점을 두었다고 합니다. 방법은 아래와 같습니다. 

  • 정규화 (Normalization):
    • 미리 정해진 규칙을 적용하여 100자 미만의 문서나 30% 이상의 숫자를 포함하는 문서 등 저품질 데이터를 걸러냅니다.
  • LLM 기반 품질 분류기:
    • Qwen-2.5-0.5B-Instruct 모델(Qwen et al., 2025)을 기반으로 분류기를 훈련시키며, 강력한 모델 기반 라벨링과 전문가의 언어학적 개선을 결합하는 방법을 활용하여 훈련 데이터셋을 구성합니다.
    • “LLM-as-a-judge” 접근 방식을 채택하여, GPT-4o가 다양한 측면에서 잠재적 학습 데이터를 평가하고 점수를 부여하도록 하고, 이후 언어학 전문가들이 이 초기 점수를 꼼꼼히 검토하여 고품질 데이터만 선택하도록 합니다.
  • 중복 제거 (Deduplicate):
    • 해싱, 중복 문서 쌍 식별, 그래프 구성, 중복 기록 등을 통해 중복 문서를 식별하고 제거합니다.

바벨의 모델 레이어 확장 방식

 

모델 구조 

 

바벨의 경우, 굉장히 많은 수(25개 언어)의 언어를 학습하며 모델의 성능 상한을 높이기 위해서 Qwen2.5B-7B, Qwen2.5-72B-Base의 구조를 활용하여 모델 확장을 통해 파라미터 수를 늘려서 학습하는 방식을 활용했다고 합니다. 특히, 원래의 구조와 동일한 새로운 레이어를 직접 추가하는 구조화된 방법인 레이어 확장을 사용합니다.

이 방법은 어텐션 헤드, 히든 임베딩, 임베딩 레이어 등과 같은 모델의 핵심 구성 요소에는 영향을 주지 않습니다. 또한, 중간 및 후반 레이어가 편집에 덜 민감하다는 관찰에 영감을 받아, 모델의 후반부 레이어를 중점으로 확장했다고 합니다. 또한 레이어의 추가 위치와 새로 추가된 레이어를 초기화하는 방법에도 차이를 두어 모델 성능을 비교하여 성능 저하가 최소화되는 최적의 레이어 확장 방법을 선택했다고 합니다.

 

1)  레이어의 추가 위치 : 기존 레이어 사이에 삽입하는 방식과 원래 모델의 마지막 레이어에 직접 추가하는 방식

2) 레이어 초기화 방식 : 원래 파라미터를 복제하는 초기화 방식과 노이즈를 도입하는 초기화 방식

 

레이어 추가 및 초기화 방식에 따른 성능 비교

 

이를 테스트 해본 결과 직접 추가하는 경우 성능 저하가 크며, 기존 아키텍처 내에 삽입하는 방식이 더 안정적이면서  노이즈 없이 복제하는 방식이 가장 높은 성능을 보이나, 학습 효과를 위해 미세한 Gaussian 노이즈(평균 0.0001)를 적용하는 방법을 선택하였다고 합니다. 

 

모델 학습 방법

Qwen2.5B-7B와 Qwen2.5-72B을 base model로 활용하여 10B와 80B 두 가지 모델로 확장하였는데  아래의 그림과 같은 방법을 활용하여 각각의 모델 레이어를 확장하고 초기화하였다고 합니다. 구체적으로는 모델의 후반부에 레이어를 삽입하며, 기존 레이어의 중간마다 하나씩 추가합니다.

 

Layer 확장 방안

사전 학습 전략

1) 복구

잘 학습된 파라미터를 확장하면서 성능이 저하됩니다.( 논문에서는 원래 학습되어 있는 파라미터 간의 협력이 깨진다라고 표현했습니다) 첫 번째 사전 학습 단계에서는 모든 언어를 포괄하는 크고 다양한 일반 훈련 코퍼스가 복구에 매우 중요합니다. 각 언어별로 코퍼스를 가능한 한 균등하게 샘플링하지만, 일부 언어의 코퍼스 가용성 제한으로 완벽한 균등 분포는 어려울 수 있습니다. 또한, 성능 복구를 가속화하기 위해 1단계 사전 학습에서는 영어와 중국어 훈련 코퍼스를 결합하여 활용했다고 합니다.

 

2) 연속 학습

복구 이후, 특히 기존 모델에서 소홀히 다뤄졌던 언어들의 다국어 능력을 강화하기 위해, 사전 학습 코퍼스에서 저자원 언어의 비율을 높이고 모델 학습을 지속합니다. 또한, 튜토리얼이 LLM이 새로운 지식을 습득하는 데 더 효과적이므로, 훈련 코퍼스에서 교과서의 비율도 증가시켜 학습을 진행했다고 합니다. 

 

평가

  • Babel-9B-Base (10B 모델):
    • 평균 점수 63.4로 평가된 10B 사이즈 베이스 모델 중 최고 성능을 기록했습니다.
    • 가장 근접한 경쟁 모델인 Gemma2-9B-Base(59.5)보다 3.9점 우위입니다.
    • 특히, XCOPA(89.2), MGSM(43.4), XNLI(70.9), Flores-200(55.1)에서 최고 성능을 달성하여 다국어 추론, 이해, 번역 능력이 뛰어남을 보여줍니다.
  • Babel-83B-Base (80B 모델):
    • 평균 점수 73.2로 평가된 모델 중 가장 우수한 성능을 보였으며, 경쟁 모델인 Qwen2.5-72B(69.8)보다 3.4점 높습니다.
    • MMMLU(76.3), M3Exam(72.1), XCOPA(92.8), XNLI(76.6), Flores-200(58.8) 등에서 최고의 결과를 기록했습니다.

이러한 결과는 Babel이 다국어 이해, 추론, 번역 분야에서 탁월함을 입증하며, 해당 파라미터 범위 내에서 가장 유능한 오픈 다국어 LLM임을 보여줍니다.

 

더욱 자세한 분석을 위하여 언어별로 성능을 확인했다고 합니;다. 특히, 각 언어의 공개 학습 코퍼스 가용성을 반영하는 Common Crawl의 월간 아카이브 기반 통계 지표(Crawl, 2025) 를 기반으로 고자원 언어, 저자원 언어로 분류하였는데 점수가 1보다 높은 언어(영어, 중국어, 독일어, 스페인어, 프랑스어, 인도네시아어, 이탈리아어, 일본어, 포르투갈어, 러시아어, 베트남어)는 고자원 언어로, 점수가 1 미만인 언어(힌디어, 표준 아랍어, 벵골어, 우르두어, 스와힐리어, 타밀어, 터키어, 한국어, 자바어, 하우사어, 태국어, 이란 페르시아어, 필리핀어, 버마어)는 저자원 언어로 분류됩니다. 기존 다국어 LLM들이 충분히 탐구하지 못한 저자원 언어에 주목하였다고 합니다. 
* Common Crawl은 웹을 크롤링하고 아카이브와 데이터 세트를 대중에게 무료로 제공하는 비영리 501 조직입니다. Common Crawl의 웹 아카이브는 2008년부터 수집된 페타바이트 규모의 데이터로 구성되어 있습니다. 대략 한 달에 한 번씩 크롤링을 완료합니다.


위의 그림에서 볼 수 있듯 Babel-9B-Base는 저자원 언어에서 Qwen2.5-7B-Base에 비해 (예: MMMLU: 50.0 대 54.4, XNLI: 66.7 대 69.2, MGSM: 25.5 대 37.8) 상당한 성능 향상을 보이며, 고자원 언어에서는 Gemma2-9B-Base와 비교해 (예: MMMLU: 64.7 대 66.4, XNLI: 65.2 대 76.6, MGSM: 38.9 대 46.3) 우수한 결과를 나타냅니다. 이로써 Babel-9B-Base는 평균 성능이 가장 높으며, 고자원과 저자원 언어 간 균형을 잘 유지함을 알 수 있습니다.

 

25개의 널리 사용되는 언어(자원이 부족한 언어 포함)를 지원하여 전 세계 인구의 90% 이상을 포괄하는 오픈 다국어 LLM인 Babel을 소개했습니다. 혁신적인 레이어 확장 기법을 통해 Babel은 최신 성능을 달성하였으며, 두 가지 변형인 Babel-9B와 Babel-83B는 다국어 벤치마크에서 뛰어난 결과를 보였습니다. Babel은 오픈 다국어 LLM의 새로운 기준을 제시하며, NLP 개발에서 포용성의 중요성을 강조하고, 다국어 언어 모델링 연구의 강력한 토대를 마련하였다고 합니다.

 

Huggingface Link:

https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5

 

 

테스트 결과 
(추가  예정)

  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유