LLM은 파라미터의 개수가 많으면 많을수록 뛰어난 성능을 가진다는 것을 여러 연구를 통해 증명함에 따라, LLM을 개발하는 Meta, Google, OpenAI 등의 기업들은 경쟁적으로 더 큰 모델을 출시하고 있다. 그러나, 모델이 커짐에 따라 이를 학습시키고 서빙하기 위한 컴퓨팅 자원 비용 역시 같이 증가하고 있다. 이런 상황에서 더 거대한 LLM을 더 적은 비용으로 학습하고, 서빙하기 위해서 나온 기술이 바로 Mixture of Experts 즉 MoE이다.MoE를 채택한 모델은 대표적으로 Mistral AI의 Mixtral-8x7B가 있다. OpenAI의 GPT도 MoE 구조를 사용한다고 추측되지만, 정확한 구조는 공개되지 않았다. 이러한 MoE 모델들은 전체 파라미터 중 일부만을 사용하여 효율적으..
2024. 8. 21. 16:55 / Tech리