세세하게 살펴보기엔 알아야 할 지식들이 많으니 간단하게만 살펴보자.Microsoft에서 발표하였으며, 2023년 ICLR에 Accept 된 [논문]이다. 논문에서도 3장에서 딱 두 가지의 차별점만 언급한다. 1. DISENTANGLED ATTENTION 2. ENHANCED MASK DECODER 간단하게 살펴보자DISENTANGLED ATTENTION이런 짓거리를 왜 하는지를 이해하려면 Transformer의 구조적 이해가 필수적이다.사실 Transformer에서도 충분한 고려를 진행하고 있지만, 부족했나보다. 핵심은 Position이다. Transformer의 장점이 무엇인가.기존 RNN에서 순차적으로 처리되던 정보를, Matrix형태로 표현할 수 있게 되었다. 그런데 Matrix의 개별 Row는 ..
2024. 12. 24. 13:10 / Tech하렴