밀라 & 몬트리올 대학 연구진, 효율성 희생 없이 장거리 맥락 언어 모델링을 촉진하는 Forgetting Transformer (FoX) 소개
트랜스포머는 장거리 종속성을 효율적으로 다루는 구조를 도입하여 순환에 의존하지 않고 시퀀스 모델링을 혁신했다. 입력 토큰을 동시에 처리하고 self-attention 메커니즘을 활용하여 자연어 작업에서 뛰어난 성능을 달성할 수 있다. 그러나 그들의 우세함에도 불구하고, 특히 순환 신경망에서 발견되는 몇 가지 핵심 기능 중 일부는 빠져있다. FoX는 이러한 한계를 극복하고 효율성을 희생하지 않으면서 장거리 맥락 언어 모델링을 향상시킨다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자