후단 대학 연구진, 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 복구하는 희소 어텐션 메커니즘 ‘Lorsa’ 소개

대형 언어 모델(LLMs)은 최근 주목을 받았지만, 내부 메커니즘을 이해하는 것은 여전히 어렵다. 트랜스포머 모델의 개별 어텐션 헤드를 조사하면, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이러한 헤드에서의 특정 기능성을 확인하는 실험을 통해 후단 대학 연구진은 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다. 이 메커니즘은 희소한 어텐션 유닛을 복구하여 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 발견할 수 있게 해준다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자