후단 대학 연구진, 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 복구하는 희소 어텐션 메커니즘 ‘Lorsa’ 소개

발행일: 2025년 5월 7일 오후 2시 07분

대형 언어 모델(LLMs)은 최근 주목을 받았지만, 내부 메커니즘을 이해하는 것은 여전히 어렵다. 트랜스포머 모델의 개별 어텐션 헤드를 조사하면, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이러한 헤드에서의 특정 기능성을 확인하는 실험을 통해 후단 대학 연구진은 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다. 이 메커니즘은 희소한 어텐션 유닛을 복구하여 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 발견할 수 있게 해준다.

#AI논문요약 #기술뉴스 #머신러닝 #응용프로그램 #인공지능

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자

본 기사에 대한 의견을 공유해주세요.