언어 모델은 정말로 얼마나 많은 정보를 기억할까? 메타의 새로운 프레임워크가 비트 레벨에서 모델 용량을 정의합니다

현대 언어 모델은 점점 더 많은 데이터를 기억하는 것에 대해 증오를 받고 있습니다. 15조 토큰으로 훈련된 80억 파라미터 트랜스포머와 같은 모델들은 훈련 데이터를 의미 있는 방식으로 기억하는지 의문이 제기됩니다. 일반적인 기술들인 데이터 추출과 소속 추론도 이 문제에는 부족합니다. 메타의 새로운 프레임워크는 모델의 용량을 비트 수준에서 정의하여 이 문제를 다루고 있습니다. 이 프레임워크는 모델이 훈련 데이터를 얼마나 많이 기억했는지를 정량화하고, 더 나은 비교와 평가를 가능케 합니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자