TIS-DPO: 토큰-레벨 중요도 샘플링을 통한 직접적인 선호도 최적화
대규모 언어 모델의 선호도 조정에 있어 Direct Preference Optimization (DPO)은 간단함과 효과성으로 널리 사용되고 있다. 그러나 DPO는 응답 전체를 단일 arm으로 다루는 밴딧 문제로 파생되어 토큰 간 중요도 차이를 무시함으로써 최적화 효율성에 영향을 줄 수 있고 최적 결과를 얻기 어렵게 만들 수 있다. 본 연구에서는 DPO에 최적인 데이터는 승리와 패배 응답의 각 토큰에 대해 동일한 기대 보상을 가져야 한다고 제안한다. 왜냐하면 토큰 중요도에 차이가 없기 때문이다. 그러나 이러한 토큰 간 중요도를 고려한 최적 데이터를 구성하는 것은 어렵다. TIS-DPO 메커니즘은 토큰 간 중요도 차이를 고려하여 최적 데이터를 추출하기 위한 새로운 방법을 제시한다. TIS-DPO는 각 토큰이 선호도 기여에 따라 다른 가중치를 가진다는 가정하에 토큰-레벨 중요도 샘플링을 수행한다. 이를 통해 효율적인 선호도 최적화를 달성할 수 있게 된다.
출처: Apple
요약번역: 미주투데이 서현진 기자