소형 모델, 큰 추론 향상: USC 연구진이 LoRA로 비용 효율적 강화 학습을 위한 Tina를 소개합니다
USC 연구진은 LoRA를 활용하여 비용 효율적인 강화 학습을 위한 Tiny Navigation Agent(Tina)를 개발했다. Tina는 Language Model(LM)에서 강력한 다단계 추론을 달성하는 데 중요한 역할을 한다. 과학 연구 및 전략 계획과 같은 복잡한 문제 해결 분야에서 이러한 추론 능력은 중요하다. Tina는 지도 미세조정(Supervised Fine-Tuning, SFT)에 의해 모델이 더 발전된 모델로부터 단계별 추론 데모를 모방하도록 학습하는 전통적인 추론 기술을 개선하는 데 사용된다. 이를 통해 Tina는 강화 학습에서 비용 효율적인 모델이 될 수 있다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자