
Apple과 Duke 연구진이 속도와 정확도를 향상시키기 위해 LLM이 중간 답변을 제공할 수 있는 강화 학습 접근 방식을 소개했다. 일반적인 “생각한 후에 대답” 방법은 응답 시간을 늦추고 챗봇과 같은 실시간 상호작용을 방해할 수 있으며, 이전 추론 단계의 오류가 최종 답변을 잘못 이끌 수 있는 위험을 안고 있다.
Apple과 Duke 연구진이 속도와 정확도를 향상시키기 위해 LLM이 중간 답변을 제공할 수 있는 강화 학습 접근 방식을 소개했다. 일반적인 “생각한 후에 대답” 방법은 응답 시간을 늦추고 챗봇과 같은 실시간 상호작용을 방해할 수 있으며, 이전 추론 단계의 오류가 최종 답변을 잘못 이끌 수 있는 위험을 안고 있다.
OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.
컴퓨터 과학 연구는 논리, 엔지니어링 및 데이터 기반 실험을 포함한 다학제적 노력으로 진화했습니다. 컴퓨팅 시스템이 일상생활에 깊이 편입되면서 연구는 대규모이며 실시간 시스템에 초점을 맞추고 있습니다. 이러한 시스템은 대규모 데이터 세트에서 학습하고 다양한 사용자 요구에 적응해야 합니다.
대형 언어 모델(Large language models, LLM)이 상호작용 환경에서 자율 에이전트로 훈련받을 때 중요한 도전에 직면하고 있다. 순차적 의사 결정, 교차 턴 메모리 유지, 환경적 피드백에 대한 적응 등이 필요한데, 이는 효과적인 계획 보조자, 로봇 응용 프로그램, 경험을 통해 자가 개선할 수 있는 지도 에이전트 개발에 중요하다. 이에 연구진은 StarPO-S와 RAGEN을 도입하여 이러한 도전을 대응하고 있다.
Microsoft Research가 MMInference를 소개하여 장문 맥락 비전-언어 모델의 사전 채우기 속도를 가속화했다. 이는 로봇공학, 자율 주행, 의료 분야에서 특히 성능을 향상시키는데 도움이 된다.