2025년 6월 13일 금요일
오늘의 신문
2025년 6월 13일 금요일 오늘의 신문
최근의 LLM 발전은 복잡한 작업에서 뚜렷한 개선을 이끌어내었지만, 이 모델들의 단계적 추론 과정은 여전히 불분명하다. 대부분의 평가는 최종 답변 정확도에 초점을 맞추어 추론 과정을 숨기고 모델이 지식을 어떻게 결합하는지를 나타내지 않는다.
2025년 6월 11일 오후 4시 12분
NVIDIA와 대학 연구진이 최근 논문에서, 큰 언어 모델이 더 긴 시퀀스 또는 병렬 추론 체인을 생성하기를 요구함에 따라, 추론 시간 성능이 토큰 수뿐 아니라 키-값(KV) 캐시의 메모리 풋프린트에 의해 심각하게 제한되는 문제를 다루었다.
2025년 6월 11일 오전 4시 11분
강화 학습은 대형 언어 모델 (LLM)을 미세 조정하는 데 강력한 방법으로 등장했다. 이 모델은 이미 요약부터 코드 생성까지 다양한 작업을 수행할 수 있으며, RL은 구조화된 피드백을 기반으로 출력을 조정하여 지능적인 행동을 더욱 향상시킨다.
2025년 6월 10일 오후 2시 40분
대형 언어 모델에 의해 자주 사용되는 대형 추론 모델은 수학, 과학 분석 및 코드 생성의 고수준 문제를 해결하는 데 사용된다. 이중 모드 사고는 간단한 추론에 대한 신속한 응답과 복잡한 문제에 대한 신중하고 느린 사고를 모방한다. 이는 사람들이 직관적인 응답에서 복잡한 문제로 전환하는 방식을 반영한다.
2025년 6월 9일 오전 3시 07분
대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개
2025년 6월 8일 오후 3시 56분
AI를 유전체 연구에 활용하는 주요 장애물 중 하나는 복잡한 DNA 데이터로부터 해석 가능한 단계별 추론의 부족이다. BioReason은 생물학 메커니즘에 대한 통찰력을 제공하는 세계 최초의 추론 모델로, 기존의 DNA 모델이 가진 한계를 극복하고, 유전체에 대한 복잡한 추론을 가능하게 한다.
2025년 6월 8일 오전 2시 02분
알리바바의 Qwen 팀이 Qwen3-Embedding 및 Qwen3-Reranker 시리즈를 발표했다. 이는 다국어 임베딩 및 랭킹 표준을 재정의하여 현대 정보 검색 시스템에 기초를 제공한다. 현재 접근 방식은 고다국어 충실성 및 작업 적응성을 달성하는 데 어려움을 겪고 있지만, Qwen3 시리즈는 이러한 문제를 극복하고 있다.
2025년 6월 6일 오전 12시 24분
NVIDIA가 Llama Nemotron Nano VL을 소개했다. 이는 문서 수준 이해 작업에 효율적이고 정확한 비전-언어 모델(VLM)로, 복잡한 문서 구조의 정확한 구문 분석이 필요한 애플리케이션을 대상으로 한다.
2025년 6월 4일 오전 2시 47분
현재의 대형 언어 모델은 자연어의 범위 내에서 추론하는 데 한정되어 있지만, 연구자들은 이산 언어 토큰 대신 연속적인 개념 임베딩으로 대체하며 모델의 표현 능력과 범위를 확장시키는 소프트 씽킹을 도입했다.
2025년 5월 28일 오전 12시 17분
MIT 데이터, 시스템 및 사회 연구소는 PERIT의 BREIT와 협력하여 전 세계 수백 명의 학습자들을 데이터 과학과 머신 러닝으로 역량 강화하고 있습니다.
2025년 5월 27일 오후 4시 11분MIT News
대규모 추론 모델(LRMs)은 짧은 문맥 추론에서 강화 학습을 통해 인상적인 성능을 보여주었지만, 이러한 이익은 긴 문맥 시나리오로 일반화되지 않는다. 다중 문서 QA, 연구 종합, 법적 또는 금융 분석과 같은 응용 프로그램에서는 모델이 100K 토큰을 초과하는 시퀀스를 처리하고 추론해야 한다.
2025년 5월 27일 오전 3시 18분
UT Austin 연구진이 20,000개의 혼돈적 ODE로 사전 학습된 비선형 동역학을 위한 기반 모델 'Panda'를 소개했다. 혼돈적 시스템은 초기 조건에 매우 민감하여 장기적인 예측이 어렵기 때문에, 이를 모델링하는 데 오차가 발생할 경우 빠르게 커질 수 있다. 이에 대한 새로운 접근 방식을 제시하고 있다.
2025년 5월 26일 오후 9시 05분
NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.
2025년 5월 25일 오후 5시 06분
NVIDIA의 인공지능이 강화 학습을 통해 수학 및 코드 추론을 발전시키는 AceReason-Nemotron을 소개했다. AI 시스템의 추론 능력은 중요한 구성 요소이며, 최근 대규모 강화 학습을 통해 추론 모델을 구축하는 데 흥미가 커지고 있다.
2025년 5월 25일 오후 1시 11분
LLM은 프로그래밍 작업에서 놀라운 능력을 보여주었지만, 프로그램 최적화에 대한 잠재력은 완전히 탐구되지 않았다. 최근의 노력 중 일부는 LLM을 사용하여 C++ 및 Python과 같은 언어의 성능을 향상시키는 데 사용되었지만, LLM을 사용하여 코드를 최적화하는 더 넓은 응용은 여전히 제한적이다.
2025년 5월 24일 오후 4시 03분
싱가포르 국립대학 연구진은 'Thinkless'라는 적응형 프레임워크를 소개했다. 이 프레임워크는 DeGRPO를 사용하여 불필요한 추론을 최대 90%까지 줄일 수 있다.
2025년 5월 23일 오전 1시 59분

최신뉴스 전체보기

LLM이 실제로 어떻게 추론하는가? 지식과 논리를 분리하는 프레임워크

최근의 LLM 발전은 복잡한 작업에서 뚜렷한 개선을 이끌어내었지만, 이 모델들의 단계적 추론 과정은 여전히 불분명하다. 대부분의 평가는 최종 답변 정확도에 초점을 맞추어 추론 과정을 숨기고 모델이 지식을 어떻게 결합하는지를 나타내지 않는다.

2025년 6월 11일 오후 4시 12분
NVIDIA 연구진, 트랜스포머 LLM에서 8배 KV 캐시 압축을 위한 다이나믹 메모리 희박화(DMS) 소개

NVIDIA와 대학 연구진이 최근 논문에서, 큰 언어 모델이 더 긴 시퀀스 또는 병렬 추론 체인을 생성하기를 요구함에 따라, 추론 시간 성능이 토큰 수뿐 아니라 키-값(KV) 캐시의 메모리 풋프린트에 의해 심각하게 제한되는 문제를 다루었다.

2025년 6월 11일 오전 4시 11분
Meta가 LlamaRL을 소개: 효율적인 규모 확장 LLM 훈련을 위한 PyTorch 기반 강화 학습 RL 프레임워크

강화 학습은 대형 언어 모델 (LLM)을 미세 조정하는 데 강력한 방법으로 등장했다. 이 모델은 이미 요약부터 코드 생성까지 다양한 작업을 수행할 수 있으며, RL은 구조화된 피드백을 기반으로 출력을 조정하여 지능적인 행동을 더욱 향상시킨다.

2025년 6월 10일 오후 2시 40분
ALPHAONE: AI 모델의 추론을 조절하는 범용 테스트 시간 프레임워크

대형 언어 모델에 의해 자주 사용되는 대형 추론 모델은 수학, 과학 분석 및 코드 생성의 고수준 문제를 해결하는 데 사용된다. 이중 모드 사고는 간단한 추론에 대한 신속한 응답과 복잡한 문제에 대한 신중하고 느린 사고를 모방한다. 이는 사람들이 직관적인 응답에서 복잡한 문제로 전환하는 방식을 반영한다.

2025년 6월 9일 오전 3시 07분
구글, Gemini 2.5와 LangGraph를 활용한 오픈소스 풀 스택 AI 에이전트 스택 소개

대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개

2025년 6월 8일 오후 3시 56분
생물학 분야에서 AI가 생물학 전문가처럼 유전체에 대해 추론할 수 있게 해주는 세계 최초의 추론 모델 ‘BioReason’ 만나보기

AI를 유전체 연구에 활용하는 주요 장애물 중 하나는 복잡한 DNA 데이터로부터 해석 가능한 단계별 추론의 부족이다. BioReason은 생물학 메커니즘에 대한 통찰력을 제공하는 세계 최초의 추론 모델로, 기존의 DNA 모델이 가진 한계를 극복하고, 유전체에 대한 복잡한 추론을 가능하게 한다.

2025년 6월 8일 오전 2시 02분
알리바바 Qwen 팀, Qwen3-Embedding 및 Qwen3-Reranker 시리즈 공개 – 다국어 임베딩 및 랭킹 표준 재정의

알리바바의 Qwen 팀이 Qwen3-Embedding 및 Qwen3-Reranker 시리즈를 발표했다. 이는 다국어 임베딩 및 랭킹 표준을 재정의하여 현대 정보 검색 시스템에 기초를 제공한다. 현재 접근 방식은 고다국어 충실성 및 작업 적응성을 달성하는 데 어려움을 겪고 있지만, Qwen3 시리즈는 이러한 문제를 극복하고 있다.

2025년 6월 6일 오전 12시 24분
NVIDIA AI, Llama Nemotron Nano VL 출시: 문서 이해를 위한 최적화된 소형 Vision-Language 모델

NVIDIA가 Llama Nemotron Nano VL을 소개했다. 이는 문서 수준 이해 작업에 효율적이고 정확한 비전-언어 모델(VLM)로, 복잡한 문서 구조의 정확한 구문 분석이 필요한 애플리케이션을 대상으로 한다.

2025년 6월 4일 오전 2시 47분
LLMs가 이제 언어를 넘어 사고할 수 있게 되었다: 연구자들이 이산 토큰을 연속적인 개념 임베딩으로 대체하기 위해 소프트 씽킹을 소개

현재의 대형 언어 모델은 자연어의 범위 내에서 추론하는 데 한정되어 있지만, 연구자들은 이산 언어 토큰 대신 연속적인 개념 임베딩으로 대체하며 모델의 표현 능력과 범위를 확장시키는 소프트 씽킹을 도입했다.

2025년 5월 28일 오전 12시 17분
데이터 과학 인재 네트워크 구축

MIT 데이터, 시스템 및 사회 연구소는 PERIT의 BREIT와 협력하여 전 세계 수백 명의 학습자들을 데이터 과학과 머신 러닝으로 역량 강화하고 있습니다.

2025년 5월 27일 오후 4시 11분MIT News
Qwen Researchers가 큰 언어 모델에서 긴 문맥 추론을 위한 강화 학습 프레임워크인 QwenLong-L1을 제안

대규모 추론 모델(LRMs)은 짧은 문맥 추론에서 강화 학습을 통해 인상적인 성능을 보여주었지만, 이러한 이익은 긴 문맥 시나리오로 일반화되지 않는다. 다중 문서 QA, 연구 종합, 법적 또는 금융 분석과 같은 응용 프로그램에서는 모델이 100K 토큰을 초과하는 시퀀스를 처리하고 추론해야 한다.

2025년 5월 27일 오전 3시 18분
UT Austin 연구진, 20,000개의 혼돈적 ODE로 사전 학습된 비선형 동역학을 위한 기반 모델 ‘Panda’ 소개

UT Austin 연구진이 20,000개의 혼돈적 ODE로 사전 학습된 비선형 동역학을 위한 기반 모델 ‘Panda’를 소개했다. 혼돈적 시스템은 초기 조건에 매우 민감하여 장기적인 예측이 어렵기 때문에, 이를 모델링하는 데 오차가 발생할 경우 빠르게 커질 수 있다. 이에 대한 새로운 접근 방식을 제시하고 있다.

2025년 5월 26일 오후 9시 05분
NVIDIA, 효율적인 엣지 AI 및 과학 작업에 최적화된 Llama Nemotron Nano 4B 발표

NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.

2025년 5월 25일 오후 5시 06분
NVIDIA AI, 강화 학습을 통해 수학 및 코드 추론 발전을 위한 AceReason-Nemotron 소개

NVIDIA의 인공지능이 강화 학습을 통해 수학 및 코드 추론을 발전시키는 AceReason-Nemotron을 소개했다. AI 시스템의 추론 능력은 중요한 구성 요소이며, 최근 대규모 강화 학습을 통해 추론 모델을 구축하는 데 흥미가 커지고 있다.

2025년 5월 25일 오후 1시 11분
LLM을 활용한 어셈블리 코드 최적화: 강화 학습이 기존 컴파일러를 능가

LLM은 프로그래밍 작업에서 놀라운 능력을 보여주었지만, 프로그램 최적화에 대한 잠재력은 완전히 탐구되지 않았다. 최근의 노력 중 일부는 LLM을 사용하여 C++ 및 Python과 같은 언어의 성능을 향상시키는 데 사용되었지만, LLM을 사용하여 코드를 최적화하는 더 넓은 응용은 여전히 제한적이다.

2025년 5월 24일 오후 4시 03분
싱가포르 국립대학 연구진, ‘Thinkless’ 소개: DeGRPO를 활용해 불필요한 추론 90% 줄임

싱가포르 국립대학 연구진은 ‘Thinkless’라는 적응형 프레임워크를 소개했다. 이 프레임워크는 DeGRPO를 사용하여 불필요한 추론을 최대 90%까지 줄일 수 있다.

2025년 5월 23일 오전 1시 59분
구글 딥마인드, 실시간 장치 사용을 위한 소형 고효율 다중 모달 AI 모델 ‘Gemma 3n’ 공개

Gemma 3n은 실시간 장치 사용을 위한 소형이면서 고효율적인 다중 모달 AI 모델로, 지능을 기기에 직접 통합함으로써 빠른 응답 속도를 제공하고 메모리 요구를 줄이며 사용자 프라이버시를 강화한다.

2025년 5월 22일 오전 12시 03분
구글 AI가 발표한 MedGemma: 의료 텍스트 및 이미지 이해 성능을 위해 훈련된 오픈 스위트

구글이 개발한 MedGemma는 의료 텍스트와 이미지 이해를 위해 훈련된 모델 스위트로, Gemma 3 아키텍처 기반으로 구축되었다. 의료 이미지와 텍스트 데이터의 통합 분석을 필요로 하는 의료 애플리케이션 개발자들에게 견고한 기반을 제공한다.

2025년 5월 20일 오후 9시 31분
AI의 추론을 드러내주지 않을 수도 있는 Chain-of-Thought: Anthropics의 새 연구가 감춰진 결함을 밝혀냄

Chain-of-Thought (CoT) 프롬프팅은 대형 언어 모델의 추론 과정을 개선하고 해석하는 인기 있는 방법이 되었다. 그러나 최근 Anthropics의 연구에 따르면, 이 방법은 AI의 추론을 완전히 이해하는 데 한계가 있을 수 있다.

2025년 5월 19일 오후 10시 21분
강화 학습이 LLMs를 검색에 능숙하게 만듭니다: Ant Group 연구원들이 SEM을 도입하여 도구 사용과 추론 효율성 최적화

최근 LLMs의 발전으로 복잡한 추론 작업을 수행하고 검색 엔진과 같은 외부 도구를 효과적으로 사용하는 잠재력이 드러났다. 그러나 내부 지식 대신 검색을 언제 의존해야 하는지 모델에 스마트한 결정을 내릴 수 있도록 가르치는 것은 여전히 중요한 과제다. 단순한 프롬프트 기반 방법은 모델이 도구를 활용하도록 안내할 수 있지만, LLMs는 여전히 어려움을 겪고 있다.

2025년 5월 18일 오후 10시 52분
LLMs는 내지식에 대해 행동하는 데 어려움을 겪는다: Google DeepMind 연구원들이 강화 학습 세밀 조정을 사용하여 앎과 행동 간의 간극을 메꾸다

대규모 데이터셋으로 훈련된 언어 모델은 언어 이해 및 생성 도구로 두드러지며, 상호 작용 환경에서 의사 결정 요소로 작동할 수 있다. 그러나 행동 선택이 필요한 환경에 적용될 때 이러한 모델은 내부 지식과 추론을 활용하여 효과적으로 행동하기를 기대된다. 그러나 LLMs는 이를 실현하기 어렵다. Google DeepMind 연구원들은 강화 학습 세밀 조정을 사용하여 이러한 간극을 메우려고 한다.

2025년 5월 18일 오후 10시 24분
SWE-Bench 성능이 도구 사용 없이 50.8%로 달성: 단일 상태 내 문맥 에이전트에 대한 사례

LM 에이전트의 최근 발전은 복잡한 실제 과제 자동화에 유망한 잠재력을 보여주고 있음. 이러한 에이전트는 일반적으로 API를 통해 작업을 제안하고 실행하여 소프트웨어 공학, 로봇공학, 과학 실험 등의 응용 프로그램을 지원함. 이러한 과제가 더 복잡해지면 LM 에이전트 프레임워크는 다중 에이전트, 다단계 검색, 맞춤형 지원을 포함하도록 진화해왔음.

2025년 5월 17일 오후 11시 06분
LLMs가 실제 대화에서 어려움을 겪는다: Microsoft와 Salesforce 연구자들이 멀티턴의 미정의 작업에서 39%의 성능 저하를 밝혀

대화형 인공지능은 사용자 요구가 점진적으로 드러나는 동적 상호작용을 가능하게 하는데 초점을 맞추고 있습니다. Microsoft와 Salesforce 연구자들이 발표한 연구에 따르면, 대화형 인공지능 모델인 LLMs는 실제 대화에서 어려움을 겪고 멀티턴의 미정의 작업에서 39%의 성능 저하가 있습니다.

2025년 5월 17일 오전 2시 23분
AI 에이전트들이 이제 병렬로 코드를 작성합니다: OpenAI가 ChatGPT 내부의 클라우드 기반 코딩 에이전트 Codex를 소개합니다

OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.

2025년 5월 16일 오후 2시 46분
Tsinghua 및 ModelBest 연구진, Ultra-FineWeb: 트리리언 토큰 데이터셋 발표, 벤치마크에서 LLM 정확도 향상

Tsinghua 대학 및 ModelBest 연구진이 Ultra-FineWeb이라는 트리리언 토큰 데이터셋을 발표했다. 이 데이터셋은 LLM의 정확도를 향상시켜주며, 모델 기반 필터링을 통해 고품질 샘플을 식별하는 방법을 사용한다.

2025년 5월 15일 오전 3시 11분
강화 학습, 미세 조정이 아닌: Nemotron-Tool-N1가 최소 감독과 최대 일반화로 LLMs에게 도구 사용을 가르침

LLMs를 외부 도구나 기능으로 장착하는 것이 인기를 끌며, 최소 감독과 최대 일반화로 LLMs의 도구 호출 능력을 향상시키기 위해 고급 언어 모델과 SFT를 통해 대량의 도구 사용 궤적을 종합하는 기존 연구가 있다. 그러나 존재하는 연구의 중요한 한계는 합성 데이터셋이 명시적 추론 단계를 포착하지 못하고 표면적인 도구 사용만 가능하다는 점에 있다.

2025년 5월 13일 오후 4시 30분
PrimeIntellect가 INTELLECT-2를 발표: 분산 비동기 강화 학습을 통해 훈련된 32B 추론 모델

INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.

2025년 5월 12일 오후 1시 12분
LightOn AI가 GTE-ModernColBERT-v1을 공개: 장문 문서 검색을 위한 확장 가능한 토큰 수준의 의미 검색 모델 및 최고 수준의 벤치마크 성능

LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.

2025년 5월 11일 오후 2시 08분
알리바바의 ZeroSearch, 강화 학습과 시뮬레이션 문서 활용해 LLMs 검색을 실시간 검색 없이 가르침

알리바바의 ZeroSearch는 강화 학습과 시뮬레이션 문서를 활용하여 대형 언어 모델의 검색을 실시간 검색 없이 가르치는 방법을 제시하고 있다. 기존의 정적 데이터셋으로 훈련된 언어 모델은 시간이 지남에 따라 오래되어 문제가 발생하는데, ZeroSearch는 이를 극복하기 위해 새로운 방법론을 제시하고 있다.

2025년 5월 10일 오후 4시 49분
자가 학습하는 AI: Tsinghua 대학의 ‘Absolute Zero’가 외부 데이터 없이 LLM을 훈련시킴

Tsinghua 대학의 ‘Absolute Zero’는 외부 데이터 없이 LLM을 훈련시키는데 성공하였다. 현재의 RLVR 작업은 규모 확장 문제에 직면하고 있지만, ‘Absolute Zero’는 중간 추론 단계를 모방하는 대신 결과 기반 피드백에 의존하여 추론 능력을 향상시켰다.

2025년 5월 9일 오후 6시 56분
Hugging Face, NanoVLM 출시: 750줄의 코드로 처음부터 비전-언어 모델 학습 가능한 순수 PyTorch 라이브러리

Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.

2025년 5월 8일 오전 3시 08분
LLMs 이제 최소 대기 시간으로 실시간 대화 가능: 중국 연구진이 확장 가능한 모듈식 음성 언어 모델인 LLaMA-Omni2 공개

중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.

2025년 5월 6일 오후 7시 13분
RWKV-X가 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 효율적인 1백만 토큰 디코딩 가능

Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.

2025년 5월 5일 오후 2시 09분
수학을 넘어 강화 학습 확장: NVIDIA AI 및 CMU 연구진, 다중 도메인 추론을 위한 Nemotron-CrossThink 제안

대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.

2025년 5월 5일 오전 1시 31분
IBM AI, 그랜ite 4.0 Tiny 미리보기 공개: 긴 문맥과 지시 작업에 최적화된 콤팩트 오픈 언어 모델

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

2025년 5월 3일 오후 9시 36분
LLMs는 한 예제로부터 복잡한 수학을 배울 수 있습니다: 워싱턴 대학, 마이크로소프트, USC의 연구진들이 1회 강화 학습과 검증 가능한 보상으로 강력한 성능 발휘

최근 LLMs의 발전으로 OpenAI-o1, DeepSeek-R1, Kimi-1.5 등이 복잡한 수학적 추론 작업에서 성능을 크게 향상시켰다. 규칙 기반 보상을 사용하는 강화 학습은 이러한 개선에 중요한 역할을 한다. 최종 결과물을 향상시키는 RLVR은 모델의 문제 해결 방법이 올바른지를 나타내는 바이너리 신호를 일반적으로 사용한다.

2025년 5월 3일 오전 1시 28분
Xiaomi, 더 강력한 수학 및 코드 추론 능력을 갖춘 소형 언어 모델 MiMo-7B 발표

MiMo-7B는 더 큰 모델보다 더 우수한 수학 및 코드 추론 능력을 갖추고, 사전 훈련과 강화 학습을 통해 개발되었다. 인간 지능에서 독점적으로 여겨졌던 추론 능력이 이제 보다 효율적이고 널리 사용 가능한 소형 모델에서도 활발히 연구되고 있다.

2025년 5월 2일 오전 12시 03분
AI 에이전트 프로토콜에 대한 기술적 탐구: 확장 가능한 인공지능 시스템에서의 역할

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.

2025년 5월 1일 오후 10시 53분
DeepSeek-AI가 DeepSeek-Prover-V2를 발표: 공식 이론 증명을 위한 대형 언어 모델, 서브 골 분해 및 강화 학습을 통해

DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.

2025년 5월 1일 오후 3시 54분
Meta AI, 효율성과 RAG 성능 최적화를 위한 ReasonIR-8B 소개

Meta AI가 ReasonIR-8B를 소개했다. 이는 효율성과 RAG 성능을 최적화한 추론 중심의 검색기다. 현재 대부분의 검색기는 짧은 사실성 질문 데이터셋으로 훈련되어 있어 복잡한 다단계 추론 작업에 대한 정보를 검색하는 것이 여전히 어려운 도전으로 남아있다.

2025년 5월 1일 오전 2시 21분
ThinkPRM: 확장 가능한 추론 검증을 위한 생성 과정 보상 모델

LLMs와 추론 작업에 더 많은 계산을 활용하기 위해 고품질의 프로세스 보상 모델(PRMs)이 필요하다. 이 모델은 문제-해결 쌍에 점수를 매겨 해결책이 올바른지 나타내며, 판별적 분류기로 구현되어 왔다. 그러나 이러한 모델은 인간 주석, 골드 단계별 솔루션 등 많은 리소스를 필요로 한다.

2025년 4월 29일 오후 1시 40분
알리바바 Qwen 팀, Qwen 시리즈의 최신 대형 언어 모델인 Qwen3 공개

알리바바의 Qwen 팀이 Qwen 시리즈의 최신 대형 언어 모델인 Qwen3을 공개했다. 이 모델은 Dense 및 Mixture-of-Experts (MoE) 모델의 포괄적인 스위트를 제공하며, 세밀한 추론, 다국어 능력, 계산 효율성에 대한 다양한 도전 과제를 해결하고 있다.

2025년 4월 28일 오후 9시 08분
추론 시간 스케일링 방법의 종합 분석: 언어 모델에서 추론 성능 최적화

언어 모델은 다양한 작업에서 뛰어난 성능을 보이지만 복잡한 추론은 계산 리소스와 전문 기술이 추가로 필요하여 도전적이다. 이에 따라 추론 시간 계산(ITC) 스케일링 방법이 발전되었는데, 이는 모델 출력을 향상시키기 위해 추가 계산 리소스를 할당하는 방법이다.

2025년 4월 27일 오전 2시 06분
AgentA/B: LLM 에이전트를 사용하는 확장 가능한 AI 시스템, 전통적인 A/B 테스트를 변형시켜 실제 사용자 행동을 시뮬레이션

AgentA/B는 LLM 에이전트를 활용하여 실제 사용자 행동을 시뮬레이션하고 라이브 웹 플랫폼에서 전통적인 A/B 테스팅을 변형하는 확장 가능한 AI 시스템이다. 웹 인터페이스 설계 및 평가는 디지털 선도적인 세계에서 가장 중요한 작업 중 하나이며, 레이아웃, 요소 위치, 또는 탐색 논리의 변경은 사용자가 웹사이트와 상호 작용하는 방식에 영향을 줄 수 있다.

2025년 4월 26일 오전 12시 18분
NVIDIA AI, 수학 추론을 위한 OpenMath-Nemotron-32B 및 14B-Kaggle 공개: AIMO-2 대회에서 1위 차지하며 새로운 기록 설정

NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.

2025년 4월 25일 오전 1시 49분
Sequential-NIAH: 장문에서 순차 정보 추출에 대한 LLM 평가 벤치마크

긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.

2025년 4월 24일 오전 1시 52분
OpenAI, 기업 워크플로우에서 AI 활용 사례 식별과 확장에 대한 실용적 가이드 발표

OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.

2025년 4월 21일 오전 2시 46분
ReTool: 컴퓨터 도구를 활용한 강화 학습 프레임워크로 LLM 추론 최적화

Reinforcement learning은 LLM의 추론 능력을 향상시키는 강력한 기법이지만, 숫자 계산이나 기호 조작이 필요한 작업에서 한계가 있다. ReTool은 이러한 한계를 극복하기 위한 도구-Augmented 강화 학습 프레임워크다.

2025년 4월 21일 오전 2시 34분
LLMs가 유휴 상태에서도 생각할 수 있다: Letta 및 UC 버클리 연구자들, ‘슬립 타임 컴퓨트’를 소개하여 추론 비용을 낮추고 정확도를 높이지만 지연 시간 희생 없이

대형 언어 모델(LLMs)은 복잡한 추론 작업을 처리하는 능력으로 주목받고 있으며, Letta와 UC 버클리의 연구자들은 유휴 상태에서 컴퓨팅을 확장하여 더 어려운 문제에 더 많은 리소스를 할당함으로써 더 높은 정확도를 달성하는 ‘슬립 타임 컴퓨트’를 소개했다.

2025년 4월 20일 오후 10시 32분
LLMs는 놀라운 데이터에 속을 수 있다: Google DeepMind가 의도치 않은 지식 오염을 예측하고 줄이는 새로운 기술 소개

대형 언어 모델(LLMs)은 방대한 양의 텍스트 데이터를 소화하면서 지식을 업데이트하는데 그들을 속일 수 있는 놀라운 데이터가 있을 수 있다. Google DeepMind는 이를 예측하고 줄이기 위한 새로운 기술을 소개하고 있다.

2025년 4월 20일 오후 10시 18분
푸리에 신경 오퍼레이터가 터보 부스트를 받았다: UC 리버사이드의 연구자들이 PyTorch보다 최대 150% 속도 향상을 달성한 TurboFNO를 소개했다

푸리에 신경 오퍼레이터(FNO)는 편미분 방정식 해결 오퍼레이터를 학습하는 강력한 도구이지만, 아키텍처에 대한 최적화가 부족하다. FFT – GEMM – iFFT의 계산 패턴이 더 많은 주목을 받고 있다. UC 리버사이드의 연구자들은 TurboFNO를 소개하여 PyTorch보다 최대 150% 속도 향상을 달성했다.

2025년 4월 20일 오후 4시 16분
Meta AI, 협업 추론자 (코랄)를 소개합니다: LLM에서 협업 추론 기술을 평가하고 향상시키기 위해 특별히 설계된 AI 프레임워크

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.

2025년 4월 20일 오전 2시 15분
NVIDIA, 언어 모델 사전 학습을 위한 반복적 데이터 혼합 최적화 프레임워크 CLIMB 소개

NVIDIA가 CLIMB 프레임워크를 소개했다. 대규모 언어 모델이 커짐에 따라, 사전 학습 데이터 선택은 중요해졌다. CLIMB은 최적화된 데이터 혼합을 위한 프레임워크로, 이는 후속 성능에 영향을 미친다.

2025년 4월 19일 오후 4시 59분
LLMs가 이제는 소량의 데이터로 어려운 수학 문제를 해결할 수 있습니다: UC 버클리와 AI2 연구원들이 난이도 수준별로 수학적 추론을 해제하는 파인튜닝 레시피를 발표했습니다

UC 버클리와 AI2 연구원들이 발표한 연구에 따르면, LLMs는 소량의 데이터로도 어려운 수학 문제를 해결할 수 있게 되었습니다. 최근 소규모 지도 파인튜닝 접근법들이 수학 문제 해결 능력을 현저히 향상시켰으며, 모델이 훈련 데이터를 넘어 일반화하는지 여부에 대한 근본적인 질문이 남아 있습니다.

2025년 4월 19일 오전 1시 49분
IBM, 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B 발표

IBM이 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에서 뛰어난 성능을 보여준다.

2025년 4월 18일 오전 3시 08분
트랜스포머 모델이 정말 추론 모델에 필요한가?: TogetherAI, Cornell, Geneva, Princeton 연구진이 M1 소개 – 최신 성능 3배 속도로 달성

수학 및 프로그래밍 분야의 복잡한 문제 해결에 효율적인 추론이 중요하며, LLMs는 연쇄 추론을 통해 상당한 향상을 보여줌. 그러나 트랜스포머 기반 모델은 장기 시퀀스를 효율적으로 처리하는 것이 어렵기 때문에 한계가 있음. 이에 TogetherAI, Cornell, Geneva, Princeton 연구진이 M1이라는 하이브리드 AI를 소개하며 최신 성능을 3배의 추론 속도로 달성함.

2025년 4월 17일 오후 11시 56분
MIT 학생들의 작품이 인간-인공지능 협업을 재정의합니다

MIT 과목 4.043/4.044 (상호작용 지능)에서 나온 프로젝트들이 NeurIPS에서 발표되었는데, 이는 인공지능이 창의성, 교육, 상호작용을 예상치 못한 방식으로 변형시키는 방법을 보여줍니다.

2025년 1월 29일 오후 3시 45분MIT News