
Meta AI가 V-JEPA 2를 소개했다. 이는 인터넷 규모의 비디오에서 학습하고 강력한 시각적 이해, 미래 상태 예측, 제로샷 계획을 가능하게 하는 확장 가능한 오픈 소스 세계 모델이다.
Meta AI가 V-JEPA 2를 소개했다. 이는 인터넷 규모의 비디오에서 학습하고 강력한 시각적 이해, 미래 상태 예측, 제로샷 계획을 가능하게 하는 확장 가능한 오픈 소스 세계 모델이다.
LLM은 사전 훈련 데이터와 컴퓨팅 리소스의 스케일링을 통해 정확성을 향상시키지만, 한정된 데이터로 인해 대체 스케일링으로의 관심이 이동되었다. 최근에는 강화 학습 (RL) 후 훈련이 사용되었다. 과학적 추론 모델은 CoT 프롬프팅을 통해 초기에 답변 이전에 사고 과정을 내보내는 방식으로 성능을 향상시킨다.
강화 학습은 대형 언어 모델 (LLM)을 미세 조정하는 데 강력한 방법으로 등장했다. 이 모델은 이미 요약부터 코드 생성까지 다양한 작업을 수행할 수 있으며, RL은 구조화된 피드백을 기반으로 출력을 조정하여 지능적인 행동을 더욱 향상시킨다.
대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개
알리바바의 Qwen 팀이 Qwen3-Embedding 및 Qwen3-Reranker 시리즈를 발표했다. 이는 다국어 임베딩 및 랭킹 표준을 재정의하여 현대 정보 검색 시스템에 기초를 제공한다. 현재 접근 방식은 고다국어 충실성 및 작업 적응성을 달성하는 데 어려움을 겪고 있지만, Qwen3 시리즈는 이러한 문제를 극복하고 있다.
파리 기반의 H 회사가 Agentic AI를 현실로 구현하기 위해 3가지 주요 단계를 발표했다. Runner H 공개 베타 버전과 함께 Holo-1과 Tester H도 공개되었다.
Mistral AI가 기업 소프트웨어 개발 환경에 맞춘 AI 코딩 어시스턴트인 Mistral Code를 발표했다. 이 릴리스는 Mistral이 프로페셔널 개발 파이프라인에서의 제어, 보안 및 모델 적응성에 대응하고자 하는 의지를 보여준다. Mistral Code는 기존의 AI 코딩 도구에서 관측된 주요 제약 사항을 대상으로 한다.
NVIDIA가 Llama Nemotron Nano VL을 소개했다. 이는 문서 수준 이해 작업에 효율적이고 정확한 비전-언어 모델(VLM)로, 복잡한 문서 구조의 정확한 구문 분석이 필요한 애플리케이션을 대상으로 한다.
야н덱스가 Yambda를 공개하여 추천 시스템 연구 및 개발을 가속화하는데 기여했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하며 학술 연구와 산업 규모 응용 프로그램 간의 간극을 줄이는 데 도움이 된다.
Diffusion 기반 대형 언어 모델은 전통적인 자기 회귀 모델에 대안으로 탐구되고 있으며, 동시 다중 토큰 생성의 잠재력을 제공한다. 그러나 이러한 모델은 경쟁력 있는 추론을 제공하는 데 어려움을 겪는다.
Yandex가 세계 최대 규모의 이벤트 데이터셋 ‘Yambda’를 공개했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하여 학술 연구와 산업 규모 응용 사이의 간극을 줄이는 데 기여한다.
스탠포드 대학 연구진이 Biomni를 소개했다. 이는 생명과학 분야에서 다양한 작업과 데이터 유형에 걸쳐 자동화를 위한 AI 에이전트로, 질병 메커니즘 발견, 신약 타깃 식별, 효과적인 치료법 개발을 통해 인간 건강을 발전시키는 빠르게 발전하는 분야에 활용된다.
DeepSeek가 R1 추론 모델의 업데이트 버전인 DeepSeek-R1-0528을 출시했다. 이번 업데이트로 모델은 수학, 프로그래밍, 일반 논리 추론 분야에서 능력을 향상시켰으며, 주요 모델인 OpenAI의 o3 및 Google의 Gemini 2.5 Pro과의 경쟁력을 갖추게 되었다.
Mistral은 AI 에이전트 개발을 용이하게 하는 Agents API를 소개했다. Python 코드 실행, 이미지 생성, RAG 수행 등 다양한 작업을 수행할 수 있는 AI 에이전트를 개발하기 위한 프레임워크로, 대형 언어 모델이 여러 도구와 데이터 원본과 상호 작용할 수 있는 환경을 제공한다.
대규모 추론 모델(LRMs)은 짧은 문맥 추론에서 강화 학습을 통해 인상적인 성능을 보여주었지만, 이러한 이익은 긴 문맥 시나리오로 일반화되지 않는다. 다중 문서 QA, 연구 종합, 법적 또는 금융 분석과 같은 응용 프로그램에서는 모델이 100K 토큰을 초과하는 시퀀스를 처리하고 추론해야 한다.
NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.
NVIDIA의 인공지능이 강화 학습을 통해 수학 및 코드 추론을 발전시키는 AceReason-Nemotron을 소개했다. AI 시스템의 추론 능력은 중요한 구성 요소이며, 최근 대규모 강화 학습을 통해 추론 모델을 구축하는 데 흥미가 커지고 있다.
마이크로소프트가 NLWeb을 출시했다. 이 프로젝트는 모든 웹사이트를 자연어 인터페이스를 통해 AI 기반 앱으로 쉽게 변환할 수 있게 해준다. 기존 솔루션들은 중앙집중식이거나 기술적 전문 지식이 필요한데, 이로 인해 개발자들이 지능형 에이전트를 구현하는 데 제약이 생겼다.
Gemma 3n은 실시간 장치 사용을 위한 소형이면서 고효율적인 다중 모달 AI 모델로, 지능을 기기에 직접 통합함으로써 빠른 응답 속도를 제공하고 메모리 요구를 줄이며 사용자 프라이버시를 강화한다.
Marktechpost AI 미디어가 2025년 Agentic AI 및 AI 에이전트 보고서를 발표했습니다. 이 보고서는 AI 에이전트의 아키텍처, 프레임워크 및 배포 전략을 탐구하며, 미래를 형성하는 기술적으로 엄밀한 내용을 제공합니다. 보고서는 추론이 가능한 모델, 메모리 프레임워크 및 조정을 기반으로 한 증가하는 생태계를 탐색합니다.
대형 언어 모델은 이제 텍스트 생성 이상의 평가 및 심사 작업에 사용되며, 다른 언어 모델의 출력을 평가하는 “언어 모델로서의 판사”로 확장되었습니다. 이러한 평가는 강화 학습 파이프라인, 벤치마크 테스트 및 시스템 정렬에서 중요하며, 이러한 판사 모델은 내부적인 사고 과정 추론에 의존합니다.
구글이 개발한 MedGemma는 의료 텍스트와 이미지 이해를 위해 훈련된 모델 스위트로, Gemma 3 아키텍처 기반으로 구축되었다. 의료 이미지와 텍스트 데이터의 통합 분석을 필요로 하는 의료 애플리케이션 개발자들에게 견고한 기반을 제공한다.
Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.
OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.
Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.
INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.
LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.
OpenAI가 o4-mini 추론 모델에 Reinforcement Fine-Tuning (RFT)을 출시했는데, 이는 전문화된 작업에 맞게 기초 모델을 맞춤화하는 강력한 새로운 기술을 소개했다. RFT는 강화 학습의 원칙에 기반을 두고 있으며, 조직이 사용자 정의 목표와 보상 함수를 정의할 수 있어 모델이 향상되는 방식에 대해 상세한 제어를 제공한다.
Meta AI가 출시한 LlamaFirewall은 AI 에이전트의 보안 위험에 대응하기 위해 시스템 수준의 보안 계층을 제공하는 오픈 소스 가드레일 시스템이다.
Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.
중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.
IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.
DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.
Meta AI가 ReasonIR-8B를 소개했다. 이는 효율성과 RAG 성능을 최적화한 추론 중심의 검색기다. 현재 대부분의 검색기는 짧은 사실성 질문 데이터셋으로 훈련되어 있어 복잡한 다단계 추론 작업에 대한 정보를 검색하는 것이 여전히 어려운 도전으로 남아있다.
알리바바가 Qwen2.5-Omni-3B를 발표했다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등을 포함한 시스템을 가능하게 하는 다중 모달 기반 모델로, VRAM 사용량이 50% 감소하고 거의 7B 모델 성능을 보여준다.
알리바바의 Qwen 팀이 Qwen 시리즈의 최신 대형 언어 모델인 Qwen3을 공개했다. 이 모델은 Dense 및 Mixture-of-Experts (MoE) 모델의 포괄적인 스위트를 제공하며, 세밀한 추론, 다국어 능력, 계산 효율성에 대한 다양한 도전 과제를 해결하고 있다.
Devin AI가 새로운 무료 도구 ‘DeepWiki’를 소개했습니다. 이 도구는 GitHub 저장소에 대한 구조화된 위키 스타일 문서를 자동으로 생성하며, 익숙하지 않은 코드베이스를 이해하는 과정을 단순화합니다. DeepWiki는 리포지토리 URL에서 직접 포괄적이고 대화식 개요를 제공하여 소프트웨어 개발에서 흔한 고통점을 해결합니다.
NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.
긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.
Atla의 강력한 LLM 판사 모델을 Model Context Protocol (MCP)을 통해 노출시키는 Atla MCP 서버가 AI 시스템 개발의 중요한 측면인 LLM 출력의 신뢰성 있는 평가를 지원한다.
Serverless MCP는 개발자들이 AWS 플랫폼에서 애플리케이션을 빌드하고 배포하는 방식을 혁신적으로 단순화했지만, 복잡한 아키텍처의 디버깅과 관리는 여전히 어려움을 겪고 있습니다. Serverless MCP는 이러한 도전에 대응하기 위해 도입되었으며, AI 지원 디버깅을 가능하게 합니다.
NVIDIA가 CLIMB 프레임워크를 소개했다. 대규모 언어 모델이 커짐에 따라, 사전 학습 데이터 선택은 중요해졌다. CLIMB은 최적화된 데이터 혼합을 위한 프레임워크로, 이는 후속 성능에 영향을 미친다.
OpenAI가 엔지니어링 및 제품 팀을 위해 자율 AI 시스템 구현을 탐색하는 실무 안내서를 게시했다. 실제 배치 사례를 바탕으로 한 이 가이드는 적합한 사용 사례 식별, 에이전트 아키텍처 구성, 안전성과 신뢰성을 보장하기 위한 견고한 보호장치 내장에 대한 체계적 접근 방식을 제공한다.