Apple의 새로운 연구는 중간 학습이 강화 학습 후 후속 학습을 하기 전에 무엇을 해야 하는지 공식화하고 RA3 (Reasoning as Action Abstractions)를 소개합니다. RA3는 전문가의 흔적으로부터 시간적으로 일관된 잠재적 행동을 학습하고 그에 대해 미세 조정합니다. 중간 학습은 (1) 최적의 행동 부분 공간으로 가지치기하고 (2) 줄여야 함을 보여줍니다.
최신뉴스 전체보기
AgentFlow는 명시적 메모리와 도구 세트에 의해 조정되는 네 가지 모듈 – Planner, Executor, Verifier, Generator – 을 갖춘 훈련 가능한 에이전트 프레임워크이다. Planner는 Flow-GRPO라는 새로운 온-폴리시 방법을 통해 최적화되며 트라젝토리 수준의 결과 보상을 모든 턴에 방송하고 KL 정규화 및 그룹 정규화된 어드밴티지를 적용하는 토큰 수준의 PPO 스타일 업데이트를 수행한다.
Anthropic이 Petri를 출시했습니다. 이는 AI 요소들을 활용하여 대상 모델의 행동을 다양한 시나리오에서 테스트하는 오픈소스 프레임워크로, 실제적이고 다중 턴 및 도구 사용 환경에서 경계 LLMs를 감사하는 방법을 자동화합니다.
MCP, 함수 호출, OpenAPI 도구의 비교표를 통해 각각의 특징과 사용 시기를 알아볼 수 있습니다.
구글 AI는 Gemini 2.5 Computer Use를 소개했는데, 라이브 브라우저에서 실제 UI 작업을 계획하고 실행하는 특수한 변형이다. 사용자가 브라우저 작업을 위임할 수 있게 해주며 공개 미리 보기로 제공된다.
메타 AI가 OpenZL을 공개했다. 이는 형식 인식 그래프 압축기를 훈련시키고 유니버설 디코더에 자체 설명 그래프만 보내어 압축 비율과 처리량을 얼마나 회복할 수 있는지 탐구한 오픈 소스 프레임워크이다.
XGBoost의 분석적 능력과 LangChain의 대화형 지능을 결합하여, 합성 데이터셋 생성부터 XGBoost 모델 학습, 성능 평가, 주요 인사이트 시각화까지 가능한 파이프라인을 구축하는 튜토리얼. 대화형 AI가 원활하게 상호작용할 수 있는 방법을 보여줌.
구글 딥마인드가 소개한 CodeMender는 실제 취약점에 대해 수정 사항을 생성, 유효성을 검증하고 상류로 보내는 AI 에이전트로, 보안 취약점을 자동으로 보완할 수 있게 함.
이 튜토리얼에서는 AI가 한계에 도달했을 때 숙련된 인간이 원할하게 대신하는 고객 서비스 자동화의 중요한 구성 요소인 인간 인계를 구현할 것이다. AI 파워된 보험 에이전트를 위한 인간 인계 시스템을 Parlant를 사용하여 구현하고, Streamlit 기반의 인터페이스를 만드는 방법을 배울 수 있다.
OpenAI가 AgentKit을 출시했다. 시각적인 에이전트 빌더, 임베드 가능한 ChatKit UI 및 확장된 Evals를 포장하여 제품 에이전트를 출하하기 위한 단일 워크플로우를 제공한다. 에이전트 빌더(beta)와 기타 기능이 포함되어 있다.
상하이교통대학교 및 SII Generative AI Research Lab (GAIR)의 연구진은 LIMI (“Less Is More for Agency”)라는 감독 세부 조정 방법을 제안하며, 기본 모델을 78개의 샘플을 사용하여 능숙한 소프트웨어/연구 에이전트로 변환합니다.
StreamTensor은 PyTorch LLM 그래프를 AMD의 Alveo U55C FPGA에서 스트림 스케줄된 데이터플로우 가속기로 변환하는 컴파일러이다. 이 시스템은 순환 텐서(“itensor”) 유형을 도입하여 타일/순서를 인코딩한다.
Salesforce AI Research가 CoDA-1.7B를 발표했다. 이는 양방향 컨텍스트를 사용하여 전체 시퀀스를 정제하고, 왼쪽에서 오른쪽으로 다음 토큰 예측이 아닌 병렬로 여러 토큰을 업데이트하는 코드용 확산 기반 언어 모델이다.
이 가이드는 신뢰할 수 있고 적응 가능한 AI 에이전트를 디자인하기 위한 방법론에 중점을 두며 명확한 경계, 효과적인 행동 및 안전한 상호작용을 만드는 방법을 제공합니다.
ASR과 WER만으로는 부족하며, 최신 상호작용형 음성 에이전트를 위한 강력한 평가는 작업 성공률, 침입 행동 및 대기시간, 소음 하에서의 환각을 측정해야 함. VoiceBench는 ASR, 안전성, 지시 따르기 외에도 일반 지식, 지시 따르기, 안전성 및 환경/내용 변화에 대한 견고성을 측정하는 다면적 음성 상호작용 벤치마크를 제공함.
Brno 대학과 존스 홉킨스 대학 연구진이 제안한 USE-DDP는 실제 소음이 있는 녹음만을 학습하고 짝지어진 데이터를 본 적이 없어도 말과 소음을 깔끔하게 분리할 수 있는 이중 스트림 인코더-디코더 구조이다.
이 코딩 구현에서는 텍스트 시퀀스에서 연속적인 수치 값을 직접 예측하는 회귀 언어 모델(RLM)을 구축한다. 자연어 설명 안에 숨겨진 양적 관계를 학습하는 트랜스포머 기반 아키텍처를 훈련하는데 초점을 맞춘다. 합성 텍스트-숫자 데이터 생성부터 시작해서 효율적으로 토큰화한다.
Google Cloud AI Research과 MIT, 하버드, Google DeepMind의 협력자들이 TUMIX (도구 사용 혼합)를 소개했다. 이는 이질적인 에이전트 스타일(텍스트, 코드, 검색, 가이드된 변형)을 앙상블하는 테스트 시간 프레임워크이다.
코넬과 구글의 연구진은 코드 문자열에서 직접 숫자 결과를 예측하는 통합 회귀 언어 모델(RLM)을 소개했습니다. 이 모델은 GPU 커널 지연, 프로그램 메모리 사용량, 심지어 신경망 정확도와 지연까지 손수 조작된 특성 없이 예측합니다. T5-Gemma에서 초기화된 300M 파라미터 인코더-디코더는 단일 텍스트-숫자 디코더를 사용하여 이질적 작업과 언어 간 강력한 순위 상관관계를 달성합니다.
이 튜토리얼에서는 Darts 라이브러리와 가벼운 HuggingFace 모델을 결합하여 시계열 예측을 자율적으로 처리하는 고급 에이전틱 AI 시스템을 구축한다. 데이터의 패턴을 분석한 후 적절한 예측 모델을 선택하고 예측을 생성하는 주기적 작업을 수행하는 에이전트를 설계한다.
AWS가 Amazon Bedrock AgentCore를 위한 오픈소스 Model Context Protocol (MCP) 서버를 출시했는데, 이는 에이전트 IDE의 자연어 프롬프트에서 AgentCore Runtime에 배포 가능한 에이전트로의 직접 경로를 제공한다. 이 패키지는 일반적인 다단계 통합 작업을 대화형 명령으로 압축하는 데 사용된다.
마이크로소프트가 공개한 ‘마이크로소프트 에이전트 프레임워크’는 오픈소스 SDK와 런타임으로, AutoGen과 Semantic Kernel의 핵심 아이디어를 통합하여 팀이 프로덕션급 AI 에이전트 및 다중 에이전트 워크플로를 구축, 배포 및 관찰할 수 있도록 도와줍니다. Python과 .NET용으로 제공되며 직접 통합됩니다.
Neuphonic이 NeuTTS Air를 공개했는데, 이는 748M 파라미터(큐윈2 아키텍처)를 갖춘 오픈소스 텍스트 음성 변환 모델로, 클라우드 의존성 없이 CPU에서 실시간으로 실행될 수 있다. Apache-2.0 라이선스 하에 제공되며, 러너블 데모와 함께 제공된다.
Thinking Machines사가 Tinker를 출시했다. Tinker는 연구원과 엔지니어들이 로컬에서 학습 루프를 작성하고 플랫폼이 관리되는 분산 GPU 클러스터에서 실행할 수 있는 파이썬 API이다. 데이터, 목표 및 최적화 단계의 완전한 제어를 유지하면서 스케줄링, 장애 허용 및 다중 노드 조율을 자동화한다.
WhisperX를 활용한 음성 AI 파이프라인의 고급 구현 방법을 안내하는 튜토리얼. 전사, 정렬, 단어별 타임스탬프에 대해 자세히 살펴보며 환경 설정, 오디오 로드 및 전처리, 전사에서 정렬 및 분석까지의 전체 파이프라인 실행과 메모리 효율성 및 배치 처리 지원에 대해 다룸.
IBM은 Granite 4.0을 출시했는데, 이는 모노리딕 트랜스포머 대신 하이브리드 Mamba-2/Transformer 스택을 사용하여 서빙 메모리를 줄이고 품질을 유지한다. 다양한 사이즈의 모델들이 제공되며, 이들은 Apache-2.0로 공개되었다.
ServiceNow AI 연구소가 Apriel-1.5-15B-Thinker를 공개했다. 이 모델은 강화 학습이나 선호도 최적화 없이 데이터 중심 중간 학습 레시피로 훈련된 150억 개의 오픈 가중치 다중 모달 추론 모델로, 단일 GPU 예산에서 SOTA 대비 8배의 비용 절감으로 인공 분석 지능 지수 52를 달성한다.
Liquid AI가 LFM2-Audio-1.5B를 출시했다. 이 모델은 음성과 텍스트를 이해하고 생성하는 작고 효율적인 오디오-언어 기반 모델로, 자원이 제한된 기기에서 실시간 음성 비서를 위해 설계되었다. 새로운 점은 오디오 I/O를 분리한 통합된 백본을 갖춘 것이다.
MLPerf 추론은 하드웨어, 런타임 및 서빙 스택으로 구성된 완전한 시스템이 정해진 지연 시간과 정확도 제약 조건 하에 사전 훈련된 모델을 얼마나 빠르게 실행하는지 측정합니다. Datacenter 및 Edge 스위트에 대한 결과는 LoadGen에 의해 생성된 표준화된 요청 패턴(“시나리오”)으로 보고되며, 이는 아키텍처 중립성과 재현성을 보장합니다.
모델 콘텍스트 프로토콜(MCP)은 AI 클라이언트가 서버에 연결하는 방식을 형식화하는 오픈 JSON-RPC 기반 표준이다. MCP는 에이전트/도구 상호작용을 명시적이고 감사 가능하게 만들어 보안 작업에 가치를 제공한다.
구글 AI가 제안한 ReasoningBank는 LLM 에이전트가 자체 상호 작용 추적을 재사용 가능한 고수준 추론 전략으로 변환하여 미래 결정을 안내하고 에이전트가 자가진화하는 프레임워크를 소개합니다.
이 튜토리얼에서는 에이전트 검색 보조 생성 (RAG) 시스템의 구현을 안내합니다. 문서를 검색하는 것 이상의 작업을 수행하도록 설계되어 있어 에이전트가 검색이 필요한 때를 적극적으로 결정하고, 최적의 검색 전략을 선택하며, 문맥을 인식하여 응답을 종합합니다.
Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.
OpenAI는 물리적 타당성, 다중 샷 제어, 동기화된 대화/SFX에 중점을 둔 텍스트-비디오-오디오 모델인 Sora 2를 출시했다. 미국과 캐나다를 대상으로 한 동의 게이트 Sora iOS 앱을 출시하여 소셜 크리에이션, 리믹싱, 검증된 유사성 삽입을 허용한다.
Delinea는 MCP 서버를 출시했는데, 이를 통해 AI 에이전트가 Delinea Secret Server와 Delinea Platform에 저장된 자격 증명에 액세스할 수 있다. 서버는 모든 호출에 신원 확인과 정책 규칙을 적용하여 에이전트 메모리에서 장기적인 비밀을 유지하면서 완전한 감사 가능성 유지를 목표로 한다.
DeepSeek가 DeepSeek Sparse Attention (DSA)를 추가한 DeepSeek-V3.2-Exp를 출시했다. 이 업데이트는 장문 맥락 효율성을 높이기 위한 훈련 가능한 희소화 경로를 제공한다. 또한 API 가격을 50% 이상 할인하여 효율성 향상을 보여줬다. 새로운 업데이트는 V3/V3.1 스택(MoE + MLA)을 유지하고 두 단계의 어텐션 경로를 삽입했다.
이 튜토리얼에서는 CrewAI와 Google Gemini 모델을 활용하여 고급 감독자 에이전트 프레임워크의 설계와 구현 방법을 안내합니다. 연구자, 분석가, 작가, 리뷰어 등 특수 에이전트들을 감독하고 조정하는 감독자 에이전트를 구축하며 구조화된 작업 구성, 계층적 워크플로우 등을 결합합니다.
Anthropic는 Claude Sonnet 4.5를 출시하며 소프트웨어 엔지니어링과 현실 세계 컴퓨터 사용에 새로운 기준을 세웠습니다. 이 업데이트에는 제품 표면 변경 사항(Claude Code 체크포인트, 네이티브 VS Code 확장 프로그램, API 메모리/컨텍스트 도구)과 내부적으로 Anthropic이 사용하는 구조를 노출하는 에이전트 SDK도 포함되어 있습니다. 가격은 Sonnet 4와 동일하게 유지됩니다.
oLLM은 Huggingface Transformers와 PyTorch 기반의 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용합니다.
이 튜토리얼에서는 Dash, Plotly 및 Bootstrap을 사용하여 고급 대화형 대시보드를 구축하는 방법을 설명합니다. 이 도구들이 레이아웃 및 시각화를 설계하는 데 어떻게 도움을 주고, Dash의 콜백 메커니즘이 컨트롤을 출력에 연결하여 실시간으로 응답 할 수 있도록 하는 방법을 강조합니다.
OpenAI는 모델이 안전하고 책임감 있으며 정책과 일치하는 응용 프로그램을 보장하는 데 강한 강조를 두고 있습니다. 이 기사는 OpenAI가 안전을 평가하는 방법과 해당 기준을 충족하기 위해 할 수 있는 일에 대해 설명합니다. 기술적 성능 이상으로, 책임 있는 AI 배포는 잠재적 위험을 예측하는 것을 필요로 합니다.
구글과 아칸소소주립대학 교수팀이 제안한 AI 에이전트 면역 시스템은 경량, 자율적인 AI 에이전트를 활용해 보안 위협을 빠르게 격리하는데 도움을 줄 수 있으며, 중앙 왕복 없이 220밀리초 이내에 보안 위협을 분석하고 중화할 수 있다.
구글 DeepMind의 Gemini Robotics 1.5는 하이-레벨 신체적 추론과 로우-레벨 시각 운동을 위한 두 가지 모델로 분리하여, 연구자처럼 계획하고 장면을 이해하며 로봇 간 동작을 전달할 수 있다고 말합니다.
2025년 로컬 LLMs는 빠르게 성숙해졌으며, 안정적인 사양과 일류 로컬 러너를 제공하면서 온프렘 및 랩톱 추론이 실용적으로 가능해졌다.
구글은 AI Studio와 Vertex AI에서 Gemini 2.5 플래시 및 Gemini 2.5 플래시-라이트 미리보기 모델의 업데이트 버전을 공개했다. 이들은 외부 테스트에서 가장 빠르다. 실제 운영 안정성을 위해 고정된 문자열을 사용하는 것을 권장하며, 새로운 미리보기 버전이 출시되기 전에 미리 공지할 것이라고 밝혔다.
AI 애플리케이션에서 성능은 중요하다. 대형 언어 모델(Large Language Models, LLM)을 사용할 때 API 응답이나 I/O 작업을 기다리는 시간이 많이 소요된다. 이때 asyncio가 도움이 된다. 많은 개발자들이 LLM을 사용하면서 asyncio를 사용하고 있다.
구글 Colab에서 매끄럽게 실행되는 고급 AI 데스크톱 자동화 에이전트 구축 튜토리얼. 자연어 명령 해석, 파일 조작, 브라우저 작업, 워크플로우 등 데스크톱 작업 시뮬레이션 및 가상 환경을 통한 대화형 피드백 제공 설계.
알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.
Hugging Face가 Smol2Operator를 발표했다. 이는 UI 경험이 없는 작은 Vision-Language 모델을 GUI 조작 및 도구 사용 에이전트로 변환하는 재현 가능한 레시피이다. 데이터 변환 유틸리티, 훈련 스크립트, 변환된 데이터셋, 2.2B-파라미터 모델 체크포인트 등을 제공하여 GUI 에이전트를 처음부터 구축하는 완벽한 청사진으로 소개되었다.
Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.
구글은 데이터 커먼스를 위한 모델 컨텍스트 프로토콜(MCP) 서버를 출시했다. 이를 통해 AI 에이전트들은 공개 데이터셋(인구 조사, 건강, 기후, 경제)에 자연어로 쿼리를 할 수 있게 되었다. 빠른 시작 가이드는 Gemini CLI와 Google의 에이전트 개발 키트(ADK)에 제공된다.
OpenAI가 Pro 사용자를 위해 맞춤형 일일 브리핑을 제공하는 ChatGPT Pulse를 선보였다. 이 기능은 사용자의 채팅, 명시적 피드백, 캘린더/이메일과 같은 연결된 앱에서 정보를 수집하여 사용자 맞춤형 카드를 제공하며, ChatGPT를 요청 중심 도구에서 맥락을 이해하는 어시스턴트로 변화시킨다.
OpenAI가 GDPval을 소개했다. GDPval은 44개 직업, 9개 GDP 지배적 미국 부문에서 AI 모델의 성능을 측정하는 새로운 평가 스위트로, 학술적 벤치마크와는 달리 직업 전문가들이 실제 작업물을 평가한다. OpenAI는 또한 220가지 작업의 “골드” 하위 집합을 공개했다.
메타 FAIR가 320억 개의 파라미터로 이루어진 CWM을 공개했다. 이 모델은 코드 생성에 세계 모델링을 삽입하여 실행 추적 및 장기적 상호작용을 통해 학습하며, 코드를 예측함으로써 중간 훈련을 수행한다.
전통적인 머신러닝과 Gemini의 파워를 결합한 고급 데이터 과학 워크플로우를 통해 당뇨병 데이터셋을 준비하고 모델링하며, 평가, 피처 중요도, 부분 의존성에 대해 탐구한다. 중간에 Gemini를 AI 데이터 과학자로 도입한다.
텍스트-RAG의 실패는 대부분 검색 단계에서 발생하는데, Vision-RAG는 시각-언어 임베딩을 사용하여 이 문제를 직접 해결함. 시각적으로 풍부한 코퍼스에서 뚜렷한 성과를 보여줌.
TorchVision의 v2 변환, 현대적인 augmentation 전략 및 강력한 학습 향상 기술을 사용하여 고급 컴퓨터 비전 기술을 탐구하는 튜토리얼. 증강 파이프라인 구축, MixUp 및 CutMix 적용, 주의를 기반으로 한 현대적인 CNN 설계, 견고한 학습 루프 구현 과정 소개. Google Colab에서 모든 것을 원활하게 실행하여 최첨단 컴퓨터 비전에 대비.
알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.
CloudFlare AI 팀이 VibeSDK를 오픈소스로 공개했다. 이는 한 번의 클릭으로 Cloudflare 네트워크나 GitHub Repo Fork에서 완전한 AI Vibe 코딩 플랫폼을 배포할 수 있는 것으로, 코드 생성, 안전한 실행, 실시간 미리보기, 다중 테넌트 배포를 패키징하여 팀이 인프라를 별도로 연결하지 않고 자체 내부 또는 고객을 대상으로 하는 AI 앱 빌더를 구동할 수 있게 한다.
구글 AI 연구팀이 ‘TimesFM-ICF’라는 시계열 예측을 위한 인-컨텍스트 파인튜닝(ICF)을 소개했다. 이는 명령어에서 직접 제공된 여러 관련 시리즈를 활용하도록 TimesFM에 가르치는 연속된 사전 학습 레시피이다. 결과적으로, 이는 몇 가지 샷 예측기로 변환되어 OOD 벤치마크에서 기본 TimesFM 대비 +6.8% 정확도를 제공한다.
이 튜토리얼에서는 Hugging Face Optimum을 사용하여 트랜스포머 모델을 최적화하고 정확도를 유지하면서 빠르게 만드는 방법을 안내합니다. DistilBERT를 SST-2 데이터셋에 설정한 다음 일반 PyTorch 및 torch.compile, ONNX Runtime 및 양자화된 ONNX를 비교합니다.
구글은 “Chrome DevTools MCP”의 공개 미리보기를 출시했는데, 이는 AI 코딩 에이전트가 실제 Chrome 인스턴스를 제어하고 검사할 수 있는 Model Context Protocol (MCP) 서버로, 성능 추적 기록, DOM 및 CSS 검사, JavaScript 실행, 콘솔 출력 읽기, 사용자 흐름 자동화 등이 가능하다.
KTH의 Speech, Music and Hearing 그룹이 공개한 VoXtream은 실시간 TTS 모델로, 사람이 음성을 듣기 전에 잠시의 침묵 없이 말을 시작한다. 이는 실시간 에이전트, 실시간 더빙, 동시 통역 등에 혁명을 일으킬 것으로 기대된다.
Parlant는 신뢰성이 높고 일관된 작동을 하는 AI 에이전트를 개발하는 데 도움을 주는 프레임워크이다. 대규모 언어 모델 에이전트를 배포할 때 발생하는 일반적인 문제를 해결하기 위해 설계되었으며, 시스템 프롬프트를 무시하거나 부정확하고 관련성 없는 응답을 생성하는 문제를 해결한다.
Microsoft가 Azure Logic Apps(Standard)를 Model Context Protocol (MCP) 서버로 실행할 수 있는 공개 미리보기를 출시했다. 이를 통해 Logic Apps 워크플로우를 에이전트 도구로 노출시켜 MCP 호환 클라이언트(VS Code + Copilot 등)에서 발견하고 호출할 수 있다.
Perplexity의 AI 에이전트 “이메일 어시스턴트”는 Gmail 및 Outlook에 연결되어 답변 작성, 메시지 자동 라벨링 및 우선순위 설정, 회의 일정 조율까지 가능하며 Perplexity의 Max 플랜에서 제공됩니다.
알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.
MCP는 프론트엔드 팀이 디자인 스펙, 저장소/PR, 배포 대상, 가시성, 업무 관리를 편리하게 통합할 수 있는 표준화된 방법을 제공하며, 이 리스트는 FE 워크플로에 매핑되는 제품용 원격 MCP 서버에 초점을 맞추고 있다.
MIT CSAIL 연구진은 PDDL-INSTRUCT를 소개하여 대화식 계획 수립 성능을 향상시키고 LLM의 심볼릭 계획 성능을 높였다. 조정된 Llama-3-8B 모델은 Blocksworld에서 94%의 유효한 계획을 달성했다.
UTCP는 AI 에이전트와 애플리케이션이 추가 래퍼 서버 없이도 도구를 찾고 호출할 수 있는 가벼우면서 안전하고 확장 가능한 방법이다. 전통적인 툴 통합 솔루션의 문제와 UTCP의 주요 기능에 대해 설명한다.
메타 연구원들은 반복되는 추론 패턴을 짧고 이름이 붙은 절차, “행동”,으로 압축한 다음 모델이 추론 시 사용하거나 미세 조정을 통해 정제하는 방법을 소개했다. 결과적으로 MATH에서 추론 토큰 수를 최대 46% 절감하면서 정확도를 유지 또는 향상시키고, AIME에서는 자가 개선 환경에서 최대 10%의 정확도 향상을 이끌어냈다.
IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.
이 튜토리얼에서는 탈옥 방어 기술을 소개하며, 정책 회피 프롬프트를 탐지하고 안전하게 처리하는 방법을 단계별로 소개합니다. 실제 공격 및 양성 예제를 생성하고, 규칙 기반 신호를 만들어 TF-IDF 기능과 결합하여 회피 프롬프트를 차단하지 않고 합법적인 요청을 차단할 수 있는 간결하고 해석 가능한 분류기를 만듭니다.
LLM 판사가 1-5 (또는 pairwise) 점수를 할당할 때 정확히 무엇이 측정되는가? 대부분의 “정확성/신뢰성/완전성” 평가 기준은 프로젝트별로 다르며, 작업 기반 정의 없이 스칼라 점수는 업무 결과에서 벗어날 수 있다. LLM-as-a-judge (LAJ) 조사에서는 평가 기준의 모호함과 프롬프트 템플릿 선택이 점수와 사람에게 영향을 준다는 것을 언급하고 있다.
Coral Protocol은 Coral v1을 출시하여 개발자가 이질적인 프레임워크 간에 AI 에이전트를 발견, 구성 및 운영하는 방식을 표준화하고 있습니다. 이 릴리스는 스레드, 언급 주소 지정된 에이전트 간 메시징이 가능한 MCP 기반 런타임(Coral Server), 오케스트레이션 및 가시성을 위한 개발자 워크플로우(CLI + Studio), 그리고 에이전트용 공개 레지스트리에 중점을 두고 있습니다.
이 튜토리얼에서는 Hugging Face의 LeRobot 라이브러리를 사용하여 PushT 데이터셋에서 행동 복제 정책을 훈련하고 평가하는 방법을 단계별로 안내합니다. Google Colab 환경 설정부터 필요한 종속성 설치, LeRobot의 통합 API를 통해 데이터셋을 로드하는 과정을 진행합니다. 그리고 간결한 시각 모터 정책을 설계합니다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
Xiaomi의 MiMo 팀이 100백만 시간 이상의 오디오를 기반으로 한 7조 파라미터 음성 언어 모델 ‘MiMo-Audio’를 공개했다. 새로운 점은 과업별 헤드나 손실 악센트 토큰에 의존하는 대신, RVQ 토크나이저를 사용하여 의미론적 정보 및 음성을 타깃팅한다.
이 튜토리얼에서는 Octave를 oct2py 라이브러리를 통해 연결하여 Python 내에서 MATLAB 스타일 코드를 실행하는 방법을 살펴봅니다. Google Colab에서 환경을 설정하고, NumPy와 Octave 간에 데이터를 교환하며, .m 파일을 작성하고 호출하며, Octave에서 생성된 플롯을 Python 내에서 시각화하고, 툴박스, 구조체 및 .mat 파일과 함께 작업하는 방법을 알아봅니다.
구글의 Sensible Agent는 실시간 다중 모달 컨텍스트에 따라 행동과 상호작용 방식을 선택하는 AI 연구 프레임워크이다. 이는 “제안할 것”과 “어떻게 물어볼 것”을 분리하여 접근하는 것이 아니라 둘을 연결시켜준다.
2025년 컴퓨터 비전 분야는 새로운 다중 모달 백본, 대규모 오픈 데이터셋, 더 견고한 모델-시스템 통합으로 빠르게 발전했다. 이 목록은 주요 연구 허브, 연구소 블로그, 제품 중심의 엔지니어링 웹사이트를 우선시하여 최신 정보를 제공한다.
Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.
물리 AI란 무엇인가? 로봇 공학에서의 인공지능은 영리한 알고리즘에 그치지 않는다. 로봇은 물리적 세계에서 작동하며, 그들의 지능은 몸과 두뇌의 공동 설계로부터 나온다. 물리 AI는 재료, 구동, 감지 및 계산이 학습 정책이 작동하는 방식에 어떤 형태로 영향을 미치는지를 설명한다.
실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.
MIT 연구진은 LEGO를 소개했는데, 이는 텐서 워크로드를 사용하여 공간 가속기에 대한 합성 가능한 RTL을 자동으로 생성하는 컴파일러와 유사한 프레임워크이다. LEGO는 손으로 템플릿을 작성할 필요 없이 텐서 워크로드와 데이터 흐름을 표현하고, 재사용을 위해 FU (기능 장치) 인터커넥트 및 on-chip 메모리 레이아웃을 구축하며, 여러 작업을 퓨징하는 기능을 지원한다.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.
H 회사가 Holo1.5를 출시했다. 이는 컴퓨터 사용을 위한 오픈 기반 비전 모델로, 실제 사용자 인터페이스에 스크린샷 및 포인터/키보드 조작을 통해 작동하는 CU 에이전트를 위해 설계되었다. 3B, 7B, 72B 체크포인트가 포함되어 있으며, 크기별로 Holo1 대비 약 10% 정확도 향상이 문서화되어 있다.
알리바바의 통이 랩이 통이-딥리서치-30B-A3B를 오픈소스로 공개했다. 이 모델은 웹 도구를 활용한 장기, 심층 정보탐색을 위해 구축된 에이전트 특화 대형 언어 모델로, 약 30.5B의 총 파라미터와 토큰당 약 3-3.3B의 활성 파라미터를 사용하여 강력한 추론 성능을 유지하면서 고 처리량을 가능케 한다. ReAct 스타일 하의 멀티턴 연구 워크플로우를 대상으로 한다.
IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.
Meta Reality Labs와 Carnegie Mellon University 연구팀이 MapAnything을 소개했다. 이는 Apache 2.0 하에 공개된 end-to-end transformer 구조로, 이미지와 선택적 센서 입력으로부터 직접 3D 장면 지오메트리를 회귀시킨다. MapAnything은 12가지 이상의 3D 비전을 지원하며, 전문 파이프라인을 넘어진다.
이 튜토리얼에서는 Hugging Face의 무료 모델을 활용해 고급 음성 AI 에이전트를 구축하고, 전체 파이프라인을 Google Colab에서 원활하게 실행할 수 있도록 유지합니다. 우리는 음성 인식을 위해 Whisper, 자연어 추론을 위해 FLAN-T5, 음성 합성을 위해 Bark를 결합하여 전부 트랜스포머 파이프라인을 통해 연결합니다.
AI2, 워싱턴대학 및 CMU의 연구진이 유동 벤치마킹을 소개하며, 정적 정확도를 2개 매개변수 IRT 능력 추정 및 Fisher 정보 기반 항목 선택으로 대체하는 적응형 LLM 평가 방법을 도입했다. 모델의 현재 능력에 대해 가장 정보가 풍부한 질문만 하므로 더 부드러운 훈련 곡선을 제공하고 벤치마킹을 지연시킵니다.
구글의 Agent Payments Protocol (AP2)은 에이전트 주도의 결제를 위한 오픈, 상호 운용 가능한 명세서로, 사용자, 에이전트 개발자 또는 상인 중 누가 책임을 져야 하는지에 대한 불신이 해결됨.
Zarr 라이브러리의 기능을 깊이 파헤치는 튜토리얼. 대규모 다차원 배열의 효율적인 저장 및 조작을 위해 설계된 Zarr의 기본부터 시작하여 청킹 전략 설정, 직접 디스크에서 값 수정 등의 고급 작업까지 탐색.
Google Research가 200M 파라미터의 TimesFM-2.5를 공개했다. 이 모델은 16K 컨텍스트 길이와 원천 확률 예측 지원을 갖추고 있으며, GIFT-Eval에서 최상의 정확성 지표(MASE, CRPS)를 기록하고 있다. 시계열 예측은 무엇인가? 시계열 예측은 [ … ]
스탠포드 대학 연구팀이 의료 분야에서 대형 언어 모델 에이전트를 평가하기 위해 설계된 MedAgentBench를 발표했다. MedAgentBench는 가상 전자 건강 기록 환경을 제공하여 AI 시스템이 상호 작용, 계획 및 다단계 임상 작업을 실행해야 하는 실제 시나리오를 제공한다.
MoonshotAI가 checkpoint-engine을 오픈소스로 공개했다. 이는 대규모 언어 모델(Large Language Model, LLM) 배포에서 주요 병목 현상 중 하나인 수천 개의 GPU에서 모델 가중치를 신속하게 업데이트하고 추론을 방해하지 않는 것을 목표로 한 경량 미들웨어이다. 라이브러리는 특히 강화 학습 및 강화 학습과 인간 피드백(RLHF)을 위해 설계되었으며, 모델이 빈번히 업데이트되고 다운타임이 발생하는 경우에 유용하다.
이 튜토리얼에서는 프로모터 예측, 스플라이스 사이트 감지, 규제 요소 식별 등과 같은 실제 생물학적 작업을 시뮬레이션하는 DNA 서열 분류를 위한 고급 합성곱 신경망을 구축하는 방법을 다룹니다. 원-핫 인코딩, 다중 스케일 합성곱 레이어 및 주목 메커니즘을 결합하여 모델을 설계합니다.
OpenAI가 GPT-5-Codex를 발표했다. 이는 Codex 생태계 내에서 “agentic coding” 작업에 더 최적화된 GPT-5의 버전이다. 이번 업데이트의 목표는 Codex가 더 신뢰성 있고 빠르며 자율적인 행동을 보여 팀원처럼 행동할 수 있도록 하는 것이다.
NVIDIA의 연구진이 ViPE: 3D 기하학 인식을 위한 비디오 포즈 엔진을 공개했다. 이는 비용이 많이 드는 전통적인 방법 없이 로봇학을 위한 AI를 훈련하기 위한 3D 데이터셋을 어떻게 생성하는가에 대한 해결책으로, 3D 컴퓨터 비전 분야의 병목 현상을 해결한다.





