
이 연구는 LLM 에이전트를 위해 장기 기억에 저장할 내용, 단기 기억에 유지할 내용, 버릴 내용을 스스로 결정하는 방법을 설계하는 방법에 대해 다루고 있습니다. 이 연구에서는 텍스트 생성과 동일한 액션 공간을 통해 두 유형의 기억을 관리하는 단일 정책을 학습할 수 있는지에 대해 탐구하고 있습니다.

이 연구는 LLM 에이전트를 위해 장기 기억에 저장할 내용, 단기 기억에 유지할 내용, 버릴 내용을 스스로 결정하는 방법을 설계하는 방법에 대해 다루고 있습니다. 이 연구에서는 텍스트 생성과 동일한 액션 공간을 통해 두 유형의 기억을 관리하는 단일 정책을 학습할 수 있는지에 대해 탐구하고 있습니다.

메타와 하버드 연구자들이 공개한 ‘컨퓨시우스 코드 에이전트’는 산업 규모 소프트웨어 저장소와 긴 코드베이스용으로 설계된 오픈 소스 AI 소프트웨어 엔지니어로, 중간 규모 언어 모델이 에이전트 구조와 도구 스택으로 이동함에 따라 혁신이 얼마나 발전할 수 있는지 보여줍니다.
이 튜토리얼에서는 Ibis를 사용하여 Pandas와 유사하지만 데이터베이스 내에서 완전히 실행되는 이식 가능한 인-데이터베이스 피처 엔지니어링 파이프라인을 구축하는 방법을 보여줍니다. DuckDB에 연결하고 데이터를 안전하게 백엔드에 등록하고 창 함수와 집계를 사용하여 복잡한 변환을 정의하는 방법을 소개합니다.

텐센트 훈유안 연구원은 HY-MT1.5를 발표했는데, 모바일 기기와 클라우드 시스템을 대상으로 하는 다국어 기계 번역 모델로, 33개 언어 간 상호 번역을 지원하며 GitHub와 Hugging Face에서 이용 가능하다.

DeepSeek 연구자들은 대형 언어 모델 교육에서 발생하는 문제를 해결하려고 노력 중이다. 새로운 방법인 mHC(Manifold Constrained Hyper Connections)은 하이퍼 연결의 풍부한 토폴로지를 유지하면서 섞임 행동을 제한함으로써 안정성을 개선한다.
Cloudflare가 tokio-quiche를 오픈소스로 공개했다. 이는 Tokio 런타임과 결합된 비동기 QUIC 및 HTTP/3 Rust 라이브러리로, Apple iCloud Private Relay, Oxy 기반 프록시, WARP의 MASQUE 클라이언트 등에서 백만 개 이상의 HTTP/3 요청을 처리하는 데 사용되었다.

텐센트의 3D 디지털 휴먼 팀이 HY-Motion 1.0을 공개했다. 이 모델은 자연어 명령과 예상 기간을 3D 인간 동작 클립으로 변환하며, 10억 개의 파라미터를 활용하여 작동한다.
이 튜토리얼에서는 무거운 프레임워크나 복잡한 인프라에 의존하지 않고 연합 학습을 사용하여 프라이버시 보호 사기 탐지 시스템을 시뮬레이션하는 방법을 보여줍니다. 10개의 독립 은행을 모방하며, 각각이 고도로 불균형한 거래 데이터에서 로컬 사기 탐지 모델을 학습합니다. 이러한 로컬 업데이트를 조율합니다.

MiniMax가 M2 모델의 향상된 버전인 MiniMax M2.1을 출시했다. 이 모델은 다중 코딩 언어 지원, API 통합, 구조화된 코딩을 위한 개선된 도구 등의 기능을 제공하며 낮은 비용으로 빠른 실행 속도를 자랑한다.

스탠포드, 하버드, UC의 최신 연구 논문인 ‘의지 있는 AI의 적응’에서는 대부분의 ‘의지 있는 AI’ 시스템이 신뢰할 수 없는 도구 사용, 약한 장기 계획, 부족한 일반화 등에 여전히 어려움을 겪고 있다고 설명하고 있다.

Anthropic이 새로운 오픈 소스 에이전틱 프레임워크 ‘Bloom’을 출시했다. 이 프레임워크는 전방위 인공지능 모델의 자동 행동 평가를 위한 것으로, 연구자가 지정한 행동을 측정하여 현실적인 시나리오에서 얼마나 자주 강도 있게 나타나는지 측정한다. ‘Bloom’의 등장은 안전 및 정렬을 위한 행동 평가가 설계 및 유지에 비용이 많이 드는 문제를 해결한다.

Mistral AI가 최신 OCR 서비스인 Mistral OCR 3를 출시했다. 이 모델은 PDF 및 기타 문서에서 교차된 텍스트와 이미지를 추출하고 구조를 보존하는 데 사용되며, 1,000 페이지 당 $2의 저렴한 가격에 이를 수행한다.

Meta사가 SAM Audio를 발표했는데, 이는 진행이 어려운 오디오 분리 문제를 해결하기 위한 모델로, 사용자 친화적이고 멀티모달 프롬프트를 활용한다. 세 가지 사이즈로 제공되며, 다운로드 및 사용이 가능하다.

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

Boss Zhipin의 Nanbeige LLM Lab이 발표한 Nanbeige4-3B는 데이터 품질, 커리큘럼 스케줄링, 디스틸레이션, 강화 학습에 중점을 둔 3B 파라미터 작은 언어 모델 패밀리로, 30B 클래스 추론을 제공하는 훈련 레시피를 수정함으로써 가능한가에 대한 연구 결과를 소개한다.
구글과 MediaTek의 새 LiteRT NeuroPilot 가속기는 실제 생성 모델을 폰, 랩탑 및 IoT 하드웨어에서 데이터 센터로 요청을 보내지 않고 실행할 수 있는 구체적인 단계입니다. 기존의 LiteRT 런타임을 채택하여 MediaTek의 NeuroPilot NPU 스택에 직접 연결하여 개발자가 LLMs와 임베딩 모델을 배포할 수 있습니다.
구글이 캐글과 코랩 사이의 간극을 메우기 위해 새로운 기능인 코랩 데이터 익스플로러를 출시했다. 이를 통해 노트북 내에서 캐글 데이터셋, 모델, 대회를 검색하고 편집기를 벗어나지 않고 캐글허브를 통해 가져올 수 있다.
Panel을 활용해 고급 다중 페이지 인터랙티브 대시 보드를 만드는 튜토리얼. 각 구성 요소를 통해 합성 데이터 생성, 풍부한 필터 적용, 동적 시계열 트렌드 시각화, 세그먼트 및 지역 비교, 그리고 실시간 KPI 업데이트 시뮬레이션 방법을 탐구한다.

메타 AI 연구원들이 소개한 매트릭스는 현대 AI 모델을 위해 합성 데이터를 신선하고 다양하게 유지하는 방법을 제시하는데, 단일 조율 파이프라인을 병목 현상으로 만들지 않고, 분산된 대기열을 통해 메시지로 직렬화된 제어와 데이터 흐름을 구현한 분산 프레임워크이다.

NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.
Tinygrad를 사용하여 텐서, 오토그래드, 어텐션 메커니즘 및 트랜스포머 구조를 완전히 손으로 만들어보는 튜토리얼. 기본 텐서 작업부터 멀티헤드 어텐션, 트랜스포머 블록, 미니-GPT 모델까지 순차적으로 구축하면서 Tinygrad의 간결함을 관찰한다.

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.

NVIDIA는 하나의 탄력 있는 모델로 여러 크기의 모델을 생성할 수 있게 하여 AI 개발팀이 여러 대규모 언어 모델을 훈련하고 저장할 필요성을 없앴다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 12B 파라미터 추론 모델로, 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다.
Opik를 사용하여 LLM 파이프라인을 구축, 추적 및 평가하는 완전한 워크플로우를 구현하는 튜토리얼. 경량 모델로 시작하여 프롬프트 기반 계획 추가, 데이터셋 생성 및 자동화된 평가 실행까지 구조화된 시스템을 단계별로 진행하며 Opik가 각 함수 스팬을 추적하는 방법을 확인합니다.

Meta AI 팀이 Meta Segment Anything Model 3 또는 SAM 3을 공개했다. SAM 3은 간단한 프롬프트를 사용하여 대규모 이미지 및 비디오 컬렉션에서 모든 개념의 인스턴스를 신뢰성 있게 찾고 세분화하고 추적하는 데 사용되는 통합 기본 모델이다.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

Cerebras가 MiniMax-M2-REAP-162B-A10B를 발표했다. 이 모델은 MiniMax-M2에서 파생된 압축된 희소 Mixture-of-Experts (SMoE) 인과 언어 모델로, Router 가중 전문가 활성화 가지치기(REAP) 방법을 사용하여 전문가를 가지치기하고 코딩 에이전트 및 도구와 같은 배포 중심 워크로드의 메모리를 줄였다.

Prior Labs가 TabPFN-2.5를 발표했다. 이는 탭피에프엔의 규모와 속도를 높여준다. 금융, 의료, 에너지 및 산업팀은 행과 열의 테이블로 작업하며, 이 모델은 50,000개 샘플과 2,000개 피처로 학습 범위를 확장한다.

Moonshot AI사가 Kimi K2 Thinking을 공개했다. 이 모델은 Kimi K2 Mixture of Experts 아키텍처의 전체 추론 스트림을 노출하는 오픈 소스 사고 에이전트 모델로, 깊은 추론이 필요한 작업을 대상으로 한다.
이 튜토리얼에서는 Meta Research가 개발하고 오픈 소스로 공개한 고급 구성 관리 프레임워크 인 하이드라를 탐색합니다. Python 데이터 클래스를 사용하여 구조화된 구성을 정의하여 실험 매개변수를 깔끔하고 모듈식으로 관리하고 재현 가능하게 합니다. 튜토리얼을 진행하면서 구성을 구성하고 런타임 오버라이드를 적용하고 시뮬레이션합니다.

Microsoft AI 팀이 출시한 ‘에이전트 라이트닝’은 기존 AI 에이전트 스택을 변경하지 않고도 강화 학습을 통해 정책 LLM을 개선하는 데 도와주는 오픈소스 프레임워크이다. 훈련과 실행을 분리하여 강화 학습을 모든 AI 에이전트에 대해 가능케 한다.

미니맥스팀이 코딩과 에이전트 워크플로에 최적화된 전문가 모델인 MiniMax-M2를 공개했다. 이 모델은 최대 모델 비용의 일부분으로 오랜 기간 동안 MCP, 쉘, 브라우저, 검색 및 코드 작업을 지원한다.

대형 언어 모델(Large Language Models, LLMs)은 여러 매개변수를 제공하여 행동을 세밀하게 조정하고 응답 생성 방식을 제어할 수 있습니다. 이 튜토리얼에서는 max_completion_tokens, temperature, top_p, presence_penalty 등 일반적으로 사용되는 몇 가지 매개변수를 살펴봅니다.
PokeeResearch-7B는 7B 파라미터 딥 리서치 에이전트로, 쿼리를 분해하고 검색 및 읽기 호출을 실행하며 후보 답변을 확인한 후 여러 리서치 스레드를 최종 응답으로 합성하는 기능을 제공한다. 에이전트는 연구 및 검증 루프를 실행한다.
VISTA는 추론 중에 텍스트에서 비디오 생성을 개선하는 다중 에이전트 프레임워크로, 구조화된 프롬프트를 장면으로 계획하고 최고의 후보를 선택하기 위해 페어와이즈 토너먼트를 실행하며 시각, 음향, 문맥에 걸쳐 특화된 심사위원을 활용하고 깊은 사고 프롬프팅 에이전트로 프롬프트를 다시 작성합니다.
강화 학습 RL 후 훈련은 이제 추론 중심 LLMs에 대한 주요 수단이지만, 사전 훈련과 달리 예측 가능한 스케일링 규칙이 없었습니다. Meta, UT Austin, UCL, Berkeley, Harvard 등의 연구진이 시그모이드 스케일링 곡선을 도입하여 이 문제를 해결했습니다.
이 튜토리얼에서는 도구 문서를 표준화된 호출 인터페이스로 변환하고 중앙 시스템에 등록한 후 자동화된 파이프라인의 일부로 실행하는 효율적인 프레임워크를 구축하는 방법을 보여줍니다.
Qualifire AI가 Rogue를 공개했는데, 이는 AI 에이전트의 성능을 평가하는 파이썬 프레임워크로, 기존 QA 방법론의 한계를 극복하고 개발팀이 믿고 릴리스를 관리할 수 있도록 도와준다.
Meta Superintelligence Labs가 제안한 ‘Early Experience’는 보상 없이 에이전트를 훈련하는 새로운 방법으로, 언어 에이전트의 정책 학습을 개선하며 모방 학습을 능가하는 것으로 나타났습니다.
이 튜토리얼에서는 파이썬의 강력한 테스트 프레임워크 중 하나인 PyTest의 고급 기능을 탐구합니다. 픽스처, 마커, 플러그인, 매개변수화 및 사용자 정의 구성을 보여주는 완전한 미니 프로젝트를 처음부터 구축합니다. PyTest가 단순한 테스트 러너에서 현실 세계의 견고하고 확장 가능한 시스템으로 어떻게 진화하는지에 초점을 맞춥니다.
NVIDIA AI가 강화 학습 사전 학습(RLP)을 소개했습니다. 이는 후속 학습이 아닌 사전 학습 단계에서 강화 학습을 적용하는 교육 목표입니다. 강화 학습을 다음 토큰 예측 전에 샘플링된 작업으로 취급하고 정보 획득에 대한 보상으로 보상합니다.
Skala는 Kohn-Sham 밀도 기능 이론(DFT)을 위한 딥러닝 교환-상관 기능으로, 반 하이브리드 수준 정확도를 반 공간 비용에서 달성한다. W4-17에서 MAE는 약 1.06 kcal/mol(단일 참조 하위집합에서 0.85), WTMAD-2는 약 3.89 kcal/mol이다. 주요 분자화학에 적합하며 D3(BJ) 분산 보정을 사용한다.
상하이교통대학교 및 SII Generative AI Research Lab (GAIR)의 연구진은 LIMI (“Less Is More for Agency”)라는 감독 세부 조정 방법을 제안하며, 기본 모델을 78개의 샘플을 사용하여 능숙한 소프트웨어/연구 에이전트로 변환합니다.
Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.
OpenAI는 물리적 타당성, 다중 샷 제어, 동기화된 대화/SFX에 중점을 둔 텍스트-비디오-오디오 모델인 Sora 2를 출시했다. 미국과 캐나다를 대상으로 한 동의 게이트 Sora iOS 앱을 출시하여 소셜 크리에이션, 리믹싱, 검증된 유사성 삽입을 허용한다.
oLLM은 Huggingface Transformers와 PyTorch 기반의 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용합니다.
이 튜토리얼에서는 Dash, Plotly 및 Bootstrap을 사용하여 고급 대화형 대시보드를 구축하는 방법을 설명합니다. 이 도구들이 레이아웃 및 시각화를 설계하는 데 어떻게 도움을 주고, Dash의 콜백 메커니즘이 컨트롤을 출력에 연결하여 실시간으로 응답 할 수 있도록 하는 방법을 강조합니다.
구글 DeepMind의 Gemini Robotics 1.5는 하이-레벨 신체적 추론과 로우-레벨 시각 운동을 위한 두 가지 모델로 분리하여, 연구자처럼 계획하고 장면을 이해하며 로봇 간 동작을 전달할 수 있다고 말합니다.
AI 애플리케이션에서 성능은 중요하다. 대형 언어 모델(Large Language Models, LLM)을 사용할 때 API 응답이나 I/O 작업을 기다리는 시간이 많이 소요된다. 이때 asyncio가 도움이 된다. 많은 개발자들이 LLM을 사용하면서 asyncio를 사용하고 있다.
알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.
Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.
알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.
알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.
IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.
실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.
알리바바의 통이 랩이 통이-딥리서치-30B-A3B를 오픈소스로 공개했다. 이 모델은 웹 도구를 활용한 장기, 심층 정보탐색을 위해 구축된 에이전트 특화 대형 언어 모델로, 약 30.5B의 총 파라미터와 토큰당 약 3-3.3B의 활성 파라미터를 사용하여 강력한 추론 성능을 유지하면서 고 처리량을 가능케 한다. ReAct 스타일 하의 멀티턴 연구 워크플로우를 대상으로 한다.
IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.
이 튜토리얼에서는 프로모터 예측, 스플라이스 사이트 감지, 규제 요소 식별 등과 같은 실제 생물학적 작업을 시뮬레이션하는 DNA 서열 분류를 위한 고급 합성곱 신경망을 구축하는 방법을 다룹니다. 원-핫 인코딩, 다중 스케일 합성곱 레이어 및 주목 메커니즘을 결합하여 모델을 설계합니다.
음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.
새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.
NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.
바이두 AI 연구팀이 효율성, 장기적 논리 추론, 도구 통합을 중심으로 설계된 새로운 ERNIE-4.5-21B-A3B-Thinking을 발표했다. 이 모델은 21B 총 매개변수를 가지고 있지만 토큰 당 활성 매개변수는 3B뿐으로, 계산 효율성을 유지하면서 경쟁력 있는 논리 능력을 갖추고 있다.
메타 초지능 연구소, 싱가포르 국립대학교 및 라이스 대학의 연구진이 REFRAG (REpresentation For RAG)를 발표했다. 이는 RAG 효율성을 재고하는 디코딩 프레임워크로, LLM 컨텍스트 창을 16배로 확장하고 정확도를 저해하지 않으면서 첫 번째 토큰까지의 시간을 최대 30.85배 가속화시킨다.
Resemble AI가 최근 23개 국어로 제로샷 음성 클로닝을 위한 프로덕션 급 오픈 소스 TTS 모델인 Chatterbox Multilingual을 출시했다. MIT 라이선스로 배포되어 통합 및 수정에 자유롭다. 이 모델은 Chatterbox 프레임워크를 기반으로 다국어 기능, 표현 제어, 내장형 기능을 추가했다.
의료 인공지능 분야에서 AI의 역할이 증가하고 있으며, 생물학적 문제를 해결하고 환자 데이터를 해석하는 등 복잡한 작업을 수행할 수 있는 에이전트에 대한 수요가 급증하고 있다.
구글 딥마인드 팀의 최근 연구에서, RAG 시스템의 밀집 임베딩 모델이 규모에 한계를 가지고 있음을 설명했다. 이 한계는 더 큰 모델이나 더 나은 훈련만으로 해결할 수 없는 기본적인 구조적 한계이다.
인간 시각 세계에 대한 내부 표현을 뇌가 어떻게 구축하는지 이해하는 것은 뇌과학에서 가장 매혹적인 도전 중 하나다. 최근 10년간 딥러닝은 컴퓨터 비전을 혁신하여 인간 수준의 정확도로 작업을 수행할 뿐 아니라 정보를 처리하는 방식이 우리의 것과 닮았다는 것을 보여준다.
Apple은 FastVLM을 발표했다. 이는 비교 가능한 크기의 비전 언어 모델(VLM)보다 85배 빠르고 3.4배 작다. 고해상도 이미지를 처리하는 VLM의 성능에 중요한 역할을 하는데, 높은 해상도 이미지에 대한 사전 훈련된 비전 인코더의 비효율성과 추론 실행 시의 계산 비용 증가 등이 도전 요인이다.
이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]
알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.
대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.
TPOT를 활용하여 기계 학습 파이프라인을 자동화하고 최적화하는 방법을 실제로 시연하는 튜토리얼. Google Colab에서 작업하여 가벼우면서 재현 가능하고 접근성이 좋도록 설정. 데이터 로드, 사용자 정의 스코어러 정의, XGBoost와 같은 고급 모델로 검색 공간을 맞춤화하는 방법, 설정하는 과정을 안내.
Meta AI와 UCSD 연구팀이 새로운 AI 방법인 Deep Think with Confidence (DeepConf)를 소개했다. 이 방법은 병렬 사고와 자아일관성 기법을 활용하여 AI 추론을 혁신하였고, AIME 2025에서 99.9%의 성과를 이루었다. 이는 오픈소스 모델 GPT-OSS-120B를 사용하는 첫 번째 사례이다.
구글의 새로운 회귀 언어 모델(RLM) 접근 방식은 복잡한 피쳐 엔지니어링이나 엄격한 테이블 형식에 의존하지 않고 대용량 언어 모델(LLMs)이 원시 텍스트 데이터에서 산업 시스템 성능을 예측할 수 있게 합니다.
Microsoft이 새로 공개한 VibeVoice-1.5B는 MIT 라이선스로 배포된 텍스트 음성(TTS) 기술의 한계를 재정의하며, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 유연하고 확장 가능한 모델이다.
최근 대형 언어 모델 판단력을 갖춘 AI 에이전트의 발전으로, 임상 대화, 진단 및 치료 계획이 가능해졌습니다. 그러나 개별 진단과 치료 권고는 규제가 엄격하며, 중요한 환자와 직면한 결정에 대한 책임은 라이선스를 받은 임상 의사만이 가질 수 있습니다. 전통적인 의료는 종종 계층적 감독을 사용하며, 경험 많은 의사가 임상 의사의 의사결정을 검토합니다.
데이터 주도 세계에서 데이터베이스는 모바일 앱부터 기업 시스템에 이르기까지 현대 애플리케이션의 중추를 이룬다. 다양한 데이터베이스 유형과 그 응용을 이해하는 것은 특정한 요구 사항에 맞는 적절한 시스템을 선택하는 데 중요하며, 개인 프로젝트를 구축하거나 기업 수준의 솔루션을 설계하는 경우 필수적이다.
LLM은 파라미터 수가 급증하고 MoE 디자인과 대규모 컨텍스트 길이의 널리 사용으로 급속히 발전했습니다. DeepSeek-R1, LLaMA-4, Qwen-3 같은 모델은 이제 수조 개의 파라미터에 이르며 엄청난 컴퓨팅, 메모리 대역폭, 빠른 칩 간 통신이 요구됩니다. MoE는 효율성을 향상시키지만 전문가 라우팅에서 도전을 야기하며 백만 개 이상의 토큰을 갖는 컨텍스트 창은 […]
자연어를 SQL이나 Cypher와 같은 형식적인 쿼리 언어로 변환하는 의미 파싱은 데이터베이스와 직관적으로 상호작용할 수 있게 합니다. 그러나 자연어는 모호하고 쿼리 언어는 정확성을 요구하기 때문에 모호성은 그래프 데이터베이스에서 어려운 과제입니다.
Zhipu AI가 ComputerRL을 소개했다. 본 프레임워크는 에이전트에게 복잡한 디지털 작업 환경을 탐색하고 조작할 능력을 부여하는 것을 목표로 한다. 이 혁신은 AI 에이전트 개발에서 핵심적인 도전 과제를 해결하는데, 즉 컴퓨터 에이전트와 인간이 디자인한 GUI 간의 연결 부재를 해소한다.
2025년 현재 인공지능 개발에서 PyTorch와 TensorFlow 사이의 선택은 여전히 가장 논란이 되는 문제 중 하나이다. Alfaisal 대학의 종합 조사 논문을 통해 최신 동향을 탐색하며 사용성, 성능, 배포, 생태계 고려 사항을 종합적으로 분석한다.
McKinsey의 오픈소스 파이썬 툴킷 Vizro는 몇 줄의 설정으로 멋진 대시보드를 만드는데 도움을 주며, Plotly, Dash, Pydantic 위에 구축되어 있다.
인공지능 시대에 기업은 전례 없는 기회와 복잡한 도전에 직면하고 있습니다. 최신 도구를 채택하는 것뿐만 아니라 AI가 사람, 프로세스, 플랫폼과 어떻게 통합되는지에 대해 근본적으로 재고하는 것이 성공의 열쇠입니다. 최신 연구를 바탕으로 기업 리더가 이해해야 할 11가지 AI 개념을 소개합니다.
Rutgers 대학 연구팀이 소개한 ReaGAN은 각 노드를 독립적인 추론 에이전트로 재구상하는 그래프 에이전트 네트워크로, 그래프 내 모든 노드를 인공지능 에이전트로 만들어 맞춤형 추론, 적응적 검색, 자율적 의사 결정을 가능케 한다.
Salesforce AI Research가 Moirai 2.0을 공개했다. 이는 타임 시리즈 기반 모델의 최신 진보로, 디코더 전용 트랜스포머 아키텍처 위에 구축되어 성능과 효율성에서 새로운 기준을 세우며 GIFT-Eval 벤치마크에서 1위를 차지했다.
지도된 미세 조정(SFT)은 LLMs를 새로운 작업에 적응시키는 표준 기술이지만, 종종 강화 학습(RL)에 비해 일반화에서 성능이 저하됩니다. DFT는 이 간극을 줄이는 새로운 방법을 제안합니다.
구글 AI가 UC Santa Cruz Genomics Institute와 협력하여 개발한 DeepPolisher는 염기 수준 오류를 정확하게 교정하여 유전체 조립의 정확도를 크게 향상시키는 새로운 딥러닝 도구이다. 최근 인간 판유전체 참조물을 발전시키는 데 효과적으로 활용되었다.
본문에서는 중국에서 나온 새로운 연구 논문을 소개하며, 구두 대화 모델의 실제 대화 복잡성을 다루는 능력을 평가하는 것이 중요한 도전이라고 설명하고 있다.
실제 세계에서 자율적으로 생각하고 배우고 행동할 수 있는 AI 시스템을 만들기 위해 필요한 7가지 핵심 레이어에 대한 포괄적인 프레임워크 소개.
Roboflow 감독 라이브러리를 활용하여 객체 감지 파이프라인을 구축하는 고급 튜토리얼. 실시간 객체 추적 설정, 감지 부드럽게 처리, 비디오 스트림에서 특정 지역을 모니터링하기 위해 다각형 영역 정의 등을 다룸. 프레임을 처리하면서 경계 상자, 객체 ID 등을 주석으로 달아줌.
MLE-STAR은 구글 클라우드 연구원들이 개발한 최첨단 에이전트 시스템으로, 복잡한 기계 학습 ML 파이프라인 설계와 최적화를 자동화합니다. MLE-STAR은 웹 규모 검색, 특정 코드 수정, 견고한 검사 모듈을 활용하여 기계 학습 엔지니어링 작업에서 우수한 성능을 발휘합니다.
Trackio는 머신 러닝 워크플로우에서 중요한 실험 추적을 간편하고 통찰력 있게 만들어주는 파이썬 라이브러리다. 다양한 실험 추적 솔루션들과는 달리 복잡한 설정이 필요 없으며 라이선스 비용도 없다. 사용자 데이터를 소유권이 있는 프로토콜에 가둬두지 않는다.
Apple 연구자들이 FastVLM을 소개했다. 이 모델은 비전 언어 모델에서 최신 해상도-지연-정확도 트레이드오프를 달성하는데 중요한 역할을 한다. 높은 해상도 이미지 처리에 대한 도전과 효율적인 사전 훈련 요구 등 다양한 문제를 다룬다.
MiroMind-M1은 오픈소스 파이프라인으로, 수학 문제 해결을 위한 고급 기능을 평가하는 엄격한 기준으로 자리 잡은 다단계 추론에 높은 성과를 보이고 있습니다. 기존의 프로프리어터리 모델에 비해 투명성과 재현성을 향상시키는 MiroMind-M1 시리즈가 출시되었습니다.
아마존 연구진이 뇌가 특정 작업을 위해 특수 영역을 사용하는 것과 유사하게 작업 관련 뉴런만 선택하여 추론 시간을 30% 단축하는 새로운 AI 아키텍처를 개발했다. 이 혁신적인 방법은 대규모 AI 모델이 직면한 가장 큰 문제 중 하나인 모든 요청마다 모든 뉴런을 활성화하는 데 필요한 계산 비용과 지연 시간을 해결한다.
Microsoft가 Edge에서 코파일럿 모드를 출시하면서 AI 네이티브 브라우저로 나아가며 웹 브라우징의 미래를 재정립했다. 브라우저의 새로운 가능성을 열었다.
NVIDIA의 최신 릴리스인 Llama Nemotron Super v1.5은 추론 및 에이전틱 작업에 특히 뛰어난 성능과 사용성을 제공하여 모델이 어디까지 이끌 수 있는지에 대한 경계를 넘는 AI 발전을 이끌고 있다.