
구글이 T5Gemma 2를 발표했다. Gemma 3 사전 훈련 가중치를 인코더-디코더 레이아웃으로 적응시킨 후, UL2 목적으로 사전 훈련을 계속했다. 개발자들을 위해 사전 훈련된 상태로 제공되며 특정 작업을 위해 추가 훈련할 수 있도록 의도되었다.

구글이 T5Gemma 2를 발표했다. Gemma 3 사전 훈련 가중치를 인코더-디코더 레이아웃으로 적응시킨 후, UL2 목적으로 사전 훈련을 계속했다. 개발자들을 위해 사전 훈련된 상태로 제공되며 특정 작업을 위해 추가 훈련할 수 있도록 의도되었다.
이 튜토리얼에서는 프롬프트를 정적 텍스트가 아닌 조정 가능한 매개변수로 취급하여 전통적인 프롬프트 제작에서 더 체계적이고 프로그래밍 가능한 방식으로 전환합니다. Gemini 2.0 Flash 주변의 최적화 루프를 구축하여 가장 강력한 프롬프트 구성을 자동으로 선택하는 효과적인 방법을 제시합니다.
Unsloth와 NVIDIA는 RTX 데스크탑부터 DGX Spark까지 NVIDIA RTX AI PC를 사용하여 인기 있는 AI 모델을 빠르게 Fine-tuning하여 코딩, 창의적 작업 및 복잡한 업무에 맞는 맞춤형 어시스턴트를 구축할 수 있습니다.

Meta사가 SAM Audio를 발표했는데, 이는 진행이 어려운 오디오 분리 문제를 해결하기 위한 모델로, 사용자 친화적이고 멀티모달 프롬프트를 활용한다. 세 가지 사이즈로 제공되며, 다운로드 및 사용이 가능하다.
이 튜토리얼에서는 Gemini Flash 모델을 사용하여 협업하는 작은 but 강력한 두 에이전트 CrewAI 시스템을 구축하는 방법을 구현합니다. 환경을 설정하고 안전하게 인증하고 특수 에이전트를 정의하며 연구에서 구조화된 작성으로 흐르는 작업을 조정합니다.

Thinking Machines Lab은 Tinker 훈련 API를 일반적으로 사용 가능하게 하고, Kimi K2 Thinking 추론 모델 지원, OpenAI 호환 샘플링, Qwen3-VL 비전 언어 모델을 통한 이미지 입력을 추가했습니다. AI 엔지니어들에게는 분산 훈련을 구축하지 않고도 선두 모델을 세밀하게 조정할 수 있는 실용적인 방법으로 변모시켰습니다.
본 튜토리얼에서는 Gemini를 사용하여 의미 라우팅, 상징적 가드레일 및 자가 교정 루프로 구동되는 완전한 에이전트 AI 조율 파이프라인을 설계하고 실행하는 방법을 탐구합니다. 에이전트 구조, 작업 디스패치, 제약 조항 강제 및 깔끔하고 모듈식 아키텍처를 사용하여 출력을 정제하는 방법을 살펴봅니다.

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

오늘날의 AI 생태계는 LLMs에 대해 말하는 사람들이 많지만, 그 이면에는 기계가 어떻게 보고, 계획하고, 행동하며, 세분화하고, 개념을 표현하고, 심지어 작은 장치에서 효율적으로 실행하는 방식을 조용히 변화시키는 특수화된 아키텍처의 전체 가족이 있다. 각 모델은 지능 퍼즐의 다른 부분을 해결하고 함께…

Boss Zhipin의 Nanbeige LLM Lab이 발표한 Nanbeige4-3B는 데이터 품질, 커리큘럼 스케줄링, 디스틸레이션, 강화 학습에 중점을 둔 3B 파라미터 작은 언어 모델 패밀리로, 30B 클래스 추론을 제공하는 훈련 레시피를 수정함으로써 가능한가에 대한 연구 결과를 소개한다.
Griptape와 가벼운 Hugging Face 모델을 사용하여 로컬, API 없이 에이전틱 스토리텔링 시스템을 만드는 튜토리얼. 에이전트 생성, 허구의 세계 생성, 캐릭터 디자인, 일관된 단편 소설 생성을 위한 다단계 워크플로 설계 방법을 소개. 모듈식 코드 조각으로 구현을 나눠 설명.
OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.
CopilotKit은 AI 동료 및 앱 내 에이전트를 직접 구축하기 위한 오픈 소스 프레임워크입니다. 팀들은 에이전트 그래프를 강력한 사용자 인터페이스로 변환하기 위해 여전히 사용자 정의 코드를 작성해야 했는데, CopilotKit은 이를 해결합니다.

Marktechpost의 ML 글로벌 영향 보고서에 따르면, ML 도구의 원산지와 연구 채택 사이에 지리적 불균형이 있음을 밝혀냄. 125개국에서 발표된 5,000여편의 논문을 분석한 결과, 특정 연구 영역에서의 불균형을 보여줌.

Mistral AI가 소프트웨어 엔지니어링 에이전트를 위한 다음 세대 코딩 모델인 Devstral 2 및 터미널 또는 Agent Communication Protocol을 지원하는 IDE 내에서 실행되는 오픈 소스 명령줄 코딩 도우미인 Mistral Vibe CLI를 소개했습니다.
이 튜토리얼에서는 환경과 상호작용을 통해 지능적 에이전트가 단계적으로 절차적 메모리를 형성하는 방법을 탐구합니다. 스킬이 뉴럴 모듈처럼 작동하도록 설계하여 행동 시퀀스를 저장하고 상황에 맞는 임베딩을 전달하며, 새로운 상황에서 유사성에 따라 검색됩니다.
구글과 MediaTek의 새 LiteRT NeuroPilot 가속기는 실제 생성 모델을 폰, 랩탑 및 IoT 하드웨어에서 데이터 센터로 요청을 보내지 않고 실행할 수 있는 구체적인 단계입니다. 기존의 LiteRT 런타임을 채택하여 MediaTek의 NeuroPilot NPU 스택에 직접 연결하여 개발자가 LLMs와 임베딩 모델을 배포할 수 있습니다.

Zhipu AI가 GLM-4.6V 시리즈를 공개했다. 이미지, 비디오, 도구를 주요 입력으로 취급하는 비전 언어 모델로, 텍스트 위에 올려진 후속 조치가 아닌 에이전트를 위한 것이다.

Jina AI가 2.4B 파라미터의 비전 언어 모델인 Jina-VLM을 출시했다. 이 모델은 다국어 비주얼 질의응답 및 제한된 하드웨어에서 문서 이해를 목표로 한다. SigLIP2 비전 인코더와 Qwen3 언어 백본을 결합하며, 시각 토큰을 줄이고 공간 구조를 보존하는 주의 집중 풀링 커넥터를 사용한다.
NVIDIA의 공학자 Stephen Jones와의 인터뷔. AI 모델이 복잡해지고 하드웨어가 발전함에 따라, 두 요소를 연결하는 소프트웨어 계층도 적응해야 함. Jones는 CUDA의 원조 아키텍트 중 한 명으로, 유체 역학부터 항공우주 공학까지 배경을 가지고 있음.

구글 리서치가 타이탄과 미라스로 시퀀스 모델에 장기 기억력을 부여하고, 훈련을 병렬로 유지하면서 추론을 선형에 가깝게 하는 새로운 방법을 제안하고 있다. 타이탄은 트랜스포머 스타일의 백본에 심층 신경 메모리를 추가하는 구체적인 아키텍처이다. 미라스는 일반적인 프레임워크로, 시퀀스 모델에 연관 메모리를 부여하는 방식을 제시하고 있다.

Cisco와 Splunk은 옵저버빌리티 및 보안 메트릭을 위해 디자인된 단변량 제로 샷 시계열 기반 모델인 Cisco Time Series Model을 소개했다. 이 모델은 Apache 2.0 라이선스 하에 Hugging Face에 오픈 웨이트 체크포인트로 출시되었으며 과업별 특정 파인튜닝 없이 예측 워크로드를 대상으로 한다.
구글이 캐글과 코랩 사이의 간극을 메우기 위해 새로운 기능인 코랩 데이터 익스플로러를 출시했다. 이를 통해 노트북 내에서 캐글 데이터셋, 모델, 대회를 검색하고 편집기를 벗어나지 않고 캐글허브를 통해 가져올 수 있다.
Hierarchical Bayesian regression을 NumPyro로 구현하는 튜토리얼. 가상 데이터 생성부터 전체 워크플로우를 구조적으로 안내. NUTS를 사용해 추론 설정하고 사후 분포 분석, 사후 예측 분석 수행.
Microsoft이 VibeVoice-Realtime-0.5B를 발표했다. 실시간 텍스트 음성 변환 모델은 에이전트 스타일 애플리케이션과 실시간 데이터 내레이션을 위해 설계되었으며, 약 300ms 안에 청취 가능한 음성을 생성할 수 있다.
이 튜토리얼은 어떻게 사전에 어떻게 생각할지 결정하는 메타 추론 에이전트를 구축하는 방법에 대해 시작합니다. 모든 쿼리에 동일한 추론 프로세스를 적용하는 대신 복잡성을 평가하고 빠른 휴리스틱, 심층적인 사고 연쇄, 또는 도구 기반 계산 중에서 선택하고 실시간으로 행동을 적응시키는 시스템을 설계합니다.

Lux는 느린 수동 클릭 작업을 신뢰할 수 있는 자동화 시스템으로 전환하는 최신 컴퓨터 사용 에이전트의 예시로, OpenAGI Foundation 팀이 발표한 Lux는 실제 데스크탑에서 작동하는 Foundation 모델이다.

PCA와 같은 차원 축소 기술은 데이터셋이 선형 분리 가능한 경우 효과적이지만, 비선형 패턴이 나타나면 제대로 동작하지 않는다. 이런 경우, 커널 PCA는 데이터를 고차원 특성 공간으로 매핑하여 비선형 패턴을 해결한다.
TinyLlama를 활용해 효율적인 매니저-에이전트 아키텍처를 통해 특화된 AI 에이전트 팀을 로컬에서 오케스트레이션하는 방법을 탐구합니다. 외부 API에 의존하지 않고 구조화된 작업 분해, 에이전트 간 협업, 자율 추론 루프를 구축하는 과정을 transformers 라이브러리를 통해 진행합니다.

Apple과 에든버러 대학의 연구팀이 CLaRa를 발표했다. CLaRa는 연속 잠재 추론을 사용하여 시멘틱 문서를 압축하는 기능을 제공한다.

트랜스포머와 전문가 혼합(MoE)의 차이점과 MoE 모델이 추론 시 더 빠르게 실행되는 이유에 대해 알아봅니다.
이 튜토리얼에서는 자체 추론 깊이를 조절하는 고급 메타-인지 제어 에이전트를 구축한다. 빠른 휴리스틱부터 심층적인 사고 연쇄, 정확한 도구 형식의 문제 해결까지 추론을 스펙트럼으로 취급하고, 각 작업에 대해 사용할 모드를 결정하기 위해 신경 메타-컨트롤러를 훈련시킨다.

NVIDIA와 Mistral AI의 전략적 협력 확대로 Mistral 3 패밀리의 새로운 모델 출시와 함께 추론 속도가 10배 향상되었다. 이는 하드웨어 가속화와 오픈 소스 모델 아키텍처가 만나 성능 기준을 재정의한 중대한 순간이다.
이 튜토리얼에서는 온라인 프로세스 보상 학습 (OPRL)을 탐구하고, 궤적 선호도로부터 밀도가 높은 단계별 보상 신호를 학습하여 희소 보상 강화 학습 과제를 해결하는 방법을 시연합니다. 미로 환경부터 보상 모델 네트워크, 선호도 생성, 훈련 루프 및 평가까지 각 구성요소를 살펴보면서 에이전트가 서서히 개선되는 과정을 관찰합니다.

대형 언어 모델 에이전트들은 모든 것을 저장하기 시작했지만, 테스트 시 경험을 통해 정책을 개선할 수 있을까? 일리노이 대학과 구글 딥마인드의 연구진은 Evo-Memory를 제안하며 이 문제에 대처한다. Evo-Memory는 경험 재사용을 위한 스트리밍 벤치마크 및 에이전트 프레임워크를 평가한다.

DeepSeek 연구팀이 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale을 소개했다. 이 모델들은 에이전트를 위한 고품질 추론, 장문맥, 에이전트 워크플로우를 지향하며 열린 가중치와 제품 API를 갖췄다.

MiniMax-M2는 AI 코딩 환경을 혁신하며, 고성능이 높은 비용이나 레이턴시로 이어지는 문제를 해결한다. 이 기사는 MiniMax-M2에 대한 기술적 개요를 제공한다.
Panel을 활용해 고급 다중 페이지 인터랙티브 대시 보드를 만드는 튜토리얼. 각 구성 요소를 통해 합성 데이터 생성, 풍부한 필터 적용, 동적 시계열 트렌드 시각화, 세그먼트 및 지역 비교, 그리고 실시간 KPI 업데이트 시뮬레이션 방법을 탐구한다.

메타 AI 연구원들이 소개한 매트릭스는 현대 AI 모델을 위해 합성 데이터를 신선하고 다양하게 유지하는 방법을 제시하는데, 단일 조율 파이프라인을 병목 현상으로 만들지 않고, 분산된 대기열을 통해 메시지로 직렬화된 제어와 데이터 흐름을 구현한 분산 프레임워크이다.

StepFun 연구팀이 새 오디오 LLM Step-Audio-R1을 발표했다. 이 모델은 테스트 시간 컴퓨팅 스케일링을 위해 설계되어, 오디오에 대한 실제 소리 기반의 의사 결정에서 장시간 추론을 생성할 때 성능이 저하되는 문제를 해결한다.

NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.
이 튜토리얼에서는 제어 평면 디자인 패턴을 사용하여 고급 에이전틱 AI를 구축하고 구현할 때 각 구성 요소를 단계별로 안내합니다. 제어 평면을 중앙 조정기로 취급하여 도구를 조정하고 안전 규칙을 관리하며 추론 루프를 구조화합니다. 또한 작은 검색 시스템을 설정합니다.

DeepSeek AI가 공개 가중치 대규모 언어 모델인 DeepSeekMath-V2를 발표했다. 이 모델은 자연어 정리를 최적화하고 자가 검증을 통해 자신의 추론이 올바른지 확인하면서 복잡한 올림피아드 수학 문제를 해결할 수 있다.
이 튜토리얼에서는 문헌 말뭉치를 로드하고 검색 및 LLM 모듈을 구성하고 논문을 검색하고 가설을 생성하고 실험을 설계하며 구조화된 보고서를 생성하는 에이전트를 조립하여 과학적 발견 에이전트를 구축하는 방법을 설명합니다.

OceanBase가 AI를 위해 고안된 오픈소스 데이터베이스인 seekdb를 출시했다. seekdb는 다양한 데이터 모델과 AI 에이전트를 위한 하이브리드 검색 기능을 제공하며, Apache 2.0 라이센스로 제공된다.

텐센트 훈유안이 OCR 및 문서 이해를 위해 특화된 1B 파라미터 비전 언어 모델인 HunyuanOCR을 공개했다. 이 모델은 멀티모달 아키텍처를 기반으로 하며, 스포팅, 파싱, 정보 추출, 시각적 질문 응답 및 텍스트 이미지 번역을 단일 엔드 투 엔드 파이프라인을 통해 실행한다.

Black Forest Labs가 FLUX.2를 발표했습니다. FLUX.2는 실제 창의적 워크플로우를 대상으로 하며, 마케팅 자산, 제품 사진, 디자인 레이아웃, 복잡한 인포그래픽 등에 편집 지원을 제공합니다. FLUX.2 제품군과 FLUX.2 [dev]가 소개되었습니다.
Tinygrad를 사용하여 텐서, 오토그래드, 어텐션 메커니즘 및 트랜스포머 구조를 완전히 손으로 만들어보는 튜토리얼. 기본 텐서 작업부터 멀티헤드 어텐션, 트랜스포머 블록, 미니-GPT 모델까지 순차적으로 구축하면서 Tinygrad의 간결함을 관찰한다.

Salesforce AI 연구팀이 소개한 xRouter는 강화 학습 기반 라우터를 활용하여 각 요청에 어떤 서버가 응답해야 하는지 결정하며 외부 모델을 호출할지 결정하는 기능을 제공한다.

UNC-Chapel Hill, Salesforce Research 및 Stanford University의 연구자들이 소개한 ‘Agent0’는 외부 데이터 없이 고성능 에이전트를 다단계 공진을 통해 진화시키는 완전 자율형 프레임워크이다.
이 튜토리얼에서는 심볼릭 추론의 강점을 신경 학습과 결합하여 강력한 하이브리드 에이전트를 구축하는 방법을 보여줍니다. 우리는 구조, 규칙 및 목표 지향적 행동을 위해 고전적 계획을 사용하는 신경 기호 아키텍처를 만드는 데 초점을 맞추고, 신경망이 인식 및 행동 정제를 처리하도록합니다.

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.

NVIDIA는 하나의 탄력 있는 모델로 여러 크기의 모델을 생성할 수 있게 하여 AI 개발팀이 여러 대규모 언어 모델을 훈련하고 저장할 필요성을 없앴다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 12B 파라미터 추론 모델로, 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다.

ML 엔지니어로서 민감한 센서 데이터를 다루는 피트니스 회사에서 개인 맞춤형 운동을 권장하거나 건강 위험을 예측하는 모델을 구축하려고 할 때 개인정보 보호법에 따라 페더레이티드 러닝을 설명하라는 질문에 대한 답변.

Moonshot AI와 Tsinghua 대학의 연구진은 대규모 추론 모델에 대한 강화 학습이 매우 긴, 매우 느린 롤아웃에 멈추지 않도록하고 GPU가 under used 상태에서 어떻게 유지할 수 있는지에 대한 새로운 온라인 콘텍스트 학습 시스템 ‘Seer’를 소개했다.
이 튜토리얼에서는 상호 작용, 피드백 및 계층적 의사 결정을 통해 그리드 월드를 탐색하는 다중 에이전트 시스템을 학습하는 미니 강화 학습 설정을 코딩합니다. Action Agent, Tool Agent 및 Supervisor 세 가지 에이전트 역할을 결합하여 간단한 휴리스틱, 분석을 관찰할 수 있습니다.
나노 바나나 프로는 구글 딥마인드의 새 이미지 생성 및 편집 모델로, 구조, 세계 지식, 텍스트 레이아웃을 존중해야 하는 이미지를 생성하고 편집하는 최첨단 시스템이다.

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.
Opik를 사용하여 LLM 파이프라인을 구축, 추적 및 평가하는 완전한 워크플로우를 구현하는 튜토리얼. 경량 모델로 시작하여 프롬프트 기반 계획 추가, 데이터셋 생성 및 자동화된 평가 실행까지 구조화된 시스템을 단계별로 진행하며 Opik가 각 함수 스팬을 추적하는 방법을 확인합니다.

Allen Institute for AI (AI2)가 오픈 소스로 출시한 Olmo 3는 전체 ‘모델 플로우’를 노출하는데, 원시 데이터 및 코드부터 중간 체크포인트 및 배포 준비 모델까지 포함하고 있습니다. Olmo 3은 7B 및 32B 파라미터 모델을 갖춘 밀도 변환기 스위트입니다.
이 튜토리얼에서는 Instructor 라이브러리를 사용하여 구조화된 출력물을 생성하고 복잡한 도구 호출을 신뢰성 있게 조정하는 오프라인 멀티스텝 추론 에이전트를 구축하는 방법을 탐구합니다. 올바른 도구 선택, 입력 유효성 검사, 다단계 워크플로 계획, 오류 복구를 할 수 있는 에이전트를 설계합니다.

Meta AI 팀이 Meta Segment Anything Model 3 또는 SAM 3을 공개했다. SAM 3은 간단한 프롬프트를 사용하여 대규모 이미지 및 비디오 컬렉션에서 모든 개념의 인스턴스를 신뢰성 있게 찾고 세분화하고 추적하는 데 사용되는 통합 기본 모델이다.

이 비교는 vLLM, TensorRT-LLM, HF TGI, LMDeploy의 4가지 스택에 초점을 맞춰 실제 작업 부하에서 추론 스택의 선택이 GPU 플릿의 토큰 당 초, 테일 레이턴시 및 궁극적으로 백만 토큰 당 비용을 결정한다.

OpenAI가 GPT-5.1-Codex-Max를 소개했다. 이 모델은 수백만 토큰과 멀티 시간대 세션을 거치는 장기 소프트웨어 엔지니어링 작업을 위해 설계되었다. CLI, IDE 확장, 클라우드 통합 및 코드 리뷰 등에서 사용 가능하며 API 액세스도 곧 예정되어 있다.
구글이 Gemini 3 위에 위치한 에이전트 개발 플랫폼인 안티그래비티를 소개했다. 자동 완성 레이어뿐만 아니라 편집기, 터미널, 브라우저 등 여러 환경에서 복잡한 소프트웨어 작업을 기획, 실행, 설명하는 IDE로 안티그래비티는 2025년 11월 18일 Gemini 3와 함께 출시되었다.
이 튜토리얼에서는 다양한 작업에서 여러 추론 전략을 평가하여 에이전틱 구성 요소를 체계적으로 벤치마킹하는 방법을 탐구합니다. 각기 다른 아키텍처인 직접방식, 사고연쇄방식, ReAct, Reflexion 등이 어려움이 증가하는 문제에 직면했을 때 어떻게 행동하고, 정확도, 효율성, 대기 시간, 도구 사용 패턴을 측정합니다.
이 튜토리얼에서는 환경 내에서의 행동 뿐만 아니라 자체 교육 전략을 선택하는 방법을 학습하는 고급 에이전트형 딥 강화 학습 시스템을 구축한다. Dueling Double DQN 학습자를 설계하고 어려움이 증가하는 커리큘럼을 도입하며 학습 중에 적응하는 여러 탐험 모드를 통합한다.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

구글은 Gemini 3 Pro를 중심으로 하는 Gemini 3 패밀리를 발표했는데, 이는 백만 토큰 콘텍스트를 다루며 현실 신호를 이해하고 신뢰성 있게 대리자로서 행동할 수 있는 시스템으로 발전하는 과정에서 중요한 한걸음을 나아가고 있다.

Uni-MoE-2.0-Omni은 텍스트, 이미지, 오디오, 비디오를 신뢰성 있게 이해하는 오픈 모델로, 하비른 공과대학의 연구진이 소개했다. 이 시스템은 언어 중심의 다중 모달 추론을 위해 Lychee의 Uni-MoE 라인을 발전시킨 것으로, 효율적으로 운영된다.

바이너리 크로스 엔트로피(BCE)는 이진 분류의 기본 손실 함수이지만, 불균형 데이터셋에서 심각한 문제를 야기할 수 있다. Focal Loss는 한 클래스가 극도로 드물 때도 오류를 적절하게 고려하여 불균형 분류에 유용하다.

구글 딥마인드의 WeatherNext 2는 새로운 함수적 생성 신경망(FGN) 아키텍처와 대규모 앙상블을 결합하여 8배 빠른 확률 기반 날씨 예보를 제공하는 AI 기반의 중기 전역 날씨 예보 시스템이다. Google Search, Gemini, Pixel Weather, Google Maps Platform의 Weather API에 업그레이드된 예보를 제공하고 있으며 Google Maps 통합이 예정되어 있다.

Meta AI가 DreamGym을 소개했다. DreamGym은 강화 학습을 위한 텍스트 경험 합성기로, 대형 언어 모델 에이전트를 위해 설계되었다. 강화 학습에서 실제 상호작용이 필요한데 이를 해결하기 위해 DreamGym이 개발되었다.
이 튜토리얼에서는 Optuna를 사용하여 가지치기, 다중 목적 최적화, 사용자 정의 콜백 및 풍부한 시각화를 체계적으로 탐색하는 고급 워크플로우를 구현합니다. 각 스니펫을 통해 Optuna가 더 스마트한 탐색 공간을 형성하고 실험 속도를 높이며 모델 향상을 이끄는 통찰을 추출하는 방법을 살펴봅니다.

구글 딥마인드는 복잡한 3D 게임 세계 안에서 얼마나 멀리 진화한 에이전트가 갈 수 있는지 테스트하기 위해 SIMA 2를 출시했다. SIMA 2는 이전의 명령 따르기 에이전트를 업그레이드하여 목표에 대한 추론, 계획 설명, 다양한 환경에서의 자가 플레이로부터 개선하는 제네시스 시스템을 도입했다.

MCP에서 발생하는 일반적인 보안 취약점에 대해 살펴보는 인터뷰 시리즈. MCP는 LLM이 외부 도구 및 데이터 소스와 안전하게 상호 작용할 수 있도록 설계된 프레임워크인데, 모델이 컨텍스트에 액세스하는 방법에 구조와 투명성을 제공하지만 동시에 새로운 보안 위험을 도입한다.
2025년에는 OpenAI의 ChatGPT Atlas, Microsoft Edge의 Copilot Mode, The Browser Company의 Dia, Perplexity의 Comet이 에이전틱 AI 브라우저 시장을 주도하고 있습니다. 각각이 자율성, 기억, 개인 정보 보호 등 다른 디자인 선택을 하고 있습니다. 이 기사는 그들의 아키텍처를 비교합니다.
이 튜토리얼에서는 메모리를 핵심 능력으로 활용하여 단일 상호작용을 넘어선 에이전틱 시스템을 구축하는 방법을 탐색합니다. 에피소딕 메모리를 설계하고 경험을 저장하며 의미론적 메모리를 활용하여 장기적인 패턴을 파악함으로써 에이전트가 여러 세션을 통해 행동을 발전시킬 수 있습니다.

Cerebras가 MiniMax-M2-REAP-162B-A10B를 발표했다. 이 모델은 MiniMax-M2에서 파생된 압축된 희소 Mixture-of-Experts (SMoE) 인과 언어 모델로, Router 가중 전문가 활성화 가지치기(REAP) 방법을 사용하여 전문가를 가지치기하고 코딩 에이전트 및 도구와 같은 배포 중심 워크로드의 메모리를 줄였다.

MBZUAI의 연구진이 PAN이라는 새로운 모델을 소개했다. 이 모델은 시간이 지남에 따라 도착하는 작업에 따라 지속되는 내부 세계 상태를 유지하지 않는 대부분의 텍스트에서 비디오 모델과는 달리, 상호작용 가능한 일반적인 세계 모델로 작용하도록 설계되었다.
이 튜토리얼에서는 Textual을 사용하여 고급 대화형 대시보드를 구축하며 터미널 우선 UI 프레임워크가 현대적인 웹 대시보드와 같이 표현력이 풍부하고 동적일 수 있는 방법을 탐색합니다. 각 스니펫을 작성하고 실행하면서 인터페이스를 조각조각 조립하고 위젯, 레이아웃, 반응 상태 및 이벤트 흐름을 활성화하여 볼 수 있습니다.
2025년에는 AI 에이전트를 구축하는 것은 대부분 에이전트 아키텍처를 선택하는 것을 의미하며, 인식, 기억, 학습, 계획 및 행동이 어떻게 구성되고 조정되는지에 대한 것이다. 이 비교 기사는 계층적, 스왐, 메타 러닝, 모듈러, 진화적인 5가지 구조를 살펴본다.

OpenAI가 새로운 기계적 해석 가능성 연구를 소개했는데, 언어 모델을 희소 내부 배선을 사용하도록 훈련시켜 각 행동을 구동하는 특정 회로를 볼 수 있게 했다.
본 튜토리얼에서는 spaCy를 사용하여 고급 에이전트 AI 시스템을 구축하는 방법을 소개하며, 여러 지능적인 에이전트가 추론, 협업, 반성 및 경험으로 학습할 수 있도록 설계되었습니다. 각 에이전트가 계획, 메모리, 통신 및 의미적 추론을 사용하여 작업을 처리하는 과정을 단계별로 살펴보며, 최종적으로 어떻게 작동하는지 확인합니다.

Meta AI가 Omnilingual ASR을 발표했다. 이는 1600개 이상의 언어를 이해할 수 있는 오픈 소스 음성 인식 스위트로, 이전에 작동되지 않았던 많은 언어에도 적용 가능하다.
이 튜토리얼에서는 JAX, Flax, 및 Optax를 사용하여 효율적이고 모듈화된 방식으로 고급 신경망을 구축하고 훈련하는 방법을 탐구합니다. 잔여 연결 및 Self-Attention 메커니즘을 통합한 심층 아키텍처를 설계한 후 학습률 스케줄링과 같은 정교한 최적화 전략을 구현합니다.
Moonshot AI의 Kosong은 에이전트 애플리케이션을 위한 LLM 추상화 계층으로, 메시지 구조, 비동기 도구 조정, 플러그인형 채팅을 통합해 유지보수 가능한 스택을 제공한다.

ML Foundations 연구팀이 소개한 Gelato-30B-A3B는 그래픽 사용자 인터페이스를 위한 최첨단 그라운딩 모델로, AI 에이전트에게 명확한 화면 요소를 찾아 클릭하도록 가르치는 것에 대한 문제를 해결한다.
신뢰할 수 있는 다중 에이전트 시스템은 대부분 메모리 설계 문제이다. 에이전트들이 도구를 호출하고 협업하며 긴 워크플로우를 실행할 때, 저장되는 내용, 검색 방법, 메모리가 잘못되거나 누락된 경우 시스템이 어떻게 동작하는지에 대한 명시적 메커니즘이 필요하다. 이 기사는 에이전트 스택에서 일반적으로 사용되는 6가지 메모리 시스템 패턴을 비교한다.

Edison Scientific이 만든 Kosmos는 데이터세트와 자연어 목표를 받아들여 반복적인 데이터 분석, 문헌 검색, 가설 생성을 수행하고 결과를 완전히 인용된 과학 보고서로 합성하는 자율 발견 시스템이다.
이 튜토리얼에서는 신경 메모리 에이전트가 과거 경험을 잊지 않고 계속 학습하는 방법을 탐구합니다. 우리는 경험 재생과 메타-러닝을 통합한 메모리 보강 신경망을 설계하여 새로운 작업에 빠르게 적응하면서 이전 지식을 유지하는 방법을 보여줍니다. PyTorch에서 이 방법을 구현함으로써 콘텐츠 기반 메모리를 어떻게 활용하는지를 시연합니다.

LLM은 한 번에 완전한 답변을 생성하는 것이 아니라 한 번에 한 단어(또는 토큰)씩 응답을 구축합니다. 각 단계에서 모델은 지금까지 쓰여진 모든 것을 기반으로 다음 토큰이 될 확률을 예측합니다. 하지만 확률만 알아서는 충분하지 않습니다.

StepFun AI가 공개한 Step-Audio-EditX는 3B 파라미터 LLM 기반 오디오 모델로, 표현력 있는 음성 편집을 파형 수준 신호 처리 작업이 아닌 토큰 수준 텍스트 작업으로 변환시킴. 개발자들이 제어 가능한 TTS에 관심을 갖는 이유에 대해 설명.
이 튜토리얼에서는 실시간으로 자연어를 통해 이해, 추론 및 응답이 가능한 의지를 갖춘 음성 AI 어시스턴트를 구축하는 방법을 탐구합니다. 음성 인식, 의도 감지, 다단계 추론 및 텍스트 음성 합성을 통합하는 자체 음성 인텔리전스 파이프라인을 설정하는 것부터 시작하여, 우리는 듣고 반응하며 디자인합니다.

구글 연구자들이 소개한 Nested Learning은 모델을 하나의 외부 루프로 훈련된 단일 네트워크가 아닌 작은 중첩 최적화 문제의 모음으로 처리하는 기계 학습 접근 방식으로, 이전에 학습한 내용을 잊지 않고 새로운 정보를 계속 학습할 수 있는 AI 시스템을 구축하는 방법을 모색한다.

Prior Labs가 TabPFN-2.5를 발표했다. 이는 탭피에프엔의 규모와 속도를 높여준다. 금융, 의료, 에너지 및 산업팀은 행과 열의 테이블로 작업하며, 이 모델은 50,000개 샘플과 2,000개 피처로 학습 범위를 확장한다.
Anthropic의 ‘code execution with MCP’ 패턴은 MCP 도구를 코드 수준 시스템으로 전환하여 대규모 워크플로우의 토큰 소모, 지연 및 비용 한계를 개선한다.
이 튜토리얼에서는 Colab 내에서 완벽하게 실행되는 고급 Reflex 웹 애플리케이션을 파이썬으로 구축합니다. Reflex를 사용하면 JavaScript 없이 반응형 파이썬 코드만으로 풀스택 개발이 가능합니다. 두 개의 페이지, 실시간 데이터베이스 상호작용, 필터링, 정렬, 분석, 사용자 맞춤 설정을 갖춘 노트 관리 대시보드를 만듭니다.
구글이 Go용 에이전트 개발 킷인 ADK Go를 출시했다. Go 개발자들은 기존의 Python과 Java를 지원하는 프레임워크로 AI 에이전트를 구축할 수 있게 되었으며, 익숙한 Go 도구 체인 내에서 모든 것을 유지할 수 있다.

다중 모달 AI 시스템에서 공간 초감지가 중요한 이유는 강력한 ‘장기적 맥락’ AI 모델조차 오랜 메시 비디오 스트림에서 객체 및 수를 추적할 때 실패하기 때문이다. 이에, 다음에 오는 것을 예측하고 놀라운 중요한 사건만 선택적으로 기억하는 모델들이 다음 경쟁 우위를 확보할 것으로 전망된다.