이 튜토리얼에서는 PyKEEN을 사용하여 지식 그래프 임베딩에 대한 고급 워크플로우를 살펴보며 현대적인 임베딩 모델이 어떻게 실제로 훈련, 평가, 최적화 및 해석되는지를 탐색합니다. 실제 지식 그래프 데이터셋의 구조를 이해한 후 여러 임베딩 모델을 체계적으로 훈련하고 비교하며 하이퍼파라미터를 조정하고 분석합니다.
최신뉴스 전체보기
Microsoft의 Maia 200은 Azure 데이터센터에서 사용되는 새로운 AI 가속기로, 좁은 정밀도 컴퓨팅, 밀도 높은 칩 내 메모리 계층, 이더넷 기반 확장 패브릭을 결합하여 대형 언어 모델 및 추론 워크로드의 토큰 생성 비용을 타겟팅한다. Microsoft이 전용 추론 칩을 만든 이유는 무엇인가?

DeepSeek AI가 DeepSeek-OCR 2를 공개했습니다. 이는 레이아웃을 고려한 문서 이해 시스템으로, 인간이 복잡한 문서를 스캔하는 방식과 유사하게 페이지를 읽을 수 있도록 구조화합니다. 핵심 구성 요소는 DeepEncoder V2로, 2D 페이지를 1D 시퀀스로 변환하는 언어 모델 스타일의 트랜스포머입니다.
PyTorch를 이용해 현대적이고 미분 가능한 컴퓨터 비전을 구축하는 방법을 보여주는 Kornia 튜토리얼을 구현하고, GPU 가속화된 동기화된 이미지, 마스크, 키포인트 증강 파이프라인을 구축한 후 그래디언트 하강을 통해 직접 호모그래피를 최적화하는 미분 가능한 기하와 LoFTR을 통한 특징 매칭을 소개합니다.

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

대부분의 AI 응용 프로그램은 여전히 모델을 챗박스로 보여줍니다. 그 인터페이스는 단순하지만, 에이전트가 실제로 하는 작업을 숨깁니다. 생성 UI는 채팅 상자뿐만 아니라 테이블, 차트, 양식 및 진행 표시기와 같은 실제 인터페이스 요소를 에이전트가 제어하도록 하는 것입니다.
구글 딥마인드가 알파지놈을 소개했다. 이는 시퀀스에서 기능으로의 모델링을 위해 디자인된 통합 딥러닝 모델로, 인간 게놈 모델링 방식의 중대한 변화를 나타낸다.

알리바바의 Qwen3-Max-Thinking은 파라미터 규모를 확장하는 것뿐만 아니라, 추론 방식을 변화시키며 생각의 깊이에 대한 명시적 제어와 검색, 메모리, 코드 실행을 위한 내장 도구를 갖추고 있습니다. 이 모델은 36조 토큰에 사전 훈련된 1조 파라미터 MoE 플래그십 LLM으로, 데이터 및 배포 측면에서 Qwen3-Max-Thinking은 […]
이 자습서에서는 금융 운영에 헌법 AI 원칙을 적용하는 이중 에이전트 지배 시스템을 구현한다. Worker Agent가 금융 작업을 수행하고 Auditor Agent가 정책, 안전 및 규정을 강제함으로써 실행과 감독을 분리하는 방법을 보여준다. 지배 규칙을 형식적 헌법에 직접 인코딩하고 결합함으로써 […]

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.
텐센트 훈원이 HPC-Ops를 공개했다. 이는 대규모 언어 모델 추론 아키텍처 장치를 위한 제작용 오퍼레이터 라이브러리로, Attention, Grouped GEMM, Fused MoE와 같은 핵심 오퍼레이터를 위한 낮은 수준의 CUDA 커널에 초점을 맞추고 있다. HPC-Ops는 기존 추론 스택에 통합할 수 있도록 간결한 C 및 Python API를 통해 이러한 오퍼레이터를 노출시킨다.

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.
Tree-KG는 의미 임베딩과 명시적 그래프 구조를 결합하여 전통적 검색 보강 생성을 넘어선 고급 계층적 지식 그래프 시스템이다. 이를 통해 우리는 넓은 도메인에서 세부 개념까지 인간이 학습하는 방식을 모방하는 트리 구조로 지식을 구성하고, 이 구조를 통해 추론할 수 있다.
이 튜토리얼에서는 Haystack이 고급, 에이전트형 AI 시스템을 구축하는 방법을 보여줍니다. 완전히 실행 가능한 상태에서 장난감 예제를 훨씬 뛰어넘는 시스템을 설계하는 방법을 설명하며, 오케스트레이션, 상태 기반 의사 결정, 도구 실행 및 구조화된 제어 흐름을 강조하는 일관된, 끝까지 완성된 설정에 초점을 맞춥니다.

NVIDIA가 ‘Earth-2’ 패밀리를 출시하여 누구에게나 접근 가능한 AI 기상 및 기후 예측을 위한 오픈 모델과 도구를 제공함. 정부 수퍼컴퓨터에만 가능했던 날씨 예측이 이제 기술 스타트업부터 국가 기상 기관까지 모두 이용 가능해졌다.
Clawdbot은 오픈 소스 개인용 AI 어시스턴트로, 대규모 언어 모델을 Anthropic 및 OpenAI와 연결하여 메시징 앱, 파일, 쉘, 브라우저, 스마트 홈 기기와 연동하면서 조정 계층을 사용자가 제어합니다.
StepFun은 웹 검색을 실제 연구 워크플로우로 변환하는데 목표를 둔 32B 파라미터 엔드 투 엔드 심층 연구 에이전트 Step-DeepResearch를 소개했다. 모델은 Qwen2.5 32B-Base 위에 구축되었으며 장기적인 추론, 도구 사용 및 구조화된 보고를 통한 웹 검색을 연구로 전환한다.
이 튜토리얼은 DeepEval 프레임워크를 사용하여 LLM 애플리케이션에 단위 테스트 엄격성을 더하는 것에 초점을 맞춘 고성능 평가 환경을 구성함으로써 시작된다. 원시 검색과 최종 생성물 간의 간극을 메우면서 모델 출력을 테스트 가능한 코드로 취급하고 LLM-as-a-judge 메트릭을 사용하여 성능을 측정하는 시스템을 구현한다.
이 튜토리얼에서는 정적 CVSS 점수 이상의 취약점을 우선순위를 지정하기 위해 의미 이해와 기계 학습을 사용하는 AI 보조 취약점 스캐너를 구축합니다. 취약점 설명을 풍부한 언어적 자산으로 취급하고 현대적인 문장 변환기를 사용하여 그것들을 임베딩하며 이러한 표현을 구조 메타데이터와 결합하여 데이터 주도형 우선순위 점수를 생성합니다.
GitHub이 Copilot CLI를 구동하는 내부 에이전트 실행 환경을 공개하고 프로그래밍 가능한 SDK로 제공했다. Copilot-SDK를 통해 다른 앱에도 동일한 실행 환경을 임베드하여 에이전트가 도구를 실행하고 파일 편집, 명령 실행이 가능해졌다.
이 튜토리얼에서는 토큰 사용, 지연 및 도구 호출 예산과 같은 실제 제약 조건에 대해 결과 품질을 균형 있게 고려하는 비용 인식적인 계획 에이전트를 구축한다. 에이전트는 여러 후보 작업을 생성하고 예상 비용과 이익을 평가한 후, 엄격한 예산 내에서 가치를 극대화하는 실행 계획을 선택하도록 설계된다.

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

알리바바 클라우드의 Qwen 팀이 Qwen3-TTS를 오픈소스로 공개했습니다. 이는 음성 클론, 음성 디자인, 고품질 음성 생성이라는 세 가지 핵심 작업을 대상으로 하는 멀티링구얼 텍스트 음성 모델 패밀리입니다. Qwen3-TTS는 12Hz 음성 토크나이저와 2개의 언어 모델 크기(0.6B, 1.7B)를 사용하며, 실시간 세밀한 음성 제어 기능을 제공합니다.

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.
Inworld AI가 실시간 음성 에이전트에 대한 업그레이드 된 Inworld TTS-1.5를 출시했다. TTS-1.5는 지연 시간, 품질 및 비용에 엄격한 제약 조건을 가진 음성 에이전트를 대상으로 하며, 인공 분석에서 최고 순위의 텍스트 음성 변환 시스템으로 소개되었다. 이전 세대보다 표현이 풍부하고 안정적이며, 더욱 향상된 디자인을 가지고 있다.

Salesforce AI 연구팀이 FOFPred를 소개했다. FOFPred는 대형 비전 언어 모델과 확산 트랜스포머를 연결하여 제어 및 비디오 생성 환경에서 밀도 높은 움직임 예측을 위한 언어 주도형 광학 흐름 예측 프레임워크이다.
AutoGluon을 사용하여 현대적인 AutoML 파이프라인을 구축하고 고급 타블러 머신러닝 모델을 생성하는 튜토리얼. 다양한 유형의 데이터셋을 활용하여 앙상블 모델을 훈련하고 성능을 평가하며 실시간 추론을 위해 모델을 최적화하는 방법을 소개.

Liquid AI가 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’을 출시했다. 최신 폰에서 약 900MB 용량으로 완전히 기기 내에서 실행되며, 구조화된 추론 트레이스, 도구 사용, 수학에 중점을 둔다.

AI 응용 프로그램의 급속한 성장으로 인해, 지식 그래프(KGs)가 기계가 읽을 수 있는 형식으로 지식을 표현하는 데 중요한 구조로 등장했다. 지식 그래프는 머리 엔티티, 관계 및 꼬리 엔티티로 정보를 조직화하여 엔티티를 노드로, 관계를 엣지로 형성하는 그래프와 유사한 구조로 표현된다.
이 튜토리얼에서는 매니저나 감독 없이 두 피어 에이전트가 직접 협상하여 작동하는 반중앙집중형 Anemoi-스타일 다중 에이전트 시스템이 어떻게 작동하는지 보여줍니다. 우리는 드래프터와 크리틱이 피어 투 피어 피드백을 통해 출력물을 반복적으로 개선하고, 조정 오버헤드를 줄이면서 품질을 유지하는 방법을 보여줍니다. 우리는 이 패턴을 Colab에서 LangGraph를 사용해 끝에서 끝으로 구현합니다.

Zhipu AI가 GLM-4.7-Flash를 발표했다. 이 모델은 로컬에서 실행하기에 실용적이며 강력한 코딩 및 추론 성능을 원하는 개발자들을 대상으로 한다. 30B-A3B MoE 모델로, 30B 클래스에서 가장 강력한 모델로 경량 배포를 위해 설계되었다.
이 튜토리얼에서는 현대적인 저지연 대화 시스템이 실시간으로 작동하는 방식을 모방하는 완전한 스트리밍 음성 에이전트를 구축합니다. 청크화된 오디오 입력 및 스트리밍 음성 인식부터 점진적 언어 모델 추론 및 스트리밍된 텍스트 음성 출력까지의 파이프라인을 시뮬레이션하며 각 단계에서 명시적으로 지연 시간을 추적합니다.
Microsoft Research가 OptiMind를 출시했다. 이는 자연어로 된 복잡한 의사결정 문제를 최적화 솔버가 실행할 수 있는 수학적 공식으로 변환하는 AI 기반 시스템이다. 이는 전문가 모델러와 수일간의 작업이 필요했던 오퍼레이션 리서치의 병목 현상을 해결한다.

Nous Research는 NousCoder-14B를 소개했는데, 이는 Qwen3-14B에서 강화학습을 통해 후훈련된 경쟁 프로그래밍 모델이다. LiveCodeBench v6 벤치마크에서 Pass@1 정확도가 67.87%로, Qwen3-14B의 7.08% 높았다.
본 튜토리얼에서는 동기식 RPC 기반 시스템과 비동기식 이벤트 주도 아키텍처를 비교하여 실제 분산 시스템이 부하와 장애 상황에서 어떻게 행동하는지 이해합니다. 다운스트림 서비스를 가변 지연, 과부하 조건 및 일시적 오류로 시뮬레이션한 후 버스티 트래픽 패턴을 사용하여 두 아키텍처를 구동합니다. 메트릭을 관찰함으로써 […]
Vercel이 AI 코딩 에이전트를 위한 패키지 매니저 ‘Agent Skills’를 출시했다. React와 Next.js 성능, 웹 디자인 검토, Vercel에서 배포 가능한 기능을 중점으로 하며, npm과 유사한 명령어로 스킬을 설치할 수 있다.

NVIDIA의 연구진이 PersonaPlex-7B-v1을 발표했는데, 이는 자연스러운 음성 상호작용을 위한 풀 더플렉스 대화 모델로, 정확한 페르소나 제어를 목표로 한다. ASR→LLM→TTS에서 단일 풀 더플렉스 모델로 진화했다. 기존 음성 어시스턴트는 ASR이 음성을 텍스트로 변환하고, 언어 모델이 텍스트 답변을 생성한 후, 텍스트를 음성으로 변환한다.
LlamaIndex와 OpenAI 모델을 사용하여 신뢰할 수 있는 검색 보강 생성(RAG) 에이전트를 설계하여 증거를 추론하고 도구를 의도적으로 사용하며 자체 출력물을 품질 평가하는 고급 AI 워크플로우를 구축하는 튜토리얼입니다.

Black Forest Labs가 FLUX.2 [klein]을 출시했다. 이 모델은 대화형 시각 인텔리전스에 초점을 맞춘 소형 이미지 모델로, 텍스트에서 이미지로, 이미지에서 이미지로의 통합 아키텍처와 로컬 GPU부터 클라우드 API까지의 배포 옵션을 제공한다.
이 튜토리얼에서는 자율적이고 요원형 AI 시스템이 의료 수익주기 관리(RCM) 내에서 미리 승인 워크플로우를 시뮬레이션하는 방법을 보여줍니다. 에이전트가 수술 주문을 지속적으로 모니터링하고 필요한 임상 문서를 수집하며, 사전 승인 요청을 지불자 시스템에 제출하고, 상태를 추적하며 거부에 지능적으로 응답하는 방법을 보여줍니다.

Google AI가 Gemma 3 기반의 55개 언어를 지원하는 오픈 기계 번역 모델인 TranslateGemma를 출시했다. 4B, 12B, 27B 파라미터 크기로 출시되었으며, 모바일부터 노트북, 단일 H100 GPU나 TPU 인스턴스까지 다양한 디바이스에서 동작 가능하다.

NVIDIA가 개발한 KVzap은 트랜스포머 디코더의 캐시 문제를 해결하는 방법으로, 거의 손실이 없는 2배-4배의 데이터 압축을 제공한다.

Transformers는 주의와 전문가 혼합을 사용하여 연산을 확장하지만, 지식 조회를 수행할 수 있는 기본 방법이 부족하다. DeepSeek의 새로운 Engram 모듈은 MoE와 함께 작동하는 조건부 메모리 축을 추가하여 이 간극을 정확히 겨냥한다.
이 튜토리얼에서는 상태 없는 통신, 엄격한 SDK 수준의 유효성 검사, 비동기적인 장기 실행 작업에 초점을 맞춘 현대적인 MCP 디자인의 고급 데모를 구축한다. 구조화된 봉투, 서명된 요청 및 Pydantic으로 유효성을 검사하는 도구를 사용하여 에이전트와 서비스가 지속적인 의존 없이 안전하게 상호 작용하는 방법을 보여준다.

구글 AI 연구팀이 MedGemma-1.5를 발표했다. 이 모델은 의료 영상, 텍스트 및 음성 시스템을 구축하고 지역 워크플로와 규정에 적응하려는 개발자들을 위한 오픈 출발점으로 제공된다.

Anthropic사가 클로드 macOS 데스크톱 앱 내에서 연구 미리보기로 이용 가능한 Cowork를 출시했다. Cowork는 코딩이 필요 없는 작업을 위해 로컬 파일에서 에이전트 워크플로를 실행하는 기능이다. Cowork는 클로드 데스크톱 앱의 전용 모드로 작동하며 파일 시스템 수준에서 실행된다.

AI 관측성은 AI 시스템을 이해하고 모니터링하며 고유한 메트릭을 추적하여평가하는 능력을 의미합니다. 대형 언어 모델(LLMs) 및 다른 생성형 AI 응용 프로그램은 확률적이므로 고정된 투명한 실행 경로를 따르지 않습니다.
Garak를 사용하여 대화 압력을 점진적으로 가하면서 대형 언어 모델의 행동을 평가하는 멀티턴 크레센도 스타일의 레드팀 하네스를 구축하는 튜토리얼. 모델이 예민한 요청으로 천천히 전환되는 현실적인 에스컬레이션 패턴을 시뮬레이션하기 위해 사용자 정의 반복 프로브와 가벼운 탐지기를 구현하고 모델이 안정 유지하는지 평가.

구글의 Universal Commerce Protocol (UCP)는 AI 상거래 에이전트가 제품 링크를 보내는 것을 넘어 채팅 내에서 믿을 수 있는 구매를 완료할 수 있는 오픈 표준이다. 이는 AI 에이전트와 상인 시스템이 공유된 언어를 갖게 함으로써 쇼핑 질의가 제품 발견부터 구매까지 이동할 수 있게 한다.

이 연구는 LLM 에이전트를 위해 장기 기억에 저장할 내용, 단기 기억에 유지할 내용, 버릴 내용을 스스로 결정하는 방법을 설계하는 방법에 대해 다루고 있습니다. 이 연구에서는 텍스트 생성과 동일한 액션 공간을 통해 두 유형의 기억을 관리하는 단일 정책을 학습할 수 있는지에 대해 탐구하고 있습니다.
CIFAR-10 데이터셋에서 레이블 조작을 통한 데이터 오염 공격을 시연하고 모델 동작에 미치는 영향을 살펴봄. 깨끗한 훈련과 오염된 훈련 파이프라인을 구축하고, ResNet 스타일의 컨볼루션 신경망을 사용하여 안정적이고 비교 가능한 학습 역학을 보장함.
SETA는 터미널 에이전트를 위한 강화 학습 툴킷 및 환경 스택으로, 400가지 태스크와 CAMEL 툴킷을 제공한다. CAMEL AI 및 Eigent AI 연구팀이 개발한 이 프로젝트는 구조화된 툴킷, 합성 RL 환경 및 평가에 초점을 맞추고 있다.

메타와 하버드 연구자들이 공개한 ‘컨퓨시우스 코드 에이전트’는 산업 규모 소프트웨어 저장소와 긴 코드베이스용으로 설계된 오픈 소스 AI 소프트웨어 엔지니어로, 중간 규모 언어 모델이 에이전트 구조와 도구 스택으로 이동함에 따라 혁신이 얼마나 발전할 수 있는지 보여줍니다.
이 튜토리얼에서는 Ibis를 사용하여 Pandas와 유사하지만 데이터베이스 내에서 완전히 실행되는 이식 가능한 인-데이터베이스 피처 엔지니어링 파이프라인을 구축하는 방법을 보여줍니다. DuckDB에 연결하고 데이터를 안전하게 백엔드에 등록하고 창 함수와 집계를 사용하여 복잡한 변환을 정의하는 방법을 소개합니다.

스탠포드 의학 연구진이 SleepFM Clinical을 소개했는데, 이는 임상 다중 모달 수면 기반 모델로, 임상 다중모달 다뇨종합검사로부터 학습하고 단 하룻밤의 수면으로 장기 질병 위험을 예측한다.
이 튜토리얼에서는 DirectRunner를 사용하여 배치 및 스트림 모드에서 원활하게 작동하는 통합 Apache Beam 파이프라인을 구축하는 방법을 보여줍니다. 이벤트 시간을 인식하는 가상 데이터를 생성하고 트리거 및 허용된 지연 시간을 적용하여 Apache Beam이 정시 및 지연된 이벤트를 일관되게 처리하는 방법을 보여줍니다.

TII 아부다비가 Falcon-H1R-7B를 발표했습니다. 이 모델은 7B 파라미터로 수학, 코딩 및 일반 벤치마크에서 많은 14B에서 47B 모델을 능가하면서도 효율적이고 효율적입니다.

Softmax는 신경망이 생성한 원시 점수를 확률 분포로 변환하여 각 출력을 특정 클래스의 가능성으로 해석할 수 있게 만드는 활성화 함수이다.

NVIDIA가 저지연 음성 에이전트와 라이브 자막을 위해 특별히 제작된 새로운 영어 전사 모델(Nemotron Speech ASR)을 공개했다. 이 모델은 FastConformer 인코더와 RNNT 디코더를 결합한 캐시 인식 아키텍처로 최적화되어 현대 NVIDIA GPU에서 스트리밍 및 배치 작업에 튜닝되었다.
LangGraph와 OpenAI 모델을 사용하여 간단한 계획자, 실행자 루프를 넘어진정한 고급 에이전틱 AI 시스템을 구축하는 튜토리얼. 에이전트가 빠른 논리와 심층적 추론 사이에 동적으로 선택하는 적응적 규의, 원자적 지식을 저장하고 관련 경험을 자동으로 연결하는 Zettelkasten 스타일의 에이전틱 메모리 그래프, 그리고 통제된 도구 사용을 구현.

Liquid AI가 LFM2.5를 소개했는데, LFM2 아키텍처를 기반으로 한 작은 foundation 모델 세대로, 장치 및 엣지 배포에 초점을 맞추고 있다. LFM2.5-1.2B-Base와 LFM2.5-1.2B-Instruct를 포함하며 일본어, 시각 언어, 음성 언어 변형도 제공한다. Hugging Face에서 오픈 웨이트로 출시되었다.

Marktechpost가 AI2025Dev를 출시했습니다. 이는 2025년 분석 플랫폼으로, AI 활동을 쿼리 가능한 데이터셋으로 변환하여 모델 출시, 공개 정도, 교육 규모, 벤치마크 성능, 생태계 참여자를 아우릅니다.
이 튜토리얼에서는 AgentScope를 사용하여 고급 Multi-Agent 사고 대응 시스템을 구축한다. 각각 라우팅, 진단, 분석, 작성 및 검토와 같이 명확히 정의된 역할을 가진 여러 ReAct 에이전트를 조율하고 구조화된 라우팅과 공유 메시지 허브를 통해 이들을 연결한다. OpenAI 모델 통합, 가벼운 도구 호출 및 간단한 내부 런북을 통합한다.
Zlab Princeton 연구진이 대형 언어 모델을 위한 주요 가지치기 알고리즘을 하나로 통합한 LLM-Pruning Collection을 발표했다. 이 프레임워크는 블록 수준, 레이어 수준 및 가중치 수준 가지치기 방법을 일관된 훈련 및 평가 스택에서 GPU 및 CPU에서 비교하기 쉽게 만든다.

텐센트 훈유안 연구원은 HY-MT1.5를 발표했는데, 모바일 기기와 클라우드 시스템을 대상으로 하는 다국어 기계 번역 모델로, 33개 언어 간 상호 번역을 지원하며 GitHub와 Hugging Face에서 이용 가능하다.

이 기사는 회사의 LLM API 비용이 갑자기 두 배로 늘어난 상황에서 유사 의미론적인 입력들을 식별하고 중복을 줄이는 방법에 대해 다룹니다. 이를 위해 프롬프트 캐싱이라는 최적화 기술을 소개합니다.

DeepSeek 연구자들은 대형 언어 모델 교육에서 발생하는 문제를 해결하려고 노력 중이다. 새로운 방법인 mHC(Manifold Constrained Hyper Connections)은 하이퍼 연결의 풍부한 토폴로지를 유지하면서 섞임 행동을 제한함으로써 안정성을 개선한다.
이 튜토리얼에서는 Colab에서 실행되는 OpenAI Swarm을 사용하여 고급이면서 실용적인 멀티 에이전트 시스템을 구축합니다. 트리아지 에이전트, SRE 에이전트, 통신 에이전트 및 비평가와 같은 전문 에이전트를 조율하여 실제 제품 사고 시나리오를 협력적으로 처리하는 방법을 설명합니다.

Recursive Language Models는 대규모 언어 모델에서 일반적으로 발생하는 문맥 길이, 정확도 및 비용 사이의 상충 관계를 깨려고 한다. RLM은 모델이 하나의 거대한 프롬프트를 한 번에 읽도록 강요하는 대신, 프롬프트를 외부 환경으로 취급하고 모델이 코드로 어떻게 조사할지 결정한 다음 재귀적으로 호출한다.
Strands 에이전트를 사용하여 공격 시나리오에 대비하고 안전성을 강화하기 위해 AI 시스템을 스트레스 테스트하는 레드팀 평가 하네스를 만든다. 다수의 에이전트를 조율하여 적대적 프롬프트를 생성하고 보호 대상 에이전트에 실행한 후 응답을 평가한다.
Cloudflare가 tokio-quiche를 오픈소스로 공개했다. 이는 Tokio 런타임과 결합된 비동기 QUIC 및 HTTP/3 Rust 라이브러리로, Apple iCloud Private Relay, Oxy 기반 프록시, WARP의 MASQUE 클라이언트 등에서 백만 개 이상의 HTTP/3 요청을 처리하는 데 사용되었다.
LangGraph를 사용하여 행동과 추론을 단일 결정이 아닌 트랜잭션 워크플로우로 다루는 에이전틱 AI 패턴을 구현하는 튜토리얼. 에이전트가 되돌릴 수 있는 변경 사항을 단계별로 모델링하고 엄격한 불변성을 검증하며 인간 승인을 위해 일시 중단하는 두 단계 커밋 시스템을 소개하고 커밋 또는 롤백합니다.

텐센트의 3D 디지털 휴먼 팀이 HY-Motion 1.0을 공개했다. 이 모델은 자연어 명령과 예상 기간을 3D 인간 동작 클립으로 변환하며, 10억 개의 파라미터를 활용하여 작동한다.
이 튜토리얼에서는 무거운 프레임워크나 복잡한 인프라에 의존하지 않고 연합 학습을 사용하여 프라이버시 보호 사기 탐지 시스템을 시뮬레이션하는 방법을 보여줍니다. 10개의 독립 은행을 모방하며, 각각이 고도로 불균형한 거래 데이터에서 로컬 사기 탐지 모델을 학습합니다. 이러한 로컬 업데이트를 조율합니다.

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.
LLMRouter는 일리노이스 대학교 어바나 샴페인 캠퍼스의 U Lab에서 개발된 오픈 소스 라우팅 라이브러리로, 각 쿼리에 대해 작업 복잡성, 품질 목표 및 비용을 기반으로 모델을 선택하여 모델 선택을 시스템 문제로 취급합니다.
CAMEL 프레임워크를 사용하여 고급 다중 에이전트 연구 워크플로우를 구축하는 튜토리얼. Planner, Researcher, Writer, Critic, Finalizer와 같은 에이전트들이 협력하여 고수준 주제를 다듬어 근거 있는 연구 요약으로 변환하는 과정을 다룸. OpenAI API를 안전하게 통합하고 에이전트 상호작용을 프로그래밍적으로 조정하며 가벼운 지속적 기억을 추가함.
PydanticAI를 사용하여 계약 중심 에이전틱 의사 결정 시스템을 설계하는 방법을 소개하는 튜토리얼. 구조화된 스키마를 협상 불가능한 거버넌스 계약으로 취급하여 정책 준수, 위험 평가, 확신 보정 및 실행 가능한 다음 단계를 에이전트의 출력 스키마에 직접 인코딩하는 방법을 보여준다.

NVIDIA AI 연구팀은 NitroGen을 발표했는데, 이는 일반 게임 에이전트를 위한 오픈 비전 액션 기반 모델로, 인터넷 비디오를 통해 픽셀과 게임패드 액션을 직접 학습하여 상용 게임을 플레이하는 방법을 익힙니다. NitroGen은 1,000개 이상의 게임에서 40,000시간의 게임 플레이로 훈련되었으며, 오픈 데이터셋과 유니버설 시뮬레이터를 제공합니다.

Liquid AI가 LFM2-2.6B-Exp를 소개했는데, 기존 LFM2 스택 위에 순수 보강 학습으로 훈련된 실험적인 체크포인트이다. 목표는 소형 3B 클래스 모델의 명령 따르기, 지식 과제 및 수학을 개선하는 것이며 여전히 장치 및 엣지 배포를 대상으로 한다.
GraphBit를 사용하여 그래프 구조의 실행, 도구 호출 및 선택적 LLM-주도 에이전트가 단일 시스템에서 공존하는 프로덕션 스타일의 에이전틱 워크플로우를 구축하는 튜토리얼. GraphBit 런타임 초기화 및 검사, 현실적인 고객 지원 티켓 도메인 정의, 결정론적인 오프라인 실행 가능한 도구를 사용하는 방법 등을 다룸.
구글이 FunctionGemma를 출시했다. Gemma 3 270M 모델을 기반으로 훈련된 이 모델은 함수 호출을 위해 특별히 설계되었고 자연어를 실행 가능한 API 액션으로 매핑하는 엣지 에이전트로 작동한다.
이 튜토리얼에서는 Agentic AI의 최첨단 기술을 활용하여 인간 뇌처럼 정보를 조직하는 “Zettelkasten” 메모리 시스템을 구축한다. 표준 검색 방법을 넘어 에이전트가 입력을 원자적 사실로 자율적으로 분해하고 의미론적으로 연결하는 동적 지식 그래프를 구축한다.

MiniMax가 M2 모델의 향상된 버전인 MiniMax M2.1을 출시했다. 이 모델은 다중 코딩 언어 지원, API 통합, 구조화된 코딩을 위한 개선된 도구 등의 기능을 제공하며 낮은 비용으로 빠른 실행 속도를 자랑한다.
본 튜토리얼에서는 동적 도시 전체 도로 네트워크 내에서 여러 스마트 배송 트럭이 운영되는 고급 완전 자율 로지스틱 시뮬레이션을 구축한다. 각 트럭이 입찰 가능하고 배송 주문에 입찰하며 최적 경로를 계획하고 배터리 수준을 관리하고 충전소를 찾아내며 이익을 극대화할 수 있도록 시스템을 디자인한다.

스탠포드, 하버드, UC의 최신 연구 논문인 ‘의지 있는 AI의 적응’에서는 대부분의 ‘의지 있는 AI’ 시스템이 신뢰할 수 없는 도구 사용, 약한 장기 계획, 부족한 일반화 등에 여전히 어려움을 겪고 있다고 설명하고 있다.

InstaDeep의 NTv3는 지역 모티프를 메가베이스 규모의 조절 가능한 시퀀스 생성과 함께 연결하는 모델로, 표현 학습, 기능적 트랙 및 유전체 주석 예측을 통합한다.
구글 헬스 AI 팀이 MedASR을 공개했다. MedASR은 임상 사전작성과 의사-환자 대화를 대상으로 한 오픈 가중치 의료 음성 대본 모델로, 현대 AI 워크플로에 직접 통합될 수 있도록 설계되었다. MedASR은 Conformer 아키텍처를 기반으로 한 음성 대본 모델이다.
사용자 이탈 위험을 사전에 식별하고 개인화된 재참여 이메일을 작성하여 이탈을 방지하는 에이전트를 만드는 방법에 대한 튜토리얼. 이탈이 발생하기를 기다리는 것이 아니라 사용자의 비활동을 관찰하고 행동 패턴을 분석하여 인센티브를 계획하고 Gemini를 사용해 인간이 이해할 수 있는 이메일 초안을 생성하는 방법에 초점.
구글 딥마인드 연구원들이 Gemma Scope 2를 소개했다. 이는 Gemma 3 언어 모델이 270M에서 27B 파라미터에 이르는 모든 레이어에서 정보를 처리하고 표현하는 방법을 노출하는 해석성 도구 모음이다. 주요 목표는 AI 안전 및 정렬 팀들이 모델 동작을 내부 기능으로 역추적할 수 있는 실용적인 방법을 제공하는 것이다.

Meta 연구진은 PEAV(Perception Encoder Audiovisual)를 소개했는데, 이는 오디오와 비디오의 통합 이해를 위한 새로운 인코더 패밀리로, 약 100M개의 오디오 비디오 쌍과 텍스트 캡션을 대규모 대조적 학습을 통해 단일 임베딩 공간에서 정렬된 오디오, 비디오 및 텍스트 표현을 학습한다.
SmolAgents와 지역 Qwen 모델을 활용하여 완전 자율형 플리트 분석 에이전트를 만드는 과정을 안내하는 튜토리얼. 외부 API 호출 없이 유지보수 위험을 추론, 분석, 시각화하는 방법을 살펴봄.
구글이 A2UI를 오픈 소스로 공개했다. 이는 에이전트가 풍부한 네이티브 인터페이스를 선언적 JSON 형식으로 설명하고, 클라이언트 애플리케이션이 자체 구성 요소로 렌더링할 수 있는 라이브러리이다. 원격 에이전트가 신뢰 경계를 넘어 안전하고 상호 작용적인 인터페이스를 제공하는 방법에 대한 명확한 문제를 해결한다.

Anthropic이 새로운 오픈 소스 에이전틱 프레임워크 ‘Bloom’을 출시했다. 이 프레임워크는 전방위 인공지능 모델의 자동 행동 평가를 위한 것으로, 연구자가 지정한 행동을 측정하여 현실적인 시나리오에서 얼마나 자주 강도 있게 나타나는지 측정한다. ‘Bloom’의 등장은 안전 및 정렬을 위한 행동 평가가 설계 및 유지에 비용이 많이 드는 문제를 해결한다.

이 기사는 AI 모델 배포 시 발생하는 속도 저하에 대한 문제를 다루고, KV 캐싱을 통해 이를 해결하는 방법에 대해 논의합니다.

NVIDIA가 Nemotron 3 패밀리를 발표했는데, 이는 agentic AI를 위한 완전한 스택으로, 모델 가중치, 데이터셋 및 강화 학습 도구를 포함한다. 이 패밀리는 Nano, Super, Ultra 세 가지 크기로 나뉘어 있으며, 긴 문맥 추론과 추론 비용에 엄격한 제어가 필요한 다중 에이전트 시스템을 대상으로 한다.
본 튜토리얼에서는 Gemini를 활용하여 자동 의료 증거 수집 및 사전 승인을 위한 기능적인 의료 에이전트를 어떻게 조율하는지에 대해 설명합니다. 모델을 안전하게 구성하는 것부터 현실적인 외부 도구를 구축하고 구조화된 JSON을 통해 완전히 추론, 행동 및 응답하는 지능적인 에이전트 루프를 구성하는 각 구성 요소를 단계별로 안내합니다.

Mistral AI가 최신 OCR 서비스인 Mistral OCR 3를 출시했다. 이 모델은 PDF 및 기타 문서에서 교차된 텍스트와 이미지를 추출하고 구조를 보존하는 데 사용되며, 1,000 페이지 당 $2의 저렴한 가격에 이를 수행한다.
이 튜토리얼에서는 Kombu를 사용하여 이벤트 중심의 워크플로우를 구축하는 방법에 대해 설명합니다. 메시징을 핵심 아키텍처 기능으로 취급하여 교환, 라우팅 키, 백그라운드 워커, 동시 생산자의 설정을 단계별로 안내하며 실제 분산 시스템을 관찰할 수 있습니다.





