2026년 6월 22일 월요일
오늘의 신문
2026년 6월 22일 월요일 오늘의 신문
세일즈포스 코드젠을 활용한 엔드 투 엔드 워크플로우를 구현하는 방법을 소개합니다. 함수 추출, 구문 검사, 정적 안전 점검, 유닛 테스트 검증 등을 포함합니다.
2026년 6월 18일 오후 10시 44분
퍼플렉시티가 자가 개선 메모리 시스템인 '브레인'을 출시했습니다. 이 시스템은 에이전트의 작업을 기억하며, 성과와 실패를 분석해 개선합니다.
2026년 6월 18일 오후 4시 26분
KV 캐시가 긴 컨텍스트에서 모델 가중치를 초과하는 상황에서 TurboQuant, OSCAR, EpiCache가 메모리 병목 현상을 해결하기 위해 각기 다른 접근 방식을 취하고 있습니다. 이들은 경쟁보다는 상호 보완적인 관계에 있습니다.
2026년 6월 18일 오전 5시 14분
OpenAI가 생명과학 연구를 평가하는 750개 작업으로 구성된 LifeSciBench를 발표했습니다. 이 벤치마크는 173명의 박사 과학자들이 작성한 기준을 바탕으로 AI 모델의 추론과 결정을 평가합니다.
2026년 6월 17일 오후 10시 28분
이 튜토리얼에서는 NVIDIA SkillSpector를 사용하여 배포 전 AI 기술의 보안 위험을 평가하는 방법을 소개합니다. 양호한 기술과 의도적으로 취약한 기술을 구축하고, SkillSpector의 LangGraph 워크플로우를 통해 스캔합니다.
2026년 6월 17일 오후 9시 35분
Vercel이 Apache-2.0 라이선스의 오픈소스 AI 에이전트 프레임워크 'Eve'를 공개했다. 각 에이전트는 기능에 맞춰 파일 디렉토리로 구성되어 있다.
2026년 6월 17일 오후 1시 22분
MiniMax가 새로운 희소 주의 메커니즘인 MSA를 발표했습니다. 이 기술은 쿼리당 상위 k 개의 키-값 블록을 선택하여 계산량을 28.4배 줄이는 데 성공했습니다.
2026년 6월 17일 오전 3시 44분
OpenAI가 2026년 6월 16일 배포 시뮬레이션을 도입했습니다. 이 방법은 새로운 모델 출시 전 과거 대화를 재생하여 배포 시 원치 않는 행동의 비율을 추정합니다.
2026년 6월 17일 오전 1시 49분
xFormers를 이용해 메모리 효율적인 트랜스포머 모델을 구축하는 방법을 소개합니다. GPU에서 빠르고 효율적인 모델을 구현하며, 다양한 기술적 요소를 검토합니다.
2026년 6월 16일 오후 8시 02분
Qwen 팀의 새로운 Qwen-RobotSuite는 조작, 비디오 세계 모델링, 내비게이션을 위한 세 가지 AI 모델을 포함합니다. 각 모델의 구조와 데이터 파이프라인, 벤치마크 결과를 살펴봅니다.
2026년 6월 16일 오후 12시 51분
헤르메스 에이전트가 비동기 서브 에이전트를 도입하여 위임된 작업이 부모 채팅을 차단하지 않도록 개선했습니다. 새로운 도구 세트를 통해 작업을 생성하고 관리하는 방법을 소개합니다.
2026년 6월 16일 오전 5시 21분
'Meet Atoms'는 개발자나 소프트웨어 엔지니어가 아니더라도 아이디어를 AI에게 설명하면 앱을 구축하고 배포할 수 있는 노코드 도구입니다.
2026년 6월 16일 오전 4시 50분
구글 클라우드가 AI 에이전트를 위한 개방형 지식 포맷(OKF)을 소개했습니다. 이 포맷은 마크다운 파일과 YAML 프론트매터로 구성된 디렉토리를 통해 AI에 필요한 맥락을 제공합니다.
2026년 6월 16일 오전 4시 18분
이 튜토리얼에서는 Docling Parse를 사용하여 PDF 문서를 구조적으로 분석하는 워크플로우를 구축하는 방법을 소개합니다. Python 환경 설정부터 PDF 생성, 데이터 추출까지의 과정을 다룹니다.
2026년 6월 16일 오전 3시 20분
사카나 AI의 첫 상용 제품인 사카나 마를린은 최대 8시간 동안 자율적으로 작동하며, AB-MCTS와 AI 과학자 워크플로우를 기반으로 다수의 페이지로 구성된 보고서와 슬라이드를 생성합니다.
2026년 6월 15일 오후 6시 32분
Flash-KMeans는 Triton GPU 커널을 활용한 오픈소스 IO 인식 K-평균 구현체로, 기존의 수학적 접근을 변경하지 않고도 FAISS보다 200배 빠른 성능을 자랑합니다.
2026년 6월 15일 오전 5시 16분

최신뉴스 전체보기

2025년 LLM 서빙을 위한 상위 6개 추론 런타임 비교

대형 언어 모델은 훈련보다는 실제 트래픽 하에서 토큰을 빠르고 저렴하게 제공하는 방법에 더 많은 제약을 받는다. 이는 런타임이 요청을 일괄 처리하는 방식, 프리필과 디코드를 어떻게 중첩시키는지, KV 캐시를 어떻게 저장하고 재사용하는지에 달려 있다. 서로 다른 엔진들은 서로 다른 절충안을 제공한다.

2025년 11월 7일 오전 5시 12분
통로 추론을 이용한 통합 전사체, 단백체, 대사체 데이터 해석을 위한 다중 에이전트 시스템 구축

이 튜토리얼에서는 전사체, 단백체, 대사체를 포함한 통합 옴익스 데이터를 해석하여 주요 생물학적 통찰을 발견하는 고급 다중 에이전트 파이프라인을 구축합니다. 실제 생물학적 추세를 모방하는 일관된 합성 데이터 세트를 생성하고, 통계 분석, 네트워크 추론, 경로 풍부화, 약물 재활용을 위해 설계된 에이전트를 단계별로 진행합니다.

2025년 11월 7일 오전 3시 43분
Moonshot AI, 인간 개입 없이 200-300개의 순차 도구 호출을 실행할 수 있는 인상적인 사고 모델 Kimi K2 Thinking 출시

Moonshot AI사가 Kimi K2 Thinking을 공개했다. 이 모델은 Kimi K2 Mixture of Experts 아키텍처의 전체 추론 스트림을 노출하는 오픈 소스 사고 에이전트 모델로, 깊은 추론이 필요한 작업을 대상으로 한다.

2025년 11월 6일 오후 9시 19분
Salesforce CodeGen을 활용한 자율 Wet-Lab 프로토콜 플래너 및 검증기 구축

Python을 사용하여 실험 설계 및 실행을 위한 지능적 에이전트인 Wet-Lab 프로토콜 플래너 및 검증기를 구축하는 튜토리얼. Salesforce의 CodeGen-350M-mono 모델을 자연어 추론에 통합하고 ProtocolParser를 사용하여 구조화된 데이터 추출.

2025년 11월 6일 오후 8시 03분
구글 AI가 DS STAR를 소개: 엔드 투 엔드 분석을 계획, 코딩, 검증하는 멀티 에이전트 데이터 과학 시스템

구글 연구원들이 DS STAR(Data Science Agent via Iterative Planning and Verification)를 소개했다. 이는 엔드 투 엔드 데이터 과학 질문을 실행 가능한 Python 코드로 변환하는 멀티 에이전트 프레임워크이다.

2025년 11월 6일 오후 5시 03분
CMU 연구진, 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille 소개

CMU 연구진은 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille을 소개했다. 기존 LLM 에이전트들은 과제 성공을 극대화하기 위해 조정되어 있지만 사용자에게 언제 질문할지, 상호작용 선호도를 어떻게 존중할지 신중하게 이유를 생각하지 않는다. 이에 대한 해결책을 모색하고 있다.

2025년 11월 6일 오전 4시 49분
Generalist AI가 GEN-θ를 소개: 고품질 원시 물리적 상호작용에 직접 다중 모달 훈련을 위해 구축된 새로운 신체 기반 모델 클래스

Generalist AI가 GEN-θ를 공개했습니다. 이 모델은 시뮬레이션에 의존하지 않고 혼돈스러운 로봇 데이터로부터 물리적 기술을 학습할 수 있는 싱글 모델을 어떻게 구축할 수 있는지 보여줍니다. GEN-θ는 인터넷 비디오나 시뮬레이션 대신에 고품질 원시 물리적 상호작용 데이터로 직접 훈련된 신체 기반 모델의 가족입니다.

2025년 11월 5일 오후 8시 56분
모델 내이티브 에이전트를 구축하는 방법: 엔드 투 엔드 강화 학습을 통해 내부 계획, 메모리 및 멀티툴 추론 습득하기

이 튜토리얼에서는 외부 조율이 아닌 에이전트가 단일 신경 모델 내에서 계획, 메모리 및 도구 사용을 내재화하는 방법을 탐색한다. 우리는 콤팩트한 모델 내이티브 에이전트를 디자인하여 산술 추론 작업을 강화 학습을 통해 수행하는 방법을 학습한다.

2025년 11월 5일 오후 1시 00분
OpenAI, 인도어 언어를 위한 문화 인식 벤치마크 ‘IndQA’ 발표

OpenAI가 인도어 언어와 문화를 실제 상황에서 얼마나 이해하는지 테스트하는 벤치마크 ‘IndQA’를 발표했다. 이는 AI 모델이 인도어 언어의 문화적 영역에 관한 질문을 얼마나 잘 이해하고 추론하는지를 평가한다. OpenAI는 전 세계 인구의 약 80%가 인도어 언어를 사용한다고 밝혔다.

2025년 11월 5일 오후 12시 37분
구글 AI, 아부지파와 탈옥 스타일 프롬프트에서 안전한 언어 모델을 위한 일관성 훈련 소개

구글 AI가 일관성 훈련을 도입하여 언어 모델이 아부지파 프롬프트와 탈옥 스타일 공격에 저항하면서 능력을 유지하는 방법. 대형 언어 모델은 종종 칭찬이나 롤플레이로 둘러싸인 동일한 작업에 대해 안전하게 응답한 뒤 행동을 바꿀 수 있다. DeepMind 연구원들은 이를 위해 간단한 훈련 렌즈에서 일관성 훈련을 제안한다.

2025년 11월 5일 오전 10시 32분
메타 리서치 하이드라를 활용해 확장 가능하고 재현 가능한 머신러닝 실험 파이프라인을 구축하는 방법은 무엇인가요?

이 튜토리얼에서는 Meta Research가 개발하고 오픈 소스로 공개한 고급 구성 관리 프레임워크 인 하이드라를 탐색합니다. Python 데이터 클래스를 사용하여 구조화된 구성을 정의하여 실험 매개변수를 깔끔하고 모듈식으로 관리하고 재현 가능하게 합니다. 튜토리얼을 진행하면서 구성을 구성하고 런타임 오버라이드를 적용하고 시뮬레이션합니다.

2025년 11월 4일 오후 7시 00분
2025년 코딩을 위한 상위 7개 대형 언어 모델 LLMs/시스템 비교

2025년, 주요 모델은 실제 GitHub 문제를 해결하고 다중 저장소 백엔드를 리팩터링하며 테스트를 작성하고 긴 컨텍스트 창 위에서 에이전트로 실행해야 합니다. 팀들에게 중요한 질문은 “코딩이 가능한가”가 아니라 어떤 모델이 어떤 제약 조건에 적합한가입니다.

2025년 11월 4일 오전 4시 48분
대규모 언어 모델 간의 KV-Cache 퓨전을 통한 캐시 간 직접 의미적 통신인 ‘캐시-투-캐시(C2C)’

대규모 언어 모델이 텍스트 토큰을 보내지 않고 협업할 수 있는지 연구팀이 증명했다. 캐시-투-캐시(C2C)는 대규모 언어 모델이 KV-Cache를 통해 정보를 교환하는 새로운 통신 패러다임이다.

2025년 11월 4일 오전 3시 32분
주석 달린 데이터가 없을 때 지도 AI 모델을 구축하는 방법

실제 기계 학습에서 가장 큰 어려움은 지도 모델이 레이블이 달린 데이터를 필요로 한다는 것인데, 많은 실전 시나리오에서 시작하는 데이터는 대부분 레이블이 없습니다. 수천 개의 샘플을 수동으로 주석을 다는 것은 느리고 비용이 많이 들며 지루하고 종종 실용적이지 않습니다. 이때 액티브 러닝이 게임 체인저가 됩니다.

2025년 11월 3일 오후 6시 58분
Anyscale 및 NovaSky 팀이 SkyRL tx v0.1.0을 출시: Tinker 호환 강화 학습 엔진을 로컬 GPU 클러스터로 가져오기

Anyscale과 NovaSky 팀이 SkyRL tx v0.1.0을 출시했다. 이 엔진은 AI 팀이 자체 인프라에서 대형 언어 모델에 대한 Tinker 스타일 강화 학습을 단일 통합 엔진을 사용하여 실행할 수 있게 해준다.

2025년 11월 3일 오후 6시 18분
지속 메모리와 맞춤형 에이전틱 AI 시스템을 어떻게 설계할까요? (Decay와 Self-Evaluation과 함께)

이 튜토리얼에서는 우리에게 기억하고 배우며 시간이 지남에 따라 적응하는 지능적 에이전트를 구축하는 방법을 탐구합니다. 우리는 단순한 규칙 기반 논리를 사용하여 지속 메모리 및 개인화 시스템을 구현하고, 현대적인 에이전틱 AI 프레임워크가 맥락 정보를 저장하고 호출하는 방식을 시뮬레이션합니다.

2025년 11월 3일 오전 12시 13분
AI-ready API를 만드는 방법은?

Postman이 AI-ready API를 구축하기 위한 포괄적인 체크리스트와 개발자 가이드를 발표했는데, 가장 간단한 진실을 강조했다: 가장 강력한 AI 모델조차도 받는 데이터만큼 좋다. 엔드포인트가 일관성 없거나 명확하지 않거나 신뢰할 수 없으면 모델은 나쁜 입력을 수정하는 데 시간을 낭비한다.

2025년 11월 2일 오후 7시 42분
LongCat-Flash-Omni: 560B 매개변수를 갖고 27B 활성화된 SOTA 오픈소스 옴니 모달 모델, 실시간 오디오-비주얼 상호작용에서 뛰어남

Meituan의 LongCat 팀이 LongCat Flash Omni를 발표했다. 이 모델은 5600억 개 매개변수와 토큰 당 약 27억 개 활성화를 갖춘 오픈소스 옴니 모달 모델로, 텍스트, 이미지, 비디오, 오디오를 실시간으로 듣고 보고 읽고 응답할 수 있는 효율적인 단일 모델을 설계하는 방법이다.

2025년 11월 2일 오전 10시 44분
2025년 최고의 OCR (Optical Character Recognition) 모델/시스템 비교

2025년 현대 시스템은 스캔 및 디지털 PDF를 한 번에 읽고 레이아웃을 보존하며 표를 감지하고 키-값 쌍을 추출하고 여러 언어를 처리해야 합니다. 많은 팀들은 이제 OCR이 RAG 및 에이전트 파이프라인에 직접 공급되는 것을 원합니다.

2025년 11월 2일 오전 3시 49분
기업 AI 벤치마킹 프레임워크 코딩 구현: 실제 업무 과제에서 규칙 기반 LLM 및 하이브리드 에이전트 AI 시스템 평가

이 튜토리얼에서는 다양한 종류의 에이전트 AI 시스템을 실제 기업 소프트웨어 과제에서 평가하기 위한 포괄적인 벤치마킹 프레임워크를 개발한다. 데이터 변환, API 통합, 워크플로 자동화, 성능 최적화 등 다양한 도전 과제를 설계하고, 규칙 기반, LLM 기반, 하이브리드 에이전트를 포함한 다양한 에이전트가 이러한 작업들에서 어떻게 수행되는지 평가한다.

2025년 11월 1일 오후 11시 03분
DeepAgent: 단일 추론 프로세스 내에서 자율 사고, 도구 발견 및 작업 실행을 수행하는 깊은 추론 AI 에이전트

DeepAgent는 사전 정의된 Reason, Act, Observe 루프를 실행하는 대부분의 에이전트 프레임워크와는 달리, 에이전트는 프롬프트에 주입된 도구만 사용할 수 있습니다. 이는 작은 작업에는 작동하지만, 도구 세트가 크거나 작업이 길거나, 추론 중에 전략을 변경해야 하는 경우 실패합니다.

2025년 11월 1일 오후 6시 01분
Anthropics의 새로운 연구, Claude가 주입된 개념을 감지할 수 있지만 제어된 층에서만 가능

Anthropics의 새 연구는 대형 언어 모델인 Claude가 자체 내부 상태를 인지하는지 아니면 훈련 데이터에서 반복하는지 구별하는 방법을 살펴봅니다. 현재 Claude 모델이 자신의 능력에 대해 이야기하는 것 이상을 할 수 있는지 살펴보며, 주입된 개념을 감지할 수 있는지에 대해 질문을 제기합니다.

2025년 11월 1일 오전 5시 10분
Apache Spark와 PySpark를 사용한 엔드 투 엔드 데이터 엔지니어링 및 머신 러닝 파이프라인 구축하는 방법

이 튜토리얼에서는 Apache Spark의 기술을 Google Colab에서 PySpark를 사용하여 직접 활용하는 방법을 탐구합니다. 로컬 Spark 세션 설정부터 변환, SQL 쿼리, 조인, 창 함수까지 단계적으로 진행하며 사용자 구독 유형을 예측하는 간단한 머신 러닝 모델을 구축하고 평가합니다.

2025년 11월 1일 오전 3시 11분
구글 AI, 지도 강화 학습 (SRL) 공개: 전문가 궤적을 통해 작은 언어 모델에 어려운 문제 해결 능력 가르치기

구글 클라우드 AI 연구팀과 UCLA 연구원들이 ‘지도 강화 학습’ (SRL) 프레임워크를 발표했습니다. 이를 통해 7B 규모의 모델이 어려운 수학 및 에이전트 작업에서 학습할 수 있게 되었습니다.

2025년 10월 31일 오후 10시 58분
OpenAI, ‘gpt-oss-safeguard’의 연구 미리보기 공개: 안전 분류 작업을 위한 두 개의 오픈 웨이트 추론 모델

OpenAI가 gpt-oss-safeguard의 연구 미리보기를 공개했습니다. 두 개의 오픈 웨이트 안전 추론 모델은 사용자가 추론 시 사용자 정의 안전 정책을 적용할 수 있도록 합니다. 모델은 gpt-oss에서 파인 튜닝된 gpt-oss-safeguard-120b와 gpt-oss-safeguard-20b 두 가지 크기로 제공되며 Apache 2.0 라이선스로 배포되었으며 Hugging Face에서 로컬 사용을 위해 제공됩니다.

2025년 10월 31일 오전 4시 08분
경량 Qwen 모델을 활용한 효율적 파이프라인 인텔리전스를 위한 자율 다중 에이전트 데이터 및 인프라 전략 시스템 설계 방법

Qwen2.5-0.5B-Instruct 모델을 활용해 자율 다중 에이전트 데이터 및 인프라 전략 시스템을 설계하는 방법에 대한 튜토리얼. 유연한 LLM 에이전트 프레임워크를 만들고 데이터 관리의 다양한 레이어를 처리하는 특수 에이전트를 개발하여 효율적인 실행을 달성함.

2025년 10월 31일 오전 12시 27분
Ant Group, 각 활성화가 추론 능력을 향상시키는 원칙에 따라 구축된 추론 중심 MoE 언어 모델 시리즈인 Ling 2.0 출시

Ant Group의 Inclusion AI 팀이 Ling 2.0을 출시했다. 이 모델은 각 토큰의 계산을 거의 바꾸지 않으면서 용량이 증가하는 언어 모델로, 추론 능력을 향상시키는 원리에 기반한다.

2025년 10월 30일 오후 4시 39분
오픈 소스 모델을 사용하여 가치지향적 추론과 자기 수정 결정을 통해 윤리적으로 일치하는 자율 에이전트 구축하는 방법

이 튜토리얼에서는 윤리적 및 조직적 가치와 일치하는 자율 에이전트를 구축하는 방법을 탐구합니다. Colab에서 로컬로 실행되는 오픈 소스 Hugging Face 모델을 사용하여 목표 달성과 도덕적 추론을 균형있게 고려하는 의사 결정 과정을 시뮬레이션합니다. 이 구현을 통해 “정책” 모델을 통합하는 방법을 보여줍니다.

2025년 10월 30일 오전 1시 47분
IBM AI 팀이 출시한 Granite 4.0 Nano 시리즈: 엣지 AI용 소형 오픈소스 모델

IBM AI 팀이 Granite 4.0 Nano를 출시했다. 이 모델은 로컬 및 엣지 추론을 대상으로 하는 소형 모델로, 기업 제어 및 오픈 라이선스를 갖추고 있으며, 350M과 1B 정도의 두 가지 크기의 8개 모델로 구성되어 있다.

2025년 10월 30일 오전 12시 10분
Microsoft, 새 AI 프레임워크 ‘에이전트 라이트닝’ 출시

Microsoft AI 팀이 출시한 ‘에이전트 라이트닝’은 기존 AI 에이전트 스택을 변경하지 않고도 강화 학습을 통해 정책 LLM을 개선하는 데 도와주는 오픈소스 프레임워크이다. 훈련과 실행을 분리하여 강화 학습을 모든 AI 에이전트에 대해 가능케 한다.

2025년 10월 29일 오후 5시 39분
Liquid AI, LFM2-ColBERT-350M 출시: 다국어 및 교차언어 RAG에 늦은 상호작용 검색 기능 제공하는 새로운 소형 모델

Liquid AI사가 LFM2-ColBERT-350M을 출시했다. 이 모델은 다국어 및 교차언어 검색을 위한 소형 late interaction retriever로, 한 언어로 문서를 색인하고 다른 언어로 쿼리를 작성해도 높은 정확도로 검색 결과를 반환한다.

2025년 10월 29일 오전 2시 32분
탐사 에이전트인 Q-Learning, UCB 및 MCTS가 동적 그리드 환경에서 지능적 문제 해결 전략을 협력하여 학습하는 방법

Q-Learning, UCB 및 MCTS와 같은 탐사 전략이 지능적 의사 결정 형성에 어떻게 영향을 미치는지 탐구합니다. 세 가지 에이전트를 구축하고 훈련하여 그리드 세계를 탐색하고 장애물을 피하면서 효율적으로 목표지에 도달하도록 합니다.

2025년 10월 28일 오후 8시 01분
미니맥스, 미니맥스 M2 공개: 최대 코딩 및 에이전틱 워크플로에 최적화된 미니 오픈 모델 출시, 8% 클로드 소네 가격 및 약 2배 빠름

미니맥스팀이 코딩과 에이전트 워크플로에 최적화된 전문가 모델인 MiniMax-M2를 공개했다. 이 모델은 최대 모델 비용의 일부분으로 오랜 기간 동안 MCP, 쉘, 브라우저, 검색 및 코드 작업을 지원한다.

2025년 10월 28일 오후 6시 21분
Zhipu AI, 시각-텍스트 압축을 통해 컨텍스트 길이 확장하는 AI 프레임워크 ‘Glyph’ 출시

Zhipu AI 연구진은 ‘Glyph’를 발표했다. 긴 텍스트를 이미지로 렌더링하고 VLM을 사용하여 128K 컨텍스트를 1백만 토큰 워크로드로 확장하는 AI 프레임워크로, 3-4배의 토큰 압축을 달성함.

2025년 10월 28일 오전 4시 35분
Pyversity 라이브러리 소개: Pyversity를 사용하여 결과 다양성을 향상시키는 방법은?

Pyversity는 결과의 다양성을 향상시키기 위해 설계된 빠르고 가벼운 Python 라이브러리이다. 검색 시스템에서 자주 유사한 항목을 반환하는 문제를 해결하기 위해 Pyversity는 결과를 효율적으로 재랭킹하여 중복성이 적은 항목을 노출시킨다. Maximal Marginal Relevance를 포함한 인기 있는 다양화 전략에 대한 명확하고 통일된 API를 제공한다.

2025년 10월 28일 오전 2시 37분
Bokeh와 사용자 정의 JavaScript를 활용한 완전히 대화형 실시간 시각화 대시보드 구축 방법?

이 튜토리얼에서는 Bokeh를 사용하여 완전히 대화형이고 시각적으로 매력적인 데이터 시각화 대시보드를 만드는 방법을 안내합니다. 원시 데이터를 통찰력있는 플롯으로 변환한 다음 링크된 브러싱, 색상 그라데이션, 드롭다운 및 슬라이더를 통한 실시간 필터 기능과 같은 기능으로 향상시킵니다. 진행하면서 사용자 정의 JavaScript로 대시보드에 생명을 불어넣습니다.

2025년 10월 28일 오전 2시 14분
어떻게 지능적인 쿼리 라우팅, 자가 점검 및 반복적 개선을 갖춘 에이전트 결정 트리 RAG 시스템을 구축하는가?

이 튜토리얼에서 우리는 단순한 질문 응답을 넘어선 고급 에이전트 검색-증강 생성(RAG) 시스템을 구축한다. 이 시스템은 올바른 지식 소스로 쿼리를 지능적으로 라우팅하고, 답변 품질을 평가하기 위해 자가 점검을 수행하며, 향상된 정확도를 위해 응답을 반복적으로 개선한다. FAISS, SentenceTransformers 등의 오픈 소스 도구를 사용하여 전체 시스템을 구현한다.

2025년 10월 27일 오전 3시 43분
‘kvcached’ 만나보기: 공유 GPU에서 LLM 서빙을 위한 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리

‘kvcached’는 공유 GPU에서 LLM 서빙을 위해 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리입니다. 기존에는 모델당 큰 정적 KV 캐시 영역을 미리 예약하여 GPU 메모리를 낭비했지만, kvcached를 사용하면 이를 최적화할 수 있습니다.

2025년 10월 26일 오후 7시 23분
5가지 일반 LLM 매개변수 예시로 설명

대형 언어 모델(Large Language Models, LLMs)은 여러 매개변수를 제공하여 행동을 세밀하게 조정하고 응답 생성 방식을 제어할 수 있습니다. 이 튜토리얼에서는 max_completion_tokens, temperature, top_p, presence_penalty 등 일반적으로 사용되는 몇 가지 매개변수를 살펴봅니다.

2025년 10월 26일 오후 5시 16분
Stable-Baselines3를 사용하여 사용자 지정 거래 환경에서 여러 강화 학습 에이전트를 구축, 훈련 및 비교하는 방법

이 튜토리얼에서는 Stable-Baselines3를 사용하여 강화 학습의 고급 응용 프로그램을 탐색합니다. 완전히 기능하는 사용자 지정 거래 환경을 설계하고, PPO 및 A2C와 같은 여러 알고리즘을 통합하며, 성능 추적을 위해 자체 훈련 콜백을 개발합니다. 에이전트 성능을 훈련, 평가 및 시각화하여 알고리즘 효율성, 학습 곡선 및 의사 결정을 비교합니다.

2025년 10월 26일 오전 4시 34분
Anthropic 및 Thinking Machines Lab의 새로운 AI 연구, 모델 사양의 스트레스 테스트 및 언어 모델 간 캐릭터 차이 공개

Anthropic, Thinking Machines Lab, Constellation의 연구팀은 모델 사양을 스트레스 테스트하여 최신 모델이 동일한 사양 하에 서로 다른 행동 프로필을 나타내는지 확인하는 방법을 제시했다.

2025년 10월 25일 오후 10시 35분
로컬 AI 모델을 사용하여 가상 작업을 생각하고 계획하며 실행하는 완전한 컴퓨터 사용 에이전트 구축하는 방법

이 튜토리얼에서는 로컬 오픈웨이트 모델을 사용하여 추론, 계획 및 가상 작업을 수행할 수 있는 고급 컴퓨터 사용 에이전트를 처음부터 구축합니다. 미니어처 시뮬레이션 데스크톱을 만들고 도구 인터페이스를 갖추며 환경을 분석하고 클릭 또는 타이핑과 같은 작업을 결정하고 실행할 수 있는 지능적인 에이전트를 설계합니다.

2025년 10월 25일 오전 6시 54분
Google 대 OpenAI 대 Anthropic: 에이전틱 AI 무기 경쟁 분석

Google, OpenAI 및 Anthropic이 ‘에이전틱’ 능력을 컴퓨터 사용 제어, 도구/기능 호출, 오케스트레이션, 지배 및 기업 패키징 영역에서 어떻게 제품화하는지 분석합니다. 에이전트 플랫폼은 이제 모델뿐만 아니라 경쟁 우위를 정의합니다.

2025년 10월 25일 오전 6시 43분
Liquid AI의 LFM2-VL-3B가 3B 파라미터 비전 언어 모델(VLM)을 엣지 기기로 가져옵니다

Liquid AI가 이미지 텍스트를 텍스트로 변환하는 작업을 위한 3B 파라미터 비전 언어 모델인 LFM2-VL-3B를 출시했습니다. 450M 및 1.6B 변형을 넘어 LFM2-VL 패밀리를 확장했으며, 정확도를 높이면서 LFM2 아키텍처의 속도 프로필을 유지합니다.

2025년 10월 24일 오후 5시 14분
LitServe를 사용한 고급 Multi-Endpoint 기계 학습 API 구축 방법: 배치, 스트리밍, 캐싱 및 로컬 추론

LitServe를 사용하여 기계 학습 모델을 최소한의 노력으로 API로 배포하는 강력하고 가벼운 서빙 프레임워크를 탐구하는 튜토리얼. 텍스트 생성, 배치, 스트리밍, 멀티 태스크 처리, 캐싱 등의 실제 기능을 보여주는 여러 엔드포인트를 로컬에서 실행하여 외부 API에 의존하지 않는다.

2025년 10월 24일 오후 4시 20분
Salesforce AI 연구팀, WALT(웹 에이전트가 배우는 도구) 소개: LLM 에이전트가 모든 웹사이트에서 재사용 가능한 도구 자동으로 발견 가능

Salesforce AI 연구팀이 WALT(웹 에이전트가 배우는 도구) 프레임워크를 소개했다. 이 프레임워크는 웹사이트의 잠재적 기능을 재사용 가능한 호출 가능한 도구로 역공학화한다. 이를 통해 브라우저 자동화를 클릭 체인이 아닌 호출 가능한 도구 중심으로 재구성하며, 에이전트는 검색, 필터링, 정렬, 댓글 작성, 목록 생성과 같은 작업을 호출한다.

2025년 10월 24일 오전 7시 11분
구글 AI가 FLAME 접근 방식을 소개: 가장 정보가 풍부한 샘플을 선택하여 모델 전문화를 빠르게 만듬

구글 연구팀이 FLAME을 제안했는데, 이는 강력한 오픈 어휘 탐지기를 기반으로 한 단일 단계의 액티브 러닝 전략으로, 훈련할 수 있는 작은 정교화기를 추가하여 가장 정보가 풍부한 샘플을 선택하고 모델 전문화를 빠르게 만드는 방법이다.

2025년 10월 23일 오후 6시 44분
UltraCUA: 일반 목적 GUI 에이전트와 전문 API 기반 에이전트 사이의 간격을 줄이는 기초 컴퓨터 사용 에이전트 모델

Apple 연구자들이 소개한 UltraCUA는 기존 컴퓨터 사용 에이전트의 한계를 극복하는 모델로, 저수준 GUI 동작을 고수준 프로그램 호출과 결합하여 보다 효율적으로 작업을 수행할 수 있게 해준다.

2025년 10월 23일 오후 12시 42분
uAgent를 사용하여 완전한 기능의 다중 에이전트 마켓플레이스 구축하는 코딩 가이드

이 튜토리얼에서는 uAgents 프레임워크를 사용하여 작은 기능의 다중 에이전트 시스템을 구축하는 방법을 탐구합니다. 디렉토리, 판매자 및 구매자 세 가지 에이전트를 설정하여 실제 마켓플레이스 상호 작용을 시뮬레이션하도록 잘 정의된 메시지 프로토콜을 통해 통신합니다.

2025년 10월 23일 오전 11시 56분
Anthrogen이 올리는 Odyssey: Attention을 Consensus로 대체하고 이산 확산으로 훈련하는 102B 파라미터 단백질 언어 모델

Anthrogen은 Odyssey를 소개했는데, 이는 시퀀스 및 구조 생성, 단백질 편집, 조건부 설계를 위한 단백질 언어 모델로 1.2B에서 102B 파라미터의 범위를 갖추고 있다. 이 모델을 실제 단백질 설계 작업을 위한 전방향, 멀티모달 모델로 소개하며 API가 조기 액세스 중이라고 밝혔다.

2025년 10월 23일 오전 2시 53분
PokeeResearch-7B: AI 피드백으로 강화 학습된 오픈 소스 7B 딥-리서치 에이전트 및 견고한 추론 프레임워크

PokeeResearch-7B는 7B 파라미터 딥 리서치 에이전트로, 쿼리를 분해하고 검색 및 읽기 호출을 실행하며 후보 답변을 확인한 후 여러 리서치 스레드를 최종 응답으로 합성하는 기능을 제공한다. 에이전트는 연구 및 검증 루프를 실행한다.

2025년 10월 22일 오후 10시 48분
오픈 소스 AI 모델을 활용하여 검색 보강 및 정책 가드레일을 사용하여 완전히 기능적인 기업용 AI 어시스턴트 설계하는 방법

본 튜토리얼에서는 Colab에서 손쉽게 실행되는 강력한 기업용 AI 어시스턴트를 구축하는 방법을 살펴봅니다. FAISS를 사용하여 문서 검색 및 FLAN-T5를 사용하여 텍스트 생성을 위해 검색 보강 생성 (RAG)을 통합하는 것으로 시작하며, 기업 정책인 데이터 마스킹, 접근 제한 등을 포함시킵니다.

2025년 10월 22일 오후 10시 13분
구글 AI가 소개하는 VISTA: 텍스트에서 비디오로의 생성을 위한 테스트 시간 자가 개선 에이전트

VISTA는 추론 중에 텍스트에서 비디오 생성을 개선하는 다중 에이전트 프레임워크로, 구조화된 프롬프트를 장면으로 계획하고 최고의 후보를 선택하기 위해 페어와이즈 토너먼트를 실행하며 시각, 음향, 문맥에 걸쳐 특화된 심사위원을 활용하고 깊은 사고 프롬프팅 에이전트로 프롬프트를 다시 작성합니다.

2025년 10월 22일 오후 2시 55분
OpenAI, 내장 AI 에이전트를 갖춘 Chromium 기반 브라우저인 ChatGPT Atlas를 소개

OpenAI가 ChatGPT Atlas를 출시했는데, 이는 내장된 ChatGPT를 기반으로 한 브라우저로, 내비게이션, 검색 및 페이지 지원 기능을 제공한다. Windows, iOS 및 Android 빌드는 곧 출시될 예정이다.

2025년 10월 22일 오전 1시 41분
AutoGen, LangChain 및 Hugging Face를 사용하여 지능적인 다중 에이전트 시스템 구축하기

이 튜토리얼에서는 LangChain, AutoGen 및 Hugging Face를 결합하여 유료 API 없이 실행되는 완전한 프레임워크를 구축하여 Agentic AI의 본질에 대해 탐구합니다. 가벼운 오픈 소스 파이프라인을 설정한 다음 구조화된 추론, 다단계 워크플로우 및 협력적인 에이전트 상호작용을 진행합니다.

2025년 10월 22일 오전 12시 59분
구글 AI 연구팀이 새로운 AI 모델 ‘DeepSomatic’을 발표: 암 세포의 유전적 변이 식별

구글 연구팀과 UC Santa Cruz의 연구자들이 암 세포의 유전적 변이를 식별하는 AI 모델 ‘DeepSomatic’을 발표했다. Children’s Mercy와의 연구에서, 다른 도구에서 놓친 소아 백혈병 세포의 10가지 변이를 찾아내었다. DeepSomatic은 암 유전체를 위한 체세포 소규모 변이 콜러로, Illumina 단독 독립적으로 작동한다.

2025년 10월 21일 오전 2시 57분
DeepSeek, 고성능 OCR 및 구조화된 문서 변환을 위해 디자인된 3B OCR 모델 출시

DeepSeek-AI가 3B DeepSeek-OCR을 출시했다. 이는 텍스트를 작은 집합의 시각 토큰으로 압축한 뒤 언어 모델로 해당 토큰을 디코딩하는 OCR 및 문서 구문 분석 Vision-Language Model(VLM) 시스템이다. 이미지는 텍스트의 간략한 표현을 갖고 있어 디코더의 시퀀스 길이를 줄인다.

2025년 10월 20일 오후 7시 50분
로컬 AI 혁명: GPT-OSS-20B와 NVIDIA RTX AI PC로 확장되는 생성 AI

AI 분야의 풍경이 확장되고 있다. 최강의 LLMs(대형 언어 모델) 중 많은 것들이 클라우드에 주로 위치하고 있지만, 이제 강력한 새로운 패러다임이 등장하고 있다. 개인의 프라이버시 문제와 업로드 파일 수나 로딩 기간 제한에 대한 우려도 존재한다.

2025년 10월 20일 오후 12시 19분
LangChain의 DeepAgents 라이브러리 만나보기 및 DeepAgents가 실제로 어떻게 작동하는지 실제 예제 확인하기

DeepAgents 라이브러리는 계획을 세우고 시간에 걸쳐 작업을 관리할 수 있는 능력이 없는 기본 대형 언어 모델(Large Language Model, LLM) 에이전트를 극복하기 위해 설계되었습니다. 이 라이브러리는 “깊이” 있게 실행될 수 있도록 설계되어 있습니다.

2025년 10월 20일 오전 8시 55분
AI 에이전트를 위한 효과적인 컨텍스트 엔지니어링 안내서

컨텍스트는 중요하지만 제한적인 자원임을 강조하는 안토픽의 효과적인 컨텍스트 엔지니어링 가이드 출시. 에이전트의 품질은 모델 자체보다는 컨텍스트의 구조화와 관리에 더 의존함. 올바른 컨텍스트로 구성된 약한 LLM도 잘 수행할 수 있음.

2025년 10월 20일 오전 8시 23분
MCP를 활용한 실시간 자원 및 도구 통합을 위한 동적 AI 시스템 구축 방법

MCP를 활용하여 현대 AI 시스템에서의 독특한 도전 과제 중 하나인 AI 모델과 외부 데이터 또는 도구 간 실시간 상호 작용을 가능하게 하는 방법을 살펴봄. 전통적인 모델은 훈련 데이터에만 제한되지만 MCP를 통해 외부 자원 및 도구와의 실시간 상호 작용이 가능해짐.

2025년 10월 19일 오후 4시 31분
Weak-for-Strong (W4S): 약한 메타 에이전트를 강한 LLM으로 강화하는 혁신적인 강화 학습 알고리즘

스탠포드, EPFL, UNC의 연구진은 약한 메타 에이전트가 강한 실행 모델을 부르는 코드 워크플로를 설계하고 개선하는 새로운 강화 학습 프레임워크인 Weak-for-Strong Harnessing, W4S를 소개했다. 이 메타 에이전트는 강한 모델을 세밀하게 조정하는 것이 아니라 조정하는 방법을 학습한다. W4S는 워크플로 디자인을 다중 턴으로 형식화한다.

2025년 10월 19일 오전 2시 48분
Microsoft AI가 제안하는 BitNet Distillation (BitDistill): 최대 10배의 메모리 절약과 약 2.65배의 CPU 가속을 제공하는 가벼운 파이프라인

Microsoft Research는 BitNet Distillation을 제안하여 기존의 완전 정밀한 LLM을 특정 작업을 위해 1.58비트의 BitNet 학생으로 변환하고, 정확도를 FP16 교사에 가깝게 유지하면서 CPU 효율성을 향상시킵니다. 이 방법은 SubLN 기반의 구조적 개선, 지속적인 사전 훈련 및 로짓 및 멀티 헤드 어텐션 관계로부터의 이중 신호 증류를 결합합니다.

2025년 10월 19일 오전 1시 39분
Kong, 제작 준비 완료 AI 에이전트를 구축하기 위한 TypeScript, MCP 네이티브 SDK Volcano 출시

Kong이 Volcano를 오픈소스로 공개했습니다. 이는 TypeScript SDK로, LLM 고찰 및 실제 활동을 통해 여러 LLM 제공업체 간에 다단계 에이전트 워크플로를 구성하며 MCP 도구 사용이 가능합니다.

2025년 10월 18일 오전 6시 52분
AutoCode: 인간 문제 제작자의 작업 흐름을 반영하여 LLM이 경쟁 프로그래밍 문제를 작성하고 검증하는 새로운 AI 프레임워크

AutoCode는 LLM이 경쟁 프로그래밍 문제를 만들고 검증할 수 있는 새로운 AI 프레임워크로, UCSD, NYU, University of Washington, 등 다수의 연구진이 개발했다. 이 프레임워크는 인간의 문제 제작자의 작업 흐름을 본떠 LLM이 문제를 생성하고 검증할 수 있게 한다.

2025년 10월 18일 오전 4시 58분
시그모이드 스케일링 곡선이 LLMs에 대한 강화 학습 RL 후 훈련을 예측 가능하게 만듦

강화 학습 RL 후 훈련은 이제 추론 중심 LLMs에 대한 주요 수단이지만, 사전 훈련과 달리 예측 가능한 스케일링 규칙이 없었습니다. Meta, UT Austin, UCL, Berkeley, Harvard 등의 연구진이 시그모이드 스케일링 곡선을 도입하여 이 문제를 해결했습니다.

2025년 10월 17일 오후 10시 27분
문서에서 자동화된 파이프라인까지 통합 도구 오케스트레이션 프레임워크 구축하기

이 튜토리얼에서는 도구 문서를 표준화된 호출 인터페이스로 변환하고 중앙 시스템에 등록한 후 자동화된 파이프라인의 일부로 실행하는 효율적인 프레임워크를 구축하는 방법을 보여줍니다.

2025년 10월 17일 오후 6시 13분
바이두의 PaddlePaddle 팀, PaddleOCR-VL (0.9B) 출시: NaViT 스타일 + ERNIE-4.5-0.3B VLM을 통한 end-to-end 다국어 문서 구문 분석

바이두의 PaddlePaddle 팀이 PaddleOCR-VL을 출시했습니다. 이 모델은 다국어 문서를 Markdown/JSON으로 변환하는데 사용되며, 텍스트, 표, 수식, 차트, 필기체 등을 구문 분석하는 데 적합합니다.

2025년 10월 17일 오전 4시 28분
구글 AI, 복잡한 단일 세포 유전자 발현 데이터를 ‘셀 문장’으로 번역하는 C2S-Scale 27B 모델 발표

구글 AI 팀이 C2S-Scale 27B 모델을 발표했다. 이 모델은 270억 개의 매개변수를 갖춘 단일 세포 분석을 위한 모델로, 단일 세포 RNA-seq(scRNA-seq) 프로필을 ‘셀 문장’으로 형식화하여 언어 모델이 세포 상태를 자연스럽게 분석할 수 있게 했다.

2025년 10월 17일 오전 3시 42분
Qualifire AI, Rogue: 종단간 에이전틱 AI 테스팅 프레임워크 발표, AI 에이전트의 성능 평가

Qualifire AI가 Rogue를 공개했는데, 이는 AI 에이전트의 성능을 평가하는 파이썬 프레임워크로, 기존 QA 방법론의 한계를 극복하고 개발팀이 믿고 릴리스를 관리할 수 있도록 도와준다.

2025년 10월 17일 오전 3시 05분
AI-파워드 암호화 에이전트 시스템 구축을 위한 코딩 가이드: 하이브리드 암호화, 디지털 서명, 적응 보안 인텔리전스

이 튜토리얼에서는 고전적인 암호화의 강도와 적응적 인텔리전스를 결합한 AI-파워드 암호화 에이전트 시스템을 구축한다. RSA 및 AES를 사용한 하이브리드 암호화, 디지털 서명 생성, 메시지 패턴의 이상 감지, 키 회전 권장 등이 가능한 에이전트를 설계한다.

2025년 10월 17일 오전 2시 55분
Qualifire AI, Rogue: AI 에이전트의 성능, 준수 및 신뢰성을 평가하기 위해 설계된 종단간 에이전트 AI 테스트 프레임워크 공개 소스화

Qualifire AI가 Rogue를 오픈소스화했습니다. 이 프레임워크는 AI 에이전트를 평가하기 위해 설계되었으며 프로토콜 정확한 대화, 명시적 정책 확인, 기계 판독 가능한 증거를 제공하여 릴리스를 자신 있게 관리할 수 있습니다.

2025년 10월 16일 오후 2시 12분
QeRL: NVFP4-Quantized Reinforcement Learning (RL)가 32B LLM 트레이닝을 단일 H100으로 가져오면서 탐사 향상

NVIDIA 연구진은 MIT, HKU, Tsinghua과 협력하여 오픈소스 QeRL(Quantization-enhanced Reinforcement Learning)을 소개했다. 이 프레임워크는 4비트 FP4로 강화 학습(Reinforcement Learning) 후 훈련을 밀어넣는다.

2025년 10월 16일 오전 12시 28분
장기간 추론을 위한 메모리 압축 및 도구 사용과 함께하는 컨텍스트-폴딩 LLM 에이전트 구축

이 튜토리얼에서는 제한된 컨텍스트를 지능적으로 관리하여 복잡한 장기 과제를 효율적으로 해결하는 컨텍스트-폴딩 LLM 에이전트를 구축하는 방법을 탐구합니다. 큰 과제를 작은 하위 과제로 분해하고 필요할 때 추론 또는 계산을 수행한 다음 각 완료된 하위 궤적을 간결한 요약으로 접어 넣는 방식으로 에이전트를 설계합니다.

2025년 10월 15일 오후 9시 52분
Anthropic, 소넷-4 수준의 코딩 성능 제공하는 작은 AI 모델 ‘Claude Haiku 4.5’ 출시

Anthropic사가 Claude Haiku 4.5를 출시했다. Claude Sonnet 4와 유사한 코딩 성능을 제공하면서도 비용은 1/3, 속도는 2배 이상 빠르다. 이 모델은 Anthropic의 API 및 아마존 Bedrock, 구글 클라우드 Vertex AI 파트너 카탈로그를 통해 즉시 이용 가능하며, 가격은 $1/MTok 입력이다.

2025년 10월 15일 오후 1시 52분
Meta AI의 ‘Early Experience’는 보상 없이 언어 에이전트를 훈련하고 모방 학습을 능가합니다

Meta Superintelligence Labs가 제안한 ‘Early Experience’는 보상 없이 에이전트를 훈련하는 새로운 방법으로, 언어 에이전트의 정책 학습을 개선하며 모방 학습을 능가하는 것으로 나타났습니다.

2025년 10월 15일 오전 5시 32분
알리바바의 Qwen AI, FP8 체크포인트와 함께 Compact Dense Qwen3-VL 4B/8B 출시

알리바바의 Qwen 팀이 밀도 높은 Qwen3-VL 4B/8B 모델을 FP8로 축소한 Instruct와 Thinking 두 가지 프로필로 출시했다. VRAM을 적게 사용하면서도 256K→1M 컨텍스트와 전체 능력을 유지한다.

2025년 10월 14일 오후 10시 14분
안드레이 카르파시가 공개한 ‘nanochat’: 약 4시간 동안 약 100달러에 훈련할 수 있는 미니멀한 엔드투엔드 ChatGPT 스타일 파이프라인

안드레이 카르파시가 nanochat을 공개했다. 이는 하나의 멀티 GPU 노드에서 실행 가능한 ChatGPT 스타일 스택을 구현한 경량 코드베이스로, 토크나이저 훈련부터 웹 UI 추론까지를 지원한다. 단일 스크립트 “스피드런”을 제공하여 토큰화, 베이스 사전 훈련, 채팅/다중 선택/도구 사용 데이터에 대한 중간 훈련, 지도된 세부 튜닝(SFT), 선택적 강화 학습을 실행한다.

2025년 10월 14일 오후 1시 40분
고급 PyTest 코딩 구현으로 플러그인, 픽스처, JSON 보고서를 활용한 맞춤형 자동화 테스팅 구축

이 튜토리얼에서는 파이썬의 강력한 테스트 프레임워크 중 하나인 PyTest의 고급 기능을 탐구합니다. 픽스처, 마커, 플러그인, 매개변수화 및 사용자 정의 구성을 보여주는 완전한 미니 프로젝트를 처음부터 구축합니다. PyTest가 단순한 테스트 러너에서 현실 세계의 견고하고 확장 가능한 시스템으로 어떻게 진화하는지에 초점을 맞춥니다.

2025년 10월 14일 오후 12시 47분
NVIDIA 연구진, 강화 학습 사전 학습(RLP) 제안: 사전 학습 중 추론 구축을 위한 사전 학습 목적으로 강화 학습 제안

NVIDIA AI가 강화 학습 사전 학습(RLP)을 소개했습니다. 이는 후속 학습이 아닌 사전 학습 단계에서 강화 학습을 적용하는 교육 목표입니다. 강화 학습을 다음 토큰 예측 전에 샘플링된 작업으로 취급하고 정보 획득에 대한 보상으로 보상합니다.

2025년 10월 14일 오전 5시 55분
7 LLM 생성 매개변수 – 그들이 하는 일과 어떻게 조정하는가?

LLM 출력을 조정하는 것은 주로 디코딩 문제이다. 몇 가지 샘플링 컨트롤로 모델의 다음 토큰 분포를 형성하며, 맥스 토큰, 온도, 상위 p/핵, 상위 k, 빈도 및 존재 패널티 등을 조절할 수 있다.

2025년 10월 14일 오전 5시 05분
ServiceNow AI Research, 현실적인 기업 심층 연구 벤치마크 ‘DRBench’ 공개

ServiceNow의 연구팀이 DRBench를 공개했다. 이는 공개 웹과 기업 내부 데이터를 종합적으로 활용해 보고서 작성을 요구하는 기업과제에 대한 “심층 연구” 에이전트를 평가하기 위한 벤치마크 및 실행 환경이다. DRBench는 기업 스타일의 다양한 워크플로우를 구현하여 에이전트가 파일, 이메일, 채팅 로그, 클라우드 저장소를 검색, 필터링 및 속성을 할 수 있도록 한다.

2025년 10월 14일 오전 3시 40분
Ivy 프레임워크 객관적인 머신러닝 빌드, 변환 및 모든 주요 백엔드에서 벤치마크

Ivy는 다양한 프레임워크에서 머신러닝 개발을 통합하는 능력을 탐구하는 튜토리얼이다. NumPy, PyTorch, TensorFlow, JAX에서 매끄럽게 실행되는 프레임워크에 중립적인 신경망을 작성하고 코드 변환, 통합 API, Ivy 컨테이너 및 그래프 추적과 같은 고급 기능을 살펴본다.

2025년 10월 13일 오후 10시 37분
Meta의 ARE + Gaia2, 비동기, 이벤트 주도 조건 하에서 AI 에이전트 평가에 새로운 기준 제시

Meta AI가 Agents Research Environments (ARE)와 Gaia2를 소개했는데, ARE는 에이전트 작업을 만들고 실행하기 위한 모듈화된 시뮬레이션 스택이고, Gaia2는 GAIA의 후속 벤치마크로 동적인, 쓰기가능한 환경에서 에이전트를 평가한다. ARE은 응용 프로그램, 환경, 이벤트, 알림 및 시나리오에 대한 추상화를 제공하며, Gaia2는 ARE 상에서 실행되며 탐색 및 실행 이외의 능력에 초점을 맞춘다.

2025년 10월 13일 오후 10시 03분
마이크로소프트 AI가 MAI-Image-1을 선보여, LMArena의 Top-10에 진입

마이크로소프트 AI가 처음으로 개발한 이미지 생성 모델인 MAI-Image-1이 선보였다. 이 모델은 2025년 10월 13일 기준으로 LMArena 텍스트-이미지 리더보드 Top-10에 데뷔했다. 모델은 커뮤니티 피드백을 수집하기 위해 공개적으로 테스트 중이며, 마이크로소프트 AI 팀에 따르면 곧 공개될 예정이다.

2025년 10월 13일 오후 9시 31분
합성 데이터로 RAG 파이프라인을 평가하는 방법은?

LLM 애플리케이션을 평가하는 것은 중요하지만 종종 간과된다. 적절한 평가 없이 시스템의 검색기가 효과적인지, LLM의 답변이 출처에 근거한지(또는 환각인지), 그리고 컨텍스트 크기가 최적인지 확인하는 것은 거의 불가능하다.

2025년 10월 13일 오후 5시 32분
SwiReasoning: 추론 LLM을 위한 잠재적 및 명시적 사고 체인의 엔트로피 주도 교대

SwiReasoning은 추론 LLM이 다음 토큰 분포의 엔트로피 추세를 기반으로 블록 단위 신뢰도를 추정하여 잠재 공간에서 생각할지 명시적 사고 체인을 쓸지 결정할 수 있는 디코딩 시간 프레임워크다. 이 방법은 훈련 없이 모델에 대해 Pareto-우수한 정확도/효율성 트레이드오프를 목표로 하며, 수학 및 STEM 벤치마크에서 +1.5%~2.8% 평균 정확도 향상을 보여준다.

2025년 10월 13일 오전 3시 24분
구글, 음성 쿼리를 텍스트 변환 없이 바로 임베딩으로 매핑하는 Speech-to-Retrieval (S2R) 방식 소개

구글 AI 연구팀이 음성 검색 분야에 Speech-to-Retrieval (S2R)를 도입하여 음성 쿼리를 텍스트로 변환하지 않고 바로 임베딩에 매핑하고 정보를 검색하는 혁신적인 방법을 소개했다. S2R은 클래식한 연쇄 모델링 접근 방식의 오류 전파를 타겟팅하는 구조적이고 철학적인 변화를 목표로 한다.

2025년 10월 12일 오후 10시 09분
파이썬에서 안전한 AI 에이전트의 코딩 구현: 자가 감사 가드레일, 개인정보 비식별화, 안전한 도구 액세스

이 튜토리얼에서는 파이썬을 사용하여 실제로 AI 에이전트를 안전하게 보호하는 방법을 탐구합니다. 데이터 및 도구와 상호 작용할 때 안전 규칙을 준수하는 지능적이고 책임감 있는 에이전트를 구축하는 데 초점을 맞춥니다. 입력 살균, 프롬프트 주입 탐지, 개인 식별 정보 비식별화, URL 허용 목록, 속도 제한 등 여러 보호층을 구현합니다.

2025년 10월 12일 오후 9시 34분
AI 엔지니어가 알아야 할 가장 인기 있는 에이전트 AI 디자인 패턴 5가지

AI 에이전트가 간단한 챗봇을 넘어 발전함에 따라, 더 강력하고 적응 가능하며 지능적인 디자인 패턴이 등장했습니다. 이러한 에이전트 디자인 패턴은 실제 세계 환경에서 복잡한 문제를 해결하기 위해 에이전트가 어떻게 생각하고 행동하며 협업하는지를 정의합니다.

2025년 10월 12일 오후 2시 41분
Sentient AI가 ROMA를 공개: 계층적 작업 실행을 통해 AI 에이전트를 구축하는 AGI 중심의 메타 에이전트 프레임워크

Sentient AI가 고성능의 다중 에이전트 시스템을 구축하기 위한 오픈 소스 메타 에이전트 프레임워크 ROMA를 공개했다. ROMA는 복잡한 목표를 하위 작업으로 분해하고 하위 노드로 전달하여 솔루션을 집계하는 계층적 작업 트리로 에이전트 워크플로우를 구조화한다.

2025년 10월 12일 오전 2시 08분
Lightly AI를 활용한 효율적인 데이터 정리와 액티브 러닝을 위한 자기 지도 학습 마스터하기 코딩 가이드

이 자습서에서는 Lightly AI 프레임워크를 사용하여 자기 지도 학습의 힘을 탐구합니다. 레이블 없이 의미 있는 이미지 표현을 학습하는 SimCLR 모델을 구축한 다음 UMAP와 t-SNE을 사용하여 임베딩을 생성하고 시각화합니다. 데이터를 지능적으로 정리하기 위한 코어셋 선택 기술로 진입하고 액티브 러닝 워크플로를 시뮬레이션합니다.

2025년 10월 11일 오후 7시 14분
오픈TSLM 만나보기: 의료 시계열 분석을 혁신하는 시계열 언어 모델(TSLMs) 패밀리

스탠포드 대학의 연구진과 ETH 취리히, Google Research, Amazon과의 협업으로 새로운 시계열 언어 모델인 OpenTSLM이 소개되었다. 이 모델은 현재의 LLMs의 한계를 극복하여 의료 분석에 혁신을 가져오고 있다.

2025년 10월 11일 오후 6시 47분
Liquid AI, 8.3B 매개변수와 토큰 당 1.5B 활성 매개변수를 갖는 온디바이스 Mixture-of-Experts인 LFM2-8B-A1B를 출시

Liquid AI가 온디바이스 실행을 위해 만들어진 소형 Mixture-of-Experts 모델인 LFM2-8B-A1B를 출시했다. 클라우드 배치 서빙용이 아닌 이 모델은 폰에 최적화되어 있어 메모리, 지연 및 에너지 예산을 엄격하게 고려하며 작동한다.

2025년 10월 11일 오전 12시 54분
메타 슈퍼인텔리전스 랩의 메타임베드, 다중모달 임베딩 재고 및 유연한 후기 상호작용으로 테스트 시간 스케일링 가능

Meta Superintelligence Labs의 MetaEmbed는 다중모달 검색을 위한 후기 상호작용 레시피로, 서빙 시간에 학습 가능한 메타 토큰의 수를 선택함으로써 정확도, 지연 시간 및 인덱스 크기를 조정할 수 있게 합니다.

2025년 10월 10일 오후 3시 06분
Agentic Context Engineering (ACE): Self-Improving LLMs via Evolving Contexts, Not Fine-Tuning

스탠포드 대학교, SambaNova Systems, UC 버클리에서 연구진이 소개한 ACE 프레임워크는 LLM 성능을 향상시키는데 모델 가중치를 업데이트하는 대신 입력 컨텍스트를 편집하고 확장함으로써 작동합니다. 컨텍스트는 Generator, Reflector, Curator 세 가지 역할에 의해 유지되며 간결성 편향을 피하기 위해 작은 델타 항목이 점진적으로 병합됩니다.

2025년 10월 10일 오전 7시 37분
구글, 광고 데이터에 대한 LLM-Native 액세스를 제공하는 Google Ads API용 MCP 서버 오픈 소스화

구글은 Model Context Protocol (MCP) 서버를 오픈소스로 공개했는데, 이를 통해 에이전틱 및 LLM 애플리케이션이 Google Ads API에 대한 읽기 전용 액세스를 얻을 수 있다. Python으로 구현된 googleads/google-ads-mcp 레포지토리는 GAQL 쿼리를 통한 광고 계정 검색 및 고객 리소스 열거를 지원한다.

2025년 10월 10일 오전 5시 34분
‘컴퓨터 사용 에이전트’란? 웹에서 OS로 – 기술 설명서

컴퓨터 사용 에이전트는 수정되지 않은 소프트웨어에서 사용자처럼 작동하는 VLM 주도 UI 에이전트이다. OSWorld의 기준선은 12.24% (인간 72.36%)에서 시작해, Claude Sonnet 4.5는 현재 61.4%를 보고한다. Gemini 2.5 컴퓨터 사용은 여러 웹 벤치마크에서 선두를 달리고 있지만 아직 OS에 최적화되지 않았다. 다음 단계는 OS 수준의 강건성, 하위 초 반응 루프 등에 중점을 두고 있다.

2025년 10월 10일 오전 3시 58분
마이크로소프트 리서치, Skala 발표: 반 하이브리드 수준 정확도를 목표로 한 딥러닝 교환-상관 기능

Skala는 Kohn-Sham 밀도 기능 이론(DFT)을 위한 딥러닝 교환-상관 기능으로, 반 하이브리드 수준 정확도를 반 공간 비용에서 달성한다. W4-17에서 MAE는 약 1.06 kcal/mol(단일 참조 하위집합에서 0.85), WTMAD-2는 약 3.89 kcal/mol이다. 주요 분자화학에 적합하며 D3(BJ) 분산 보정을 사용한다.

2025년 10월 10일 오전 12시 51분
Tiny Recursive Model (TRM): DeepSeek-R1, Gemini 2.5 pro, o3-mini를 능가하는 Tiny 7M 모델

삼성 SAIT가 발표한 Tiny Recursive Model (TRM)은 2층 구조의 약 7백만 파라미터 재귀 추론기로, ARC-AGI-1에서 44.6-45%의 테스트 정확도와 ARC-AGI-2에서 7.8-8%의 결과를 보여 더 큰 언어 모델인 DeepSeek-R1, o3-mini-high 등을 능가했다.

2025년 10월 9일 오후 2시 00분