2026년 6월 21일 일요일
오늘의 신문
2026년 6월 21일 일요일 오늘의 신문
세일즈포스 코드젠을 활용한 엔드 투 엔드 워크플로우를 구현하는 방법을 소개합니다. 함수 추출, 구문 검사, 정적 안전 점검, 유닛 테스트 검증 등을 포함합니다.
2026년 6월 18일 오후 10시 44분
퍼플렉시티가 자가 개선 메모리 시스템인 '브레인'을 출시했습니다. 이 시스템은 에이전트의 작업을 기억하며, 성과와 실패를 분석해 개선합니다.
2026년 6월 18일 오후 4시 26분
KV 캐시가 긴 컨텍스트에서 모델 가중치를 초과하는 상황에서 TurboQuant, OSCAR, EpiCache가 메모리 병목 현상을 해결하기 위해 각기 다른 접근 방식을 취하고 있습니다. 이들은 경쟁보다는 상호 보완적인 관계에 있습니다.
2026년 6월 18일 오전 5시 14분
OpenAI가 생명과학 연구를 평가하는 750개 작업으로 구성된 LifeSciBench를 발표했습니다. 이 벤치마크는 173명의 박사 과학자들이 작성한 기준을 바탕으로 AI 모델의 추론과 결정을 평가합니다.
2026년 6월 17일 오후 10시 28분
이 튜토리얼에서는 NVIDIA SkillSpector를 사용하여 배포 전 AI 기술의 보안 위험을 평가하는 방법을 소개합니다. 양호한 기술과 의도적으로 취약한 기술을 구축하고, SkillSpector의 LangGraph 워크플로우를 통해 스캔합니다.
2026년 6월 17일 오후 9시 35분
Vercel이 Apache-2.0 라이선스의 오픈소스 AI 에이전트 프레임워크 'Eve'를 공개했다. 각 에이전트는 기능에 맞춰 파일 디렉토리로 구성되어 있다.
2026년 6월 17일 오후 1시 22분
MiniMax가 새로운 희소 주의 메커니즘인 MSA를 발표했습니다. 이 기술은 쿼리당 상위 k 개의 키-값 블록을 선택하여 계산량을 28.4배 줄이는 데 성공했습니다.
2026년 6월 17일 오전 3시 44분
OpenAI가 2026년 6월 16일 배포 시뮬레이션을 도입했습니다. 이 방법은 새로운 모델 출시 전 과거 대화를 재생하여 배포 시 원치 않는 행동의 비율을 추정합니다.
2026년 6월 17일 오전 1시 49분
xFormers를 이용해 메모리 효율적인 트랜스포머 모델을 구축하는 방법을 소개합니다. GPU에서 빠르고 효율적인 모델을 구현하며, 다양한 기술적 요소를 검토합니다.
2026년 6월 16일 오후 8시 02분
Qwen 팀의 새로운 Qwen-RobotSuite는 조작, 비디오 세계 모델링, 내비게이션을 위한 세 가지 AI 모델을 포함합니다. 각 모델의 구조와 데이터 파이프라인, 벤치마크 결과를 살펴봅니다.
2026년 6월 16일 오후 12시 51분
헤르메스 에이전트가 비동기 서브 에이전트를 도입하여 위임된 작업이 부모 채팅을 차단하지 않도록 개선했습니다. 새로운 도구 세트를 통해 작업을 생성하고 관리하는 방법을 소개합니다.
2026년 6월 16일 오전 5시 21분
'Meet Atoms'는 개발자나 소프트웨어 엔지니어가 아니더라도 아이디어를 AI에게 설명하면 앱을 구축하고 배포할 수 있는 노코드 도구입니다.
2026년 6월 16일 오전 4시 50분
구글 클라우드가 AI 에이전트를 위한 개방형 지식 포맷(OKF)을 소개했습니다. 이 포맷은 마크다운 파일과 YAML 프론트매터로 구성된 디렉토리를 통해 AI에 필요한 맥락을 제공합니다.
2026년 6월 16일 오전 4시 18분
이 튜토리얼에서는 Docling Parse를 사용하여 PDF 문서를 구조적으로 분석하는 워크플로우를 구축하는 방법을 소개합니다. Python 환경 설정부터 PDF 생성, 데이터 추출까지의 과정을 다룹니다.
2026년 6월 16일 오전 3시 20분
사카나 AI의 첫 상용 제품인 사카나 마를린은 최대 8시간 동안 자율적으로 작동하며, AB-MCTS와 AI 과학자 워크플로우를 기반으로 다수의 페이지로 구성된 보고서와 슬라이드를 생성합니다.
2026년 6월 15일 오후 6시 32분
Flash-KMeans는 Triton GPU 커널을 활용한 오픈소스 IO 인식 K-평균 구현체로, 기존의 수학적 접근을 변경하지 않고도 FAISS보다 200배 빠른 성능을 자랑합니다.
2026년 6월 15일 오전 5시 16분

최신뉴스 전체보기

구글, AI 에이전트에 대한 76페이지 화이트페이퍼 발표: 에이전트 RAG, 평가 프레임워크, 현실 세계 아키텍처에 대한 심층 기술 탐구

구글이 AI 에이전트 시스템 개발 전문가를 위한 76페이지 화이트페이퍼를 발표했다. 에이전트 평가, 다중 에이전트 협업, RAG의 진화 등에 중점을 두고 에이전트를 대규모로 운영하는 데 초점을 맞췄다.

2025년 5월 6일 오후 1시 29분
NVIDIA, 파라킷 TDT 0.6B 공개: 음성인식에서 새로운 표준 세우며 오디오 1시간을 1초에 전사

NVIDIA가 파라킷 TDT 0.6B를 공개했다. 이는 6억 개의 파라미터, 상용 허용 라이센스, 놀라운 실시간 요소 (RTF) 3386을 가지고 있어 음성 AI의 성능과 접근성에서 새로운 기준을 세우고 있다.

2025년 5월 6일 오전 1시 47분
OpenAI, 기업 AI 도입을 위한 전략가이드 발표: 현장의 실용적인 교훈

OpenAI가 대규모 AI 배포의 복잡성을 탐색하는 기업을 위한 실용적인 프레임워크를 제시한 ‘AI in the Enterprise’ 24페이지 문서를 발표했다. 보고서는 추상적인 이론보다는 Morgan Stanley, Klarna, Lowe’s, Mercado Libre와의 협업을 통해 얻은 경험을 기반으로한 일곱 가지 실행 전략을 제시한다.

2025년 5월 5일 오후 11시 29분
구글 코랩을 사용하여 그라디오를 이용해 세 가지 안정성 AI 확산 모델(v1.5, v2-베이스 및 SD3-중급)의 확산 능력을 나란히 비교하는 코딩 가이드

구글 코랩과 그라디오 인터페이스를 활용해 안정성 AI의 세 가지 확산 모델을 비교하고 창의적인 이미지 생성하는 방법을 알아본다. 세 강력한 파이프라인을 비교하고 빠른 프롬프트 반복과 GPU 가속을 경험할 수 있다.

2025년 5월 5일 오후 7시 48분
AI 에이전트가 기억을 저장, 잊고, 검색하는 방법? 다음 세대 LLM을 위한 메모리 작업에 대한 새로운 시선

LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.

2025년 5월 5일 오후 7시 26분
8개의 포괄적인 오픈 소스 및 호스팅 솔루션으로 어떤 API든 AI-ready MCP 서버로 원활하게 변환하기

MCP는 AI 에이전트가 일관된 인터페이스를 통해 외부 서비스와 상호 작용할 수 있는 신흥 오픈 표준이다. API마다 사용자 정의 통합을 작성하는 대신, MCP 서버는 클라이언트 AI가 동적으로 발견하고 호출할 수 있는 일련의 도구를 노출한다. 이러한 분리는 API 제공업체가 진화할 수 있음을 의미한다.

2025년 5월 5일 오후 4시 11분
RWKV-X가 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 효율적인 1백만 토큰 디코딩 가능

Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.

2025년 5월 5일 오후 2시 09분
모델 컨텍스트 프로토콜 (MCP)이 AI 에이전트 도구 호출을 표준화, 간소화하고 미래를 대비하는 방법

MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.

2025년 5월 5일 오전 1시 56분
수학을 넘어 강화 학습 확장: NVIDIA AI 및 CMU 연구진, 다중 도메인 추론을 위한 Nemotron-CrossThink 제안

대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.

2025년 5월 5일 오전 1시 31분
다중 모달 쿼리에는 다중 모달 RAG가 필요합니다: KAIST와 DeepAuto.ai 연구원들이 정확하고 효율적인 검색 증강 생성을 위해 모달과 세분성을 동적으로 경로 지정하는 UniversalRAG라는 새로운 프레임워크를 제안합니다

KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.

2025년 5월 4일 오후 11시 33분
Agno의 다중 에이전트 팀 프레임워크를 활용한 종합 시장 분석 및 리스크 보고서용 AI 에이전트 구축

급변하는 금융 환경에서는 전문화된 AI 에이전트를 활용하여 분석의 각 부분을 처리하는 것이 중요하며, Agno의 가벼운 모델에 중립적인 프레임워크는 Finance Agent와 Risk Assessment Agent와 같은 특정 에이전트를 신속하게 구축할 수 있도록 개발자에게 권한을 부여합니다.

2025년 5월 4일 오후 4시 27분
구글 연구진, 진단 AI 발전: AMIE가 Gemini 2.0 Flash와의 다중모달 추론을 사용해 주치의를 능가

구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.

2025년 5월 4일 오후 4시 00분
Meta AI, Llama 모델용 프롬프트 최적화를 위한 Python 툴킷 ‘Llama Prompt Ops’ 출시

Meta AI가 Llama 모델에 맞게 프롬프트를 최적화하는 과정을 간편화하는 Python 패키지 ‘Llama Prompt Ops’를 출시했다. 이 오픈소스 도구는 다른 대형 언어 모델과 잘 작동하는 입력을 Llama에 최적화된 형태로 변환하여 개발자와 연구자가 프롬프트 효과를 향상시키는 데 도움을 준다.

2025년 5월 4일 오전 12시 20분
Claude 데스크톱을 Tavily AI 및 Smithery를 활용한 실시간 웹 검색 및 콘텐츠 추출에 연결하는 단계별 튜토리얼

Claude 데스크톱을 Tavily AI의 Model Context Protocol (MCP) 서버와 Smithery 클라이언트를 사용하여 실시간 웹 검색 및 콘텐츠 추출 기능에 연결하는 방법에 대한 실습 튜토리얼. Tavily 홈페이지 및 대시보드를 살펴보고 개발자 API 키를 생성한 후 Tavily MCP 서버를 탐색하는 과정 포함.

2025년 5월 3일 오후 11시 53분
IBM AI, 그랜ite 4.0 Tiny 미리보기 공개: 긴 문맥과 지시 작업에 최적화된 콤팩트 오픈 언어 모델

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

2025년 5월 3일 오후 9시 36분
Vision Foundation Models: 구현과 비즈니스 응용

이 튜토리얼에서는 비즈니스 응용을 위해 다양한 비전 기반 모델을 구현하는 방법을 탐색합니다. 이론적 측면보다는 실용적인 코드 구현, 기술적 세부사항, 비즈니스 사례에 중점을 둘 것입니다.

2025년 5월 3일 오후 3시 59분
규모의 감독은 보장되지 않습니다: MIT 연구진, 새로운 Elo 기반 프레임워크로 중첩 AI 감독의 취약성 측정

인공 일반 지능(AGI)으로 나아가는 최첨단 AI 기업들은 강력한 시스템이 조절 가능하고 유익하게 유지되도록 보장하는 기술이 필요하다. 이에 대한 주요 접근 방식은 Recursive Reward Modeling, Iterated Amplification 및 Scalable Oversight와 같은 방법을 포함한다. 이들은 약한 시스템이 강력한 시스템을 효과적으로 감독할 수 있도록 하는 것을 목표로 한다.

2025년 5월 3일 오후 3시 44분
LLMs가 이제 병렬로 추론할 수 있습니다: UC 버클리 및 UCSF 연구진, 콘텍스트 창을 초과하지 않고 추론을 효율적으로 확장하기 위해 적응적 병렬 추론 소개

대형 언어 모델(LLMs)은 새로운 방식의 추론 능력을 갖고 있으며, UC 버클리 및 UCSF 연구진은 적응적 병렬 추론을 도입하여 추론을 효율적으로 확장하고 콘텍스트 창을 초과하지 않도록 했다. 현재 방법론은 긴 출력 순서를 생성하여 지연 시간과 효율성에 위험을 초래한다.

2025년 5월 3일 오전 2시 00분
Airbnb 및 Excel MCP 서버 구현하기

이 튜토리얼에서는 Airbnb와 Excel을 통합하는 MCP 서버를 구축하고, Cursor IDE와 연결합니다. 자연어를 사용하여 특정 날짜 범위와 위치에 대한 Airbnb 목록을 가져와 자동으로 Excel 파일에 저장할 수 있습니다.

2025년 5월 3일 오전 1시 42분
LLMs는 한 예제로부터 복잡한 수학을 배울 수 있습니다: 워싱턴 대학, 마이크로소프트, USC의 연구진들이 1회 강화 학습과 검증 가능한 보상으로 강력한 성능 발휘

최근 LLMs의 발전으로 OpenAI-o1, DeepSeek-R1, Kimi-1.5 등이 복잡한 수학적 추론 작업에서 성능을 크게 향상시켰다. 규칙 기반 보상을 사용하는 강화 학습은 이러한 개선에 중요한 역할을 한다. 최종 결과물을 향상시키는 RLVR은 모델의 문제 해결 방법이 올바른지를 나타내는 바이너리 신호를 일반적으로 사용한다.

2025년 5월 3일 오전 1시 28분
Zapier AI-Powered Cursor Agent를 구축하여 Model Context Protocol (MCP) Server를 사용하여 Gmail 메시지 읽기, 검색 및 전송하기

MCP와 Zapier AI의 파워를 이용하여 복잡한 코딩 없이 Cursor에서 반응형 이메일 에이전트를 구축하는 방법을 배웁니다. MCP 커넥터를 구성하여 Cursor와 Zapier AI를 연결하고 Gmail 계정을 연결하며, 읽기, 검색, 전송을 위한 의도를 정의합니다.

2025년 5월 2일 오후 5시 13분
AI 에이전트가 여기에 있습니다 – 위협도 함께: Unit 42가 최상위 10개 AI 에이전트 보안 위험을 발표했습니다

AI 에이전트가 실험적 시스템에서 상용 규모 응용프로그램으로 전환되면서 그들의 증가하는 자율성은 새로운 보안 도전 과제를 도입하고 있습니다. Palo Alto Networks의 Unit 42가 발표한 “AI 에이전트가 여기에 있습니다 – 위협도 함께”라는 포괄적인 보고서에서, 오늘날의 에이전틱 아키텍처는 혁신에도 불구하고 다양한 공격에 취약하며, 대부분 이는 […]

2025년 5월 2일 오후 4시 39분
이미지 평가가 더 간단해진다: Google 연구원들이 비싼 API 없이 텍스트 정렬과 주제 일관성을 동시에 점수화하는 REFVNLI를 소개

Google 연구원들은 REFVNLI를 소개하여 텍스트 프롬프트와 함께 참조 이미지를 통합하는 표준 T2I 모델을 강화하는 주제 중심의 방법을 통해 텍스트-이미지(T2I) 생성을 강화했다. 현재의 메트릭은 주로 텍스트 프롬프트에 초점을 맞추거나 주제 중심 T2I 생성에 대한 신뢰할 수 있는 자동 평가 방법이 부족한 도전에 직면하고 있다.

2025년 5월 2일 오후 3시 57분
ELIZA에서 대화 모델링으로: 대화형 AI 시스템과 패러다임의 진화

ELIZA의 간단한 규칙 기반 시스템에서 현재의 정교한 플랫폼으로 대화형 AI가 발전해왔다. 이 과정은 80년대부터 90년대의 스크립트 봇, 2010년대의 Rasa와 같은 ML-규칙 하이브리드 프레임워크를 거쳐 2020년대의 혁명적인 대형 언어 모델로 이어져 자연스러운 대화를 가능케 했다. 현재는 Parlant와 같은 최첨단 대화 모델링 플랫폼이 주류다.

2025년 5월 2일 오후 2시 08분
JetBrains, 개발자 중심 언어 모델 Mellum 오픈 소스화

JetBrains가 소프트웨어 개발 작업에 특화된 40억 파라미터 언어 모델인 Mellum을 오픈 소스로 공개했다. Mellum은 실용성을 갖춘 도메인 전용 모델로, 코드베이스와 프로그래밍 환경에서 활용되도록 훈련되었다. JetBrains는 Apache 2.0 라이선스 하에 Hugging Face에서 이 모델을 공개하며 개발자들에게 확장성을 제공한다.

2025년 5월 2일 오전 3시 43분
Meta와 부즈 앨런, 우주 산양 배치: 온보드 의사 결정을 위해 국제우주정거장으로 향하는 오픈소스 AI

Meta와 부즈 앨런이 Meta의 오픈소스 대형 언어 모델 ‘Llama 3.2’의 맞춤형 인스턴스인 Space Llama을 국제우주정거장(ISS) 미국 국립 연구소에 배치했다. 이는 우주에서 자율 AI 시스템을 가능하게 하는 중요한 한걸음이며, LLM의 실용적인 통합 사례 중 하나로 주목받고 있다.

2025년 5월 2일 오전 3시 00분
LLM 에이전트 훈련이 더 안정화: StarPO-S와 RAGEN 소개로 다중 턴 추론과 강화 학습 붕괴 대응하는 연구진

대형 언어 모델(Large language models, LLM)이 상호작용 환경에서 자율 에이전트로 훈련받을 때 중요한 도전에 직면하고 있다. 순차적 의사 결정, 교차 턴 메모리 유지, 환경적 피드백에 대한 적응 등이 필요한데, 이는 효과적인 계획 보조자, 로봇 응용 프로그램, 경험을 통해 자가 개선할 수 있는 지도 에이전트 개발에 중요하다. 이에 연구진은 StarPO-S와 RAGEN을 도입하여 이러한 도전을 대응하고 있다.

2025년 5월 2일 오전 2시 31분
Xiaomi, 더 강력한 수학 및 코드 추론 능력을 갖춘 소형 언어 모델 MiMo-7B 발표

MiMo-7B는 더 큰 모델보다 더 우수한 수학 및 코드 추론 능력을 갖추고, 사전 훈련과 강화 학습을 통해 개발되었다. 인간 지능에서 독점적으로 여겨졌던 추론 능력이 이제 보다 효율적이고 널리 사용 가능한 소형 모델에서도 활발히 연구되고 있다.

2025년 5월 2일 오전 12시 03분
Fireworks AI와 LangChain을 사용하여 데이터를 가져오고 BigQuery SQL을 생성하며 대화 기억을 유지하는 REACT-스타일 에이전트 구축

이 튜토리얼에서는 Fireworks AI의 기능을 활용하여 LangChain과 함께 지능적인 도구 기능을 갖춘 에이전트를 구축하는 방법을 살펴볼 것이다. langchain-fireworks 패키지 설치부터 Fireworks API 키 구성, 높은 성능의 llama-v3-70b-instruct 모델을 사용한 ChatFireworks LLM 인스턴스 설정, LangChain의 에이전트 프레임워크와 통합까지 진행할 것이다.

2025년 5월 1일 오후 11시 19분
AI 에이전트 프로토콜에 대한 기술적 탐구: 확장 가능한 인공지능 시스템에서의 역할

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.

2025년 5월 1일 오후 10시 53분
DeepSeek-AI가 DeepSeek-Prover-V2를 발표: 공식 이론 증명을 위한 대형 언어 모델, 서브 골 분해 및 강화 학습을 통해

DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.

2025년 5월 1일 오후 3시 54분
Salesforce AI 연구, 신뢰할 수 있고 능력 있는 AI 에이전트를 발전시키기 위한 새로운 벤치마크, 가드레일 및 모델 아키텍처 소개

Salesforce AI 연구가 더 지능적이고 신뢰할 수 있으며 다재다능한 AI 에이전트를 구축하기 위한 포괄적인 로드맵을 제시했습니다. 이 최근 이니셔티브는 현재 AI 시스템의 기초적인 한계를 해결하기 위해 초점을 맞추고 있으며, 특히 불일치한 작업 성능, 강건성의 부족, 그리고 복잡한 기업 워크플로에 적응하는 데 어려움이 있는 부분에 초점을 맞추고 있습니다.

2025년 5월 1일 오후 1시 51분
Meta AI, Llama 4-Powered AI 앱 첫 버전 공개: ChatGPT와 경쟁할 독립형 AI 어시스턴트

Meta가 Llama 4로 구동되는 새 AI 앱을 출시했다. 이 앱은 ChatGPT와 경쟁하기 위해 더 개인화된 AI 경험을 제공하며, 소셜적으로 통합된 기능을 갖추고 있다.

2025년 5월 1일 오후 1시 32분
Microsoft AI가 Phi-4-Reasoning을 공개: 복잡한 추론 작업에서 강력한 성능을 발휘하는 14B 파라미터 오픈웨이트 추론 모델

Microsoft이 공개한 Phi-4-Reasoning은 복잡한 추론 작업에 강력한 성능을 보이는 14B 파라미터 오픈웨이트 추론 모델이다. 대규모 언어 모델의 발전에도 불구하고, 수학 문제 해결, 알고리즘 계획, 코딩과 같은 추론 집중 작업에 대한 효율적인 성능은 여전히 모델 크기, 교육 방법론, 추론 시간 능력으로 제한되어 있다.

2025년 5월 1일 오전 2시 53분
Meta AI, 효율성과 RAG 성능 최적화를 위한 ReasonIR-8B 소개

Meta AI가 ReasonIR-8B를 소개했다. 이는 효율성과 RAG 성능을 최적화한 추론 중심의 검색기다. 현재 대부분의 검색기는 짧은 사실성 질문 데이터셋으로 훈련되어 있어 복잡한 다단계 추론 작업에 대한 정보를 검색하는 것이 여전히 어려운 도전으로 남아있다.

2025년 5월 1일 오전 2시 21분
Dappier AI의 실시간 검색 및 추천 도구를 OpenAI의 챗 API와 통합하는 단계별 코딩 가이드

Dappier AI의 실시간 검색 및 추천 도구를 활용하여 대화형 애플리케이션을 향상시키는 방법을 배우는 튜토리얼. RealTimeSearchTool과 AIRecommendationTool을 결합하여 웹에서 최신 정보를 조회하고 사용자 정의 데이터 모델에서 개인화된 기사 제안을 제공할 수 있음.

2025년 4월 30일 오후 10시 14분
개발자 GPU에서의 다중 모달 AI: 알리바바, VRAM 사용량 50% 감소 및 거의 7B 모델 성능을 달성한 Qwen2.5-Omni-3B 출시

알리바바가 Qwen2.5-Omni-3B를 발표했다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등을 포함한 시스템을 가능하게 하는 다중 모달 기반 모델로, VRAM 사용량이 50% 감소하고 거의 7B 모델 성능을 보여준다.

2025년 4월 30일 오후 6시 18분
Mem0: 장기 AI 대화를 위한 지속적이고 구조화된 기억을 가능하게 하는 확장 가능한 메모리 아키텍처

대형 언어 모델은 정보를 유지하는 데 어려움을 겪지만, Mem0는 장기적인 참여가 필요한 응용 프로그램에 통합될 때 더욱 중요해집니다. Mem0는 구조적인 기억을 유지하며 여러 세션에 걸쳐 정보를 지속적으로 보관하는 확장 가능한 메모리 아키텍처입니다.

2025년 4월 30일 오후 3시 51분
Sparse Frontier 탐색: 에든버러, Cohere 및 Meta 연구진이 장기 컨텍스트 LLM을 위한 어텐션 메커니즘 재고

트랜스포머 기반 LLM의 능력 향상을 위해 희소 어텐션은 중요하며, 연구진들은 장기 시퀀스 다루기 위해 어텐션 메커니즘을 재고 중. 표준 자기 어텐션 메커니즘은 시퀀스 길이에 따라 계산 비용이 기하급수적으로 증가하는 문제를 개선하기 위한 노력 진행 중.

2025년 4월 30일 오후 3시 44분
LLM 에이전트의 장애 진단과 자가 수정: Atla의 EvalToolbox를 활용한 τ-Bench 결과에 대한 기술적 심층 탐구

대규모 언어 모델(LLM) 기반 에이전트를 운영 환경에 배치하면 종종 신뢰성 문제가 발생한다. 에이전트의 실패 원인을 정확히 식별하고 선행적인 자가 수정 메커니즘을 구현하는 것이 중요하다. Atla의 최근 분석에 따르면, τ-Bench 벤치마크에서 얻은 세부적인 인사이트는 에이전트의 실패에 대해 전통적인 집계 성공 지표를 넘어 Atla의 EvalToolbox 접근법을 강조한다.

2025년 4월 30일 오후 1시 02분
AI 열풍 너머: 모든 창업 창립자가 읽어야 할 구글의 실용적 AI 가이드

2025년, AI는 창업 기업이 구축, 운영 및 경쟁하는 방식을 혁신하고 있습니다. 구글의 ‘미래 AI: 창업을 위한 전망’ 보고서는 인프라 리더, 창업 창립자 및 벤처 캐피탈 파트너의 통찰을 바탕으로 종합적인 로드맵을 제시합니다. AI는 접근성이 높아지고 있지만 신중한 응용과 장기적인 관점이 속도보다 중요하다는 실용적인 메시지를 전합니다.

2025년 4월 30일 오전 3시 49분
Google NotebookLM, 50개 이상 언어로 음성 요약 기능 제공하여 AI 요약의 전 세계적 접근성 확대

Google의 실험적 AI 도구인 NotebookLM이 50개 이상의 언어로 음성 요약 기능을 추가하여 글로벌 콘텐츠 접근성을 크게 향상시켰다. 초기에는 영어를 지원했던 NotebookLM이 전 세계 관객을 위해 훨씬 포괄적이고 다재다능한 플랫폼으로 진화하고 있다.

2025년 4월 30일 오전 3시 33분
exa-mcp-server 및 Claude Desktop를 사용하여 Model Context Protocol MCP를 활용하여 어떤 LinkedIn 프로필이든 원활하게 액세스하는 방법에 대한 자습서

exa-mcp-server와 Claude Desktop의 파워를 활용하여 LinkedIn 페이지에 프로그래밍적으로 액세스하는 방법을 배웁니다. Model Context Protocol의 가벼운, 고성능 구현을 제공하는 exa-mcp-server는 Claude Desktop이 HTTP 요청을 발행하고 필요에 따라 원시 HTML 또는 구조화된 데이터를 반환할 수 있게 합니다.

2025년 4월 30일 오전 3시 04분
코딩 에이전트가 자체적으로 개선될 수 있을까? 브리스톨 대학과 iGent AI 연구진, SICA (Self-Improving Coding Agent) 제안

브리스톨 대학과 iGent AI 연구진이 자체 코드와 성능을 반복적으로 향상시키는 SICA(자체 개선 코딩 에이전트)를 제안했다. 현재 대부분의 에이전트 시스템은 고정된 수동 조작 전략에 의존하고 있어 새로운 작업과 환경에 적응하는 능력이 제한되는데, SICA는 이러한 제한을 극복하고 있다.

2025년 4월 30일 오전 2시 31분
이메일 에이전트를 위한 강화 학습: OpenPipe의 ART·E가 정확도, 응답 시간 및 비용에서 o3를 능가

OpenPipe는 ART·E (이메일 자율 검색 도구)를 소개했는데, 이는 인박스 내용을 기반으로 사용자 질문에 답변하는 데 중점을 둔 오픈소스 연구 에이전트로, 정확성, 응답성 및 계산 효율성에 초점을 맞추고 있다. ART·E는 강화 학습을 통해 대형 언어 모델 에이전트를 튜닝하여 전문화된, 고 신호 사용 사례에 적합성을 증명하고 있다.

2025년 4월 29일 오후 8시 07분
Gemini를 사용하여 사용자 정의 모델 컨텍스트 프로토콜 (MCP) 클라이언트 만드는 방법

본 튜토리얼에서는 Gemini를 사용하여 사용자 정의 MCP 클라이언트를 구현하는 방법을 안내합니다. 이를 통해 AI 애플리케이션을 MCP 서버에 연결하여 프로젝트를 강화하는 강력한 능력을 얻을 수 있습니다.

2025년 4월 29일 오후 5시 20분
UniME: MLLMs와 함께 다중 모달 표현 학습을 향상시키는 이중 단계 프레임워크

CLIP 프레임워크는 이미지-텍스트 검색과 같은 다중 모달 표현 학습에서 중요한 역할을 하고 있지만, 텍스트 입력에 제한이 있고 이미지와 텍스트 처리를 분리하는 이중 인코더 설계 등 몇 가지 한계가 있습니다. UniME는 이러한 한계를 극복하고 세분화된 표현을 캡처하는 데 효과적입니다.

2025년 4월 29일 오후 4시 28분
ThinkPRM: 확장 가능한 추론 검증을 위한 생성 과정 보상 모델

LLMs와 추론 작업에 더 많은 계산을 활용하기 위해 고품질의 프로세스 보상 모델(PRMs)이 필요하다. 이 모델은 문제-해결 쌍에 점수를 매겨 해결책이 올바른지 나타내며, 판별적 분류기로 구현되어 왔다. 그러나 이러한 모델은 인간 주석, 골드 단계별 솔루션 등 많은 리소스를 필요로 한다.

2025년 4월 29일 오후 1시 40분
실시간 대화형 AI 에이전트를 만들기 위한 다양한 함수 호출 방법 코딩 가이드

함수 호출은 LLM이 자연어 프롬프트와 실제 코드 또는 API 사이의 다리 역할을 합니다. 모델은 텍스트를 생성하는 대신 미리 정의된 함수를 호출할 때를 결정하고, 함수 이름과 인수가 포함된 구조화된 JSON 호출을 생성한 후 응용 프로그램이 그 호출을 실행하고 반환할 때까지 기다립니다.

2025년 4월 29일 오전 3시 03분
WAVLab 팀이 발표한 VERSA: 음성, 오디오 및 음악 신호를 평가하는 포괄적이고 다재다능한 평가 툴킷

AI 모델은 음성, 음악 및 기타 형태의 오디오 콘텐츠 생성에서 놀라운 발전을 이루어왔으며, 교류, 엔터테인먼트, 인간-컴퓨터 상호작용 분야에서 가능성을 확장시켰다. 그러나 이러한 모델이 성장함에 따라 평가가 더 중요해지고 있다.

2025년 4월 29일 오전 2시 44분
알리바바 Qwen 팀, Qwen 시리즈의 최신 대형 언어 모델인 Qwen3 공개

알리바바의 Qwen 팀이 Qwen 시리즈의 최신 대형 언어 모델인 Qwen3을 공개했다. 이 모델은 Dense 및 Mixture-of-Experts (MoE) 모델의 포괄적인 스위트를 제공하며, 세밀한 추론, 다국어 능력, 계산 효율성에 대한 다양한 도전 과제를 해결하고 있다.

2025년 4월 28일 오후 9시 08분
ViSMaP: 메타 프롬프팅과 짧은 형식 데이터셋을 사용한 1시간 길이의 비디오의 비지도 요약

ViSMaP는 짧은 비디오와 캡션으로 구성된 데이터셋에서 학습된 비디오 캡션 모델이 일반적으로 산책이나 대화와 같은 기본 동작을 설명하는 데는 용이하지만, Vlog, 스포츠 이벤트, 영화와 같이 긴 형식의 비디오의 복잡성에는 어려움이 있습니다. ViSMaP는 메타 프롬프팅과 짧은 형식 데이터셋을 사용하여 이러한 문제를 해결합니다.

2025년 4월 28일 오후 4시 24분
모델 컨텍스트 프로토콜 코딩 튜토리얼: 효율적인 LLM 상호작용을 위한 시맨틱 청킹, 동적 토큰 관리 및 컨텍스트 관련 점수에 초점

이 튜토리얼에서는 모델 컨텍스트 프로토콜(MCP)의 실용적인 구현을 안내하며, ModelContextManager를 구축하여 Google Colab과 같은 환경에서 대규모 언어 모델을 다룰 때 발생하는 컨텍스트 관리의 중요성과 효율적인 방법을 다룹니다.

2025년 4월 28일 오전 2시 32분
Devin AI, 새로운 AI 기반 인터페이스 ‘DeepWiki’를 소개합니다

Devin AI가 새로운 무료 도구 ‘DeepWiki’를 소개했습니다. 이 도구는 GitHub 저장소에 대한 구조화된 위키 스타일 문서를 자동으로 생성하며, 익숙하지 않은 코드베이스를 이해하는 과정을 단순화합니다. DeepWiki는 리포지토리 URL에서 직접 포괄적이고 대화식 개요를 제공하여 소프트웨어 개발에서 흔한 고통점을 해결합니다.

2025년 4월 28일 오전 2시 21분
소형 모델, 큰 추론 향상: USC 연구진이 LoRA로 비용 효율적 강화 학습을 위한 Tina를 소개합니다

USC 연구진은 LoRA를 이용해 비용 효율적인 강화 학습을 위한 Tina를 소개했습니다. Tina는 강력한 다단계 추론을 달성함에 있어 중요한 역할을 합니다. 과학 연구와 전략 계획과 같은 복잡한 문제 해결 분야에서 이러한 추론이 중요합니다. 모델들이 단계별 추론 데모를 통해 학습하는 지도 미세조정(SFT)을 포함한 전통적인 추론 기술을 향상시키는 것이 주요 과제입니다.

2025년 4월 28일 오전 1시 51분
Sea AI Lab, UCAS, NUS, SJTU 연구진, 개인화 시스템 생성을 위한 쿼리 수준 메타 에이전트 FlowReasoner 소개

LLM 기반의 다중 에이전트 시스템은 계획, 추론, 도구 사용, 기억 능력을 가지며 챗봇, 코드 생성, 수학, 로봇학 등 다양한 응용 프로그램의 기반을 형성한다. 그러나 수동으로 설계되어 고인적인 비용과 확장성 제약으로 인해 중요한 도전에 직면했다. 그래프 기반 방법은 워크플로 디자인을 자동화하기 위해 노력해왔다.

2025년 4월 27일 오후 4시 28분
마이크로소프트, 에이전틱 AI 시스템의 고장 모드에 대한 포괄적 가이드 발표

마이크로소프트의 AI 레드 팀이 에이전틱 아키텍처의 고장 모드에 대한 상세한 분류 체계를 발표했다. 이 보고서는 탄탄한 에이전틱 시스템을 설계하고 유지하려는 실무자들에게 중요한 기초 자료를 제공한다.

2025년 4월 27일 오후 4시 05분
PraisonAI Agent 프레임워크를 활용한 완전 자율 데이터 분석 파이프라인 구축: 코딩 구현

PraisonAI 에이전트가 데이터 분석을 완전 자율, AI 주도 파이프라인으로 발전시키는 방법을 보여주는 튜토리얼. 자연어 프롬프트 몇 개로 워크플로우의 각 단계를 조정하여 CSV 또는 Excel 파일을 로드하고 행 필터링, 트렌드 요약, 사용자 정의 필드별 그룹화, 피벗 테이블, 결과를 익스포트하는 방법을 학습할 수 있음.

2025년 4월 27일 오후 3시 38분
바이트댄스, LLM 사전 훈련에서 데이터 품질과 다양성을 위한 통합 AI 프레임워크 ‘QuaDMix’ 소개

대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…

2025년 4월 27일 오전 2시 16분
추론 시간 스케일링 방법의 종합 분석: 언어 모델에서 추론 성능 최적화

언어 모델은 다양한 작업에서 뛰어난 성능을 보이지만 복잡한 추론은 계산 리소스와 전문 기술이 추가로 필요하여 도전적이다. 이에 따라 추론 시간 계산(ITC) 스케일링 방법이 발전되었는데, 이는 모델 출력을 향상시키기 위해 추가 계산 리소스를 할당하는 방법이다.

2025년 4월 27일 오전 2시 06분
Claude 데스크톱에서 로컬 지식 그래프를 활용한 영속 메모리 구현

지식 그래프 메모리 서버를 사용하여 Claude 데스크톱은 여러 채팅을 통해 사용자에 대한 정보를 기억하고 조직화할 수 있습니다. 이를 통해 Claude는 서로 다른 정보 간의 관계를 이해하고 개인화된 응답을 제공할 수 있습니다.

2025년 4월 26일 오후 10시 59분
구글 AI, 산업 전반에 걸친 601가지 실제 세계 생성 AI 사용 사례 공개

구글 클라우드가 세계 최고 기관들로부터 601가지 실제 세계 생성 AI 사용 사례 compendium을 공개했다. 지난해 구글 클라우드 넥스트 2024에서 공유한 101가지 사용 사례에서 6배로 확장된 이번 공개는 GenAI 기술이 폭발적인 속도로 발전하고 있음을 보여준다.

2025년 4월 26일 오후 6시 29분
중국 AI 논문, 대규모 추론 언어 모델이 동적 초기 종료를 달성하는 훈련 무료 접근 방식 DEER 제안

중국의 AI 논문은 대규모 추론 언어 모델이 추론 중 동적 초기 종료를 달성할 수 있는 DEER라는 훈련 무료 접근 방식을 제안했다. 최근 대규모 추론 언어 모델의 발전으로 CoT 생성 길이가 확장되면서 복잡한 문제 해결 능력이 크게 향상되었지만, 지나치게 긴 CoT 시퀀스 생성은 계산 효율성과 대기 시간이 증가한다.

2025년 4월 26일 오후 6시 16분
Arcad와 코딩 구현: LangGraph 에이전트에 Gemini Developer API 도구 통합하여 자율 AI 워크플로우 구축하기

Arcad는 LangGraph 에이전트를 정적 대화형 인터페이스에서 동적인, 행동 중심 어시스턴트로 변환시켜주는 풍부한 도구 모음을 제공한다. 이 튜토리얼에서는 ArcadeToolManager를 초기화하고 Web.ScrapeUrl과 같은 개별 도구나 전체 툴킷을 가져오는 방법을 배운다.

2025년 4월 26일 오후 2시 00분
LLM이 대규모 사회 시뮬레이션 가능해졌다: Fudan 대학 연구진, 1000만 실제 사용자로 사회 시뮬레이션을 위한 LLM 에이전트 주도의 SocioVerse 세계 모델 소개

연구자들은 대규모 사회 시뮬레이션을 위한 SocioVerse를 소개하며, 전통적인 방법론의 한계로부터 대안적 접근법을 모색하고 있다. LLM은 1000만 실제 사용자를 기반으로 사회 시뮬레이션을 가능케 하며, 인간 행동 연구에 혁명을 일으킬 수 있다.

2025년 4월 26일 오후 1시 31분
Meta AI, 이미지 토큰을 줄이는 간단한 AI 접근 방법인 Token-Shuffle을 소개

고해상도 이미지에 대한 AR 모델의 확장은 계산 비용이 급증하는 문제를 제기하고 있는데, Meta AI가 이미지 토큰을 줄이는 간단한 AI 접근 방법인 Token-Shuffle을 소개했다.

2025년 4월 26일 오전 12시 38분
AgentA/B: LLM 에이전트를 사용하는 확장 가능한 AI 시스템, 전통적인 A/B 테스트를 변형시켜 실제 사용자 행동을 시뮬레이션

AgentA/B는 LLM 에이전트를 활용하여 실제 사용자 행동을 시뮬레이션하고 라이브 웹 플랫폼에서 전통적인 A/B 테스팅을 변형하는 확장 가능한 AI 시스템이다. 웹 인터페이스 설계 및 평가는 디지털 선도적인 세계에서 가장 중요한 작업 중 하나이며, 레이아웃, 요소 위치, 또는 탐색 논리의 변경은 사용자가 웹사이트와 상호 작용하는 방식에 영향을 줄 수 있다.

2025년 4월 26일 오전 12시 18분
구글 딥마인드 연구팀이 QuestBench를 소개: LLM의 추론 작업에서 빠진 정보 식별 능력 평가

대형 언어 모델(LLM)은 수학, 논리, 기획, 코딩 등의 추론 작업에서 상당한 주목을 받았다. 그러나 이러한 모델을 실제 상황에 적용할 때 중요한 도전 과제가 발생한다. 현재의 구현은 대부분 필요한 모든 정보가 명확하게 제공된다는 가정 하에 작동하지만, 현실은 종종 불완전하거나 모호한 상황을 제시한다.

2025년 4월 26일 오전 12시 06분
Skywork AI가 멀티모달 추론을 발전시킴: 하이브리드 강화 학습을 도입한 Skywork R1V2 소개

Skywork AI는 강점인 특화된 추론 능력을 강화하면서도 다양한 작업에 대한 일반화를 유지하는 것에 대한 도전에 집중하고 있습니다. 최근의 연구에서, 시각적 이해 작업에 대한 성능 저하와 시각적 환각 증세 증가로 인해 ‘느린 사고’ 모델이 제안되었습니다.

2025년 4월 25일 오후 5시 25분
GenAI 데모에서 제품 생산까지: 구조화된 워크플로우의 필요성

Generative AI 애플리케이션은 인상적인 능력을 보여주지만, 제품 시스템의 요구사항에 부딪힐 때 종종 실패하는 현실이 있다. 산업 조사는 이 문제의 규모를 보여준다.

2025년 4월 25일 오후 5시 10분
Agentic AI 아키텍처 다섯 가지 수준에 대한 포괄적인 튜토리얼: 기본 프롬프트 응답부터 완전자율 코드 생성 및 실행까지

이 튜토리얼에서는 가장 간단한 언어 모델 호출부터 완전히 자율적인 코드 생성 시스템까지 다섯 가지 수준의 Agentic 아키텍처를 탐구한다. Google Colab에서 원활하게 실행되도록 설계된 이 튜토리얼은 “간단한 프로세서”부터 시작하여 라우팅 로직을 점진적으로 구축하고 외부 도구를 통합하며 다단계 조율한다.

2025년 4월 25일 오후 3시 38분
밀라 & 몬트리올 대학 연구진, 효율성 희생 없이 장거리 맥락 언어 모델링을 촉진하는 Forgetting Transformer (FoX) 소개

밀라와 몬트리올 대학 연구진은 FoX를 소개하여 장거리 맥락 언어 모델링을 향상시키고 효율성을 희생하지 않는다. 이 모델은 트랜스포머의 장점을 살리면서 순환 신경망에서 발견되는 핵심 기능도 갖추고 있다.

2025년 4월 25일 오후 3시 29분
Microsoft Research, 장문 맥락 비전-언어 모델 사전 채우기 가속화를 위한 MMInference 소개

Microsoft Research가 MMInference를 소개하여 장문 맥락 비전-언어 모델의 사전 채우기 속도를 가속화했다. 이는 로봇공학, 자율 주행, 의료 분야에서 특히 성능을 향상시키는데 도움이 된다.

2025년 4월 25일 오전 2시 23분
NVIDIA AI, 수학 추론을 위한 OpenMath-Nemotron-32B 및 14B-Kaggle 공개: AIMO-2 대회에서 1위 차지하며 새로운 기록 설정

NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.

2025년 4월 25일 오전 1시 49분
Meta AI, 시각 표현 학습을 위한 확장 가능하고 언어에 구애받지 않는 접근 방식인 Web-SSL 발표

최근 대조적 언어-이미지 모델인 CLIP가 시각 표현 학습에서 표준 선택으로 자리매김했지만, 이는 언어 감독을 통해 의미론적 근거를 통합함으로써 텍스트 의존성을 도입한다. Meta AI는 이러한 제약을 해결하기 위해 Web-SSL을 발표했다.

2025년 4월 24일 오후 4시 01분
복잡한 다중 에이전트 시스템을 구축하기 위한 오픈 소스 IDE인 로우보트 만나보기

로우보트는 다중 에이전트 시스템의 구축, 디버깅, 배포를 가속화하는 오픈 소스 IDE로, OpenAI Agents SDK를 기반으로 하며 MCP 서버와 연결되어 다중 에이전트 AI 워크플로를 구축할 수 있다.

2025년 4월 24일 오후 1시 21분
OpenAI가 gpt-image-1 API 출시: 개발자들에게 고품질 이미지 생성 기술 제공

OpenAI는 gpt-image-1 모델을 기반으로 한 이미지 생성 API를 공식으로 출시했다. 이 런칭은 ChatGPT의 다중 모달 기능을 개발자들에게 제공함으로써 이미지 생성에 프로그래밍적 접근을 가능케 하며, 지능적 디자인 도구, 창의적 애플리케이션, 다중 모달 에이전트 시스템 구축을 위한 필수 단계를 제공한다.

2025년 4월 24일 오후 1시 02분
씨티은행 보고서, 에이전틱 AI가 자율 분석과 지능 자동화로 금융을 혁신하는 방법 공유

씨티은행의 최신 ‘에이전틱 AI 금융 및 ‘나를 대신해 해라’ 경제’ 보고서에서는 금융 서비스에서 진행 중인 중요한 패러다임 변화를 탐구한다. 이 보고서는 룰 기반 지침에 의존하는 기존 AI 시스템과는 다르게, 에이전틱 AI는 자율성을 갖추어 직접적인 인간 개입 없이 미리 예방적으로 행동하고 의사 결정을 내리며 다단계 워크플로우를 실행한다.

2025년 4월 24일 오전 2시 25분
Crawl4AI를 활용한 비동기 웹 데이터 추출 코딩 가이드: LLM 워크플로우를 위한 오픈 소스 웹 크롤링 및 스크래핑 툴킷

Crawl4AI를 사용해 Python 기반의 현대적인 웹 크롤링 툴킷을 활용하여 구조화된 데이터를 추출하는 방법을 소개하는 튜토리얼. asyncio의 비동기 I/O, HTTP 요청을 위한 httpx, 그리고 Crawl4AI의 AsyncHTTPCrawlerStrategy를 이용하여 headless 브라우저의 오버헤드를 우회하면서 복잡한 HTML을 파싱한다.

2025년 4월 24일 오전 2시 07분
Sequential-NIAH: 장문에서 순차 정보 추출에 대한 LLM 평가 벤치마크

긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.

2025년 4월 24일 오전 1시 52분
AWS, SWE-PolyBench 소개: AI 코딩 에이전트 평가를 위한 새로운 오픈소스 다국어 벤치마크

최근 대형 언어 모델의 발전으로 소프트웨어 코드를 생성, 수정, 이해하는 AI 기반 코딩 에이전트 개발이 가능해졌으나, 이러한 시스템의 평가는 주로 파이썬에 국한된 합성 또는 범위가 제한된 벤치마크로 제한되어 있습니다. AWS가 SWE-PolyBench를 소개하며 이 문제에 대처하고 있습니다.

2025년 4월 23일 오후 6시 29분
Xata 에이전트 만나보기: Proactive PostgreSQL 모니터링, 자동 문제 해결 및 원활한 DevOps 통합을 위한 오픈 소스 에이전트

Xata Agent는 PostgreSQL 데이터베이스를 위한 사이트 신뢰성 엔지니어로 구축된 오픈 소스 AI 어시스턴트입니다. 느린 쿼리, CPU 및 메모리 스파이크, 비정상적인 연결 수 등의 신호를 지속적으로 모니터링하여 장애로 확대되기 전에 문제를 감지합니다.

2025년 4월 23일 오후 5시 00분
NVIDIA AI, 어떤 것이든 설명하는 30억 모달 LLM: 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 공개

NVIDIA가 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 모델인 ‘Describe Anything 3B’를 발표했다. 시각-언어 모델에서 이미지나 비디오의 특정 영역을 설명하는 것은 어려운 문제인데, 이 모델은 세부적이고 지역별 설명을 생성하는 데 탁월한 성과를 보여준다.

2025년 4월 23일 오후 12시 51분
Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화: Microsoft 연구원들이 지연 일반화에 미치는 옵티마이저의 영향 탐구

그동안 딥러닝 모델이 기억에서 일반화로의 지연된 전환을 보이는 현상인 ‘그록킹’에 대한 연구가 늘어나고 있는데, 마이크로소프트 연구원들이 옵티마이저가 이 지연된 일반화에 미치는 영향을 탐구하며 Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화하는 것을 발견했다.

2025년 4월 23일 오전 2시 10분
레이블 없이 학습 가능한 LLMs: Tsinghua 대학과 상해 AI 연구소 연구진, 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 테스트 시간 강화 학습(TTRL) 소개

대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.

2025년 4월 23일 오전 1시 37분
오픈소스 TTS가 새로운 높이에 도달: 나리 랩스, 1.6B 파라미터 모델 ‘Dia’ 출시

Nari Labs가 Apache 2.0 라이센스로 1.6조 파라미터 TTS 모델 ‘Dia’를 공개하여 사용자 기기에서 리얼타임 음성 복제 및 표현력 있는 음성 합성을 가능케 함.

2025년 4월 22일 오후 11시 33분
VoltAgent 만나보기: 확장 가능한 AI 에이전트를 구축하고 조율하는 TypeScript AI 프레임워크

VoltAgent는 TypeScript 기반의 오픈 소스 프레임워크로, 모듈화된 빌딩 블록과 자율적인 에이전트를 위한 추상화를 제공하여 AI 주도 애플리케이션의 생성을 간소화합니다. 대규모 언어 모델 (LLMs), 도구 통합 및 상태 관리와 같은 복잡성을 다루기 위해 핵심 엔진을 제공합니다.

2025년 4월 22일 오후 7시 04분
디커플드 디퓨전 트랜스포머: 시멘틱 디테일 분리와 인코더 공유를 통한 고품질 이미지 생성 가속화

디커플드 디퓨전 트랜스포머는 이미지 생성 작업에서 우수한 성능을 보이며 기존 GAN 및 자기 회귀 아키텍처를 능가한다. 이미지에 점진적으로 노이즈를 추가하고 이 과정을 거꾸로 되돌리는 방식으로 작동하여 데이터 분포를 근사하는 모델을 구현한다.

2025년 4월 22일 오후 6시 56분
PydanticAI 에이전트, Pydantic v2 및 SQLite 데이터베이스를 사용하여 에이전틱 AI‑기반 비동기 티켓 보조 프로그램 구축하는 코딩 가이드

PydanticAI 라이브러리를 활용해 티켓 보조 프로그램을 만드는 튜토리얼. Pydantic v2 모델로 데이터 규칙 정의, SQLite 데이터베이스에 티켓 저장, Python의 uuid 모듈로 고유 식별자 생성. 티켓 생성 및 상태 확인을 위한 두 개의 에이전트 사용.

2025년 4월 22일 오후 3시 32분
물리 지능 연구자들, 물리 시스템에서 실시간 적응 지능을 위한 새 AI 프레임워크 π-0.5 소개

물리적 환경에서 신뢰성 있는 지능 시스템을 설계하는 것은 AI의 어려운 과제 중 하나이다. 기존 AI 시스템은 높은 수준의 표현에 의존하는 반면, 실제 세계는 잡음이 많고 예측할 수 없으며 추상화에 저항한다. 물리 지능 연구팀은 이러한 문제를 해결하기 위해 새로운 AI 프레임워크인 π-0.5를 소개했다.

2025년 4월 22일 오후 3시 21분
Atla AI, 목적에 맞게 구축된 LLM 판사의 로컬 인터페이스인 Atla MCP 서버 소개

Atla의 강력한 LLM 판사 모델을 Model Context Protocol (MCP)을 통해 노출시키는 Atla MCP 서버가 AI 시스템 개발의 중요한 측면인 LLM 출력의 신뢰성 있는 평가를 지원한다.

2025년 4월 22일 오전 11시 17분
대규모 모델이 필요하지 않는 긴 문맥 다중모달 이해: NVIDIA AI, Eagle 2.5 소개

Eagle 2.5는 GPT-4o와 같은 비디오 작업에서 8B 매개변수를 사용하여 일반적인 비전-언어 모델로 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리하는 능력을 갖추고 있음.

2025년 4월 22일 오전 2시 36분
구글 Colab에서 FastStream, RabbitMQ, TestRabbitBroker, Pydantic을 활용한 실시간 인메모리 센서 알림 파이프라인의 코드 구현

구글 Colab에서 FastStream 및 RabbitMQ를 활용하여 인메모리 “센서 알림” 파이프라인을 구축하는 방법을 소개하는 노트북. FastStream의 RabbitBroker와 TestRabbitBroker를 이용하여 외부 인프라 없이 메시지 브로커를 시뮬레이션하며, 데이터 처리의 네 가지 단계를 조율한다.

2025년 4월 21일 오후 8시 40분
Anthropic, Claude Code를 활용한 코딩 에이전트 구축에 대한 포괄적인 가이드 발표

Anthropic사가 Claude Code를 사용한 코딩 에이전트 개발을 위한 상세한 가이드를 발표했다. Claude Code는 개발자 중심의 명령줄 인터페이스로, Claude 언어 모델을 일상적인 프로그래밍 작업에 통합하는 데 사용된다.

2025년 4월 21일 오후 8시 30분
LLMs는 여전히 의학 자료를 신뢰할 수 없을 정도로 언급하는 데 어려움을 겪고 있음: 스탠포드 연구진이 AI 생성 응답에서 사실적인 지원을 감사하기 위한 SourceCheckup을 소개

LLMs가 의료 분야에서 중요해지면서 신뢰할 수 있는 소스가 그들의 결과물을 뒷받침하는 것이 점점 중요해지고 있다. 아직 FDA가 임상 의사 결정에 승인한 LLM은 없지만, GPT-4o, Claude, MedPaLM과 같은 최고 모델은 USMLE과 같은 표준 시험에서 의사를 능가했다. 이러한 모델들은 이미 정신 건강과 같은 현실적 상황에서 활용되고 있다.

2025년 4월 21일 오후 4시 51분
AWS 워크플로 내 현대 IDE에서 AI 지원 디버깅을 제공하는 Serverless MCP

Serverless MCP는 개발자들이 AWS 플랫폼에서 애플리케이션을 빌드하고 배포하는 방식을 혁신적으로 단순화했지만, 복잡한 아키텍처의 디버깅과 관리는 여전히 어려움을 겪고 있습니다. Serverless MCP는 이러한 도전에 대응하기 위해 도입되었으며, AI 지원 디버깅을 가능하게 합니다.

2025년 4월 21일 오후 2시 19분
FastMCP를 사용하여 사용자 정의 모델 컨텍스트 프로토콜(MCP) 서버 및 클라이언트 도구 정의하는 코딩 가이드 및 Google Gemini 2.0의 기능 호출 워크플로우에 통합하는 단계별 코딩 가이드

본 콜랩 튜토리얼에서는 Google의 Gemini 2.0 생성 AI를 FastMCP를 통해 내부 프로세스 MCP 서버와 통합하는 방법을 보여줍니다. GEMINI_API_KEY를 안전하게 캡처하기 위해 대화형 getpass 프롬프트로 시작하여 Gemini API 호출을 위한 google-genai Python 클라이언트, FastMCP 등을 설치하고 구성합니다.

2025년 4월 21일 오후 1시 03분
스탠포드 연구진, FramePack 제안: 장기 시퀀스 비디오 생성에서 Drifting과 Forgetting 대응하는 압축 기반 AI 프레임워크

비디오 생성은 시간에 걸쳐 움직임과 시각적 현실을 시뮬레이트하는 이미지 시퀀스를 만드는 컴퓨터 비전 및 머신 러닝 분야다. 스탠포드 대학 연구진은 FramePack라는 압축 기반 AI 프레임워크를 제안하여 장기 시퀀스 비디오 생성 시 발생하는 Drifting과 Forgetting 문제를 효율적인 컨텍스트 관리와 샘플링을 이용해 해결하는 방안을 제시했다.

2025년 4월 21일 오후 12시 46분
바이트댄스, 강력한 비전-언어 모델을 기반으로 한 오픈소스 다중모달 AI 에이전트 UI-TARS-1.5 공개

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.

2025년 4월 21일 오전 3시 09분
OpenAI, 기업 워크플로우에서 AI 활용 사례 식별과 확장에 대한 실용적 가이드 발표

OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.

2025년 4월 21일 오전 2시 46분