Devin AI가 새로운 무료 도구 ‘DeepWiki’를 소개했습니다. 이 도구는 GitHub 저장소에 대한 구조화된 위키 스타일 문서를 자동으로 생성하며, 익숙하지 않은 코드베이스를 이해하는 과정을 단순화합니다. DeepWiki는 리포지토리 URL에서 직접 포괄적이고 대화식 개요를 제공하여 소프트웨어 개발에서 흔한 고통점을 해결합니다.
USC 연구진은 LoRA를 이용해 비용 효율적인 강화 학습을 위한 Tina를 소개했습니다. Tina는 강력한 다단계 추론을 달성함에 있어 중요한 역할을 합니다. 과학 연구와 전략 계획과 같은 복잡한 문제 해결 분야에서 이러한 추론이 중요합니다. 모델들이 단계별 추론 데모를 통해 학습하는 지도 미세조정(SFT)을 포함한 전통적인 추론 기술을 향상시키는 것이 주요 과제입니다.
LLM 기반의 다중 에이전트 시스템은 계획, 추론, 도구 사용, 기억 능력을 가지며 챗봇, 코드 생성, 수학, 로봇학 등 다양한 응용 프로그램의 기반을 형성한다. 그러나 수동으로 설계되어 고인적인 비용과 확장성 제약으로 인해 중요한 도전에 직면했다. 그래프 기반 방법은 워크플로 디자인을 자동화하기 위해 노력해왔다.
PraisonAI 에이전트가 데이터 분석을 완전 자율, AI 주도 파이프라인으로 발전시키는 방법을 보여주는 튜토리얼. 자연어 프롬프트 몇 개로 워크플로우의 각 단계를 조정하여 CSV 또는 Excel 파일을 로드하고 행 필터링, 트렌드 요약, 사용자 정의 필드별 그룹화, 피벗 테이블, 결과를 익스포트하는 방법을 학습할 수 있음.
지식 그래프 메모리 서버를 사용하여 Claude 데스크톱은 여러 채팅을 통해 사용자에 대한 정보를 기억하고 조직화할 수 있습니다. 이를 통해 Claude는 서로 다른 정보 간의 관계를 이해하고 개인화된 응답을 제공할 수 있습니다.
구글 클라우드가 세계 최고 기관들로부터 601가지 실제 세계 생성 AI 사용 사례 compendium을 공개했다. 지난해 구글 클라우드 넥스트 2024에서 공유한 101가지 사용 사례에서 6배로 확장된 이번 공개는 GenAI 기술이 폭발적인 속도로 발전하고 있음을 보여준다.
AgentA/B는 LLM 에이전트를 활용하여 실제 사용자 행동을 시뮬레이션하고 라이브 웹 플랫폼에서 전통적인 A/B 테스팅을 변형하는 확장 가능한 AI 시스템이다. 웹 인터페이스 설계 및 평가는 디지털 선도적인 세계에서 가장 중요한 작업 중 하나이며, 레이아웃, 요소 위치, 또는 탐색 논리의 변경은 사용자가 웹사이트와 상호 작용하는 방식에 영향을 줄 수 있다.
NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.
로우보트는 다중 에이전트 시스템의 구축, 디버깅, 배포를 가속화하는 오픈 소스 IDE로, OpenAI Agents SDK를 기반으로 하며 MCP 서버와 연결되어 다중 에이전트 AI 워크플로를 구축할 수 있다.
긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.

PydanticAI 라이브러리를 활용해 티켓 보조 프로그램을 만드는 튜토리얼. Pydantic v2 모델로 데이터 규칙 정의, SQLite 데이터베이스에 티켓 저장, Python의 uuid 모듈로 고유 식별자 생성. 티켓 생성 및 상태 확인을 위한 두 개의 에이전트 사용.

Atla의 강력한 LLM 판사 모델을 Model Context Protocol (MCP)을 통해 노출시키는 Atla MCP 서버가 AI 시스템 개발의 중요한 측면인 LLM 출력의 신뢰성 있는 평가를 지원한다.
Serverless MCP는 개발자들이 AWS 플랫폼에서 애플리케이션을 빌드하고 배포하는 방식을 혁신적으로 단순화했지만, 복잡한 아키텍처의 디버깅과 관리는 여전히 어려움을 겪고 있습니다. Serverless MCP는 이러한 도전에 대응하기 위해 도입되었으며, AI 지원 디버깅을 가능하게 합니다.

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.
OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.
Reinforcement learning은 LLM의 추론 능력을 향상시키는 강력한 기법이지만, 숫자 계산이나 기호 조작이 필요한 작업에서 한계가 있다. ReTool은 이러한 한계를 극복하기 위한 도구-Augmented 강화 학습 프레임워크다.
대형 언어 모델(LLMs)은 복잡한 추론 작업을 처리하는 능력으로 주목받고 있으며, Letta와 UC 버클리의 연구자들은 유휴 상태에서 컴퓨팅을 확장하여 더 어려운 문제에 더 많은 리소스를 할당함으로써 더 높은 정확도를 달성하는 ‘슬립 타임 컴퓨트’를 소개했다.
대형 언어 모델(LLMs)은 방대한 양의 텍스트 데이터를 소화하면서 지식을 업데이트하는데 그들을 속일 수 있는 놀라운 데이터가 있을 수 있다. Google DeepMind는 이를 예측하고 줄이기 위한 새로운 기술을 소개하고 있다.
이 튜토리얼에서는 Google Colab 내에서 브라우저 주도 AI 에이전트의 기능을 활용하는 방법을 배우게 됩니다. Playwright의 headless Chromium 엔진과 browser_use 라이브러리의 높은 수준의 Agent 및 BrowserContext 추상화를 활용하여 웹사이트를 자동으로 탐색하고 데이터를 추출하며 복잡한 작업을 자동화할 것입니다.
푸리에 신경 오퍼레이터(FNO)는 편미분 방정식 해결 오퍼레이터를 학습하는 강력한 도구이지만, 아키텍처에 대한 최적화가 부족하다. FFT – GEMM – iFFT의 계산 패턴이 더 많은 주목을 받고 있다. UC 리버사이드의 연구자들은 TurboFNO를 소개하여 PyTorch보다 최대 150% 속도 향상을 달성했다.

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.

OpenAI가 기업이 AI를 업무에 통합하는 방법을 상세히 설명한 전략 보고서를 발행했다. Morgan Stanley, Indeed, Klarna, Lowe’s, BBVA, Mercado Libre 및 OpenAI와의 협력을 바탕으로, AI를 대규모로 도입하기 위한 일계획을 제시했다.
UC 버클리와 AI2 연구원들이 발표한 연구에 따르면, LLMs는 소량의 데이터로도 어려운 수학 문제를 해결할 수 있게 되었습니다. 최근 소규모 지도 파인튜닝 접근법들이 수학 문제 해결 능력을 현저히 향상시켰으며, 모델이 훈련 데이터를 넘어 일반화하는지 여부에 대한 근본적인 질문이 남아 있습니다.
대규모 언어 모델(Large Language Models, LLMs)과 외부 도구, 응용프로그램, 데이터 원본의 통합은 점점 더 중요해지고 있다. Model Context Protocol (MCP)와 Function Calling은 모델과 외부 시스템 간의 원활한 상호작용을 달성하기 위한 두 가지 중요한 방법이다. 두 접근 방식은 AI 모델의 실용적 능력을 확장하기 위해 목표를 두지만, 아키텍처 측면에서 근본적으로 다르다.
IBM이 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에서 뛰어난 성능을 보여준다.
OpenAI가 엔지니어링 및 제품 팀을 위해 자율 AI 시스템 구현을 탐색하는 실무 안내서를 게시했다. 실제 배치 사례를 바탕으로 한 이 가이드는 적합한 사용 사례 식별, 에이전트 아키텍처 구성, 안전성과 신뢰성을 보장하기 위한 견고한 보호장치 내장에 대한 체계적 접근 방식을 제공한다.
수학 및 프로그래밍 분야의 복잡한 문제 해결에 효율적인 추론이 중요하며, LLMs는 연쇄 추론을 통해 상당한 향상을 보여줌. 그러나 트랜스포머 기반 모델은 장기 시퀀스를 효율적으로 처리하는 것이 어렵기 때문에 한계가 있음. 이에 TogetherAI, Cornell, Geneva, Princeton 연구진이 M1이라는 하이브리드 AI를 소개하며 최신 성능을 3배의 추론 속도로 달성함.
AI 시스템이 외부 데이터 소스 및 운영 도구와의 실시간 상호 작용에 점점 더 의존하게 되면서, 이들 시스템은 동적 조치 수행, 변화하는 환경에서 결정 내리기, 실시간 정보 스트림에 액세스하는 것이 기대된다. 이를 위해 AI 아키텍처는 모델을 서비스 및 데이터셋과 연결하는 표준화된 인터페이스를 통합하여 능력을 가능하게 한다.