
언어 모델의 성능 향상을 위해 연구자들이 모델을 확장하는데 집중함에 따라, 계산 자원이 증가하고 언어 모델의 개발 및 배포가 상당한 컴퓨팅 자원과 메모리에 의존하게 되었다. PARSCALE은 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법을 소개한다.
언어 모델의 성능 향상을 위해 연구자들이 모델을 확장하는데 집중함에 따라, 계산 자원이 증가하고 언어 모델의 개발 및 배포가 상당한 컴퓨팅 자원과 메모리에 의존하게 되었다. PARSCALE은 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법을 소개한다.
대형 언어 모델은 이제 텍스트 생성 이상의 평가 및 심사 작업에 사용되며, 다른 언어 모델의 출력을 평가하는 “언어 모델로서의 판사”로 확장되었습니다. 이러한 평가는 강화 학습 파이프라인, 벤치마크 테스트 및 시스템 정렬에서 중요하며, 이러한 판사 모델은 내부적인 사고 과정 추론에 의존합니다.
기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.
ADK는 개발자가 다중 에이전트 시스템을 구축, 관리, 배포하는 데 도움을 주는 오픈소스 파이썬 프레임워크이다. ADK를 사용하여 간단하거나 복잡한 에이전트 기반 애플리케이션을 쉽게 만들 수 있다. 이 튜토리얼에서는 ADK를 사용해 간단한 AI 에이전트를 만드는 방법을 안내한다.
구글이 개발한 MedGemma는 의료 텍스트와 이미지 이해를 위해 훈련된 모델 스위트로, Gemma 3 아키텍처 기반으로 구축되었다. 의료 이미지와 텍스트 데이터의 통합 분석을 필요로 하는 의료 애플리케이션 개발자들에게 견고한 기반을 제공한다.
AI는 언어 처리, 수학, 코드 생성 분야에서 발전했지만 물리적 환경으로 확장하는 것은 여전히 어렵다. 물리 AI는 동적인 실제 환경에서 지각, 이해, 행동하는 시스템을 개발하여 이 간극을 줄이려고 한다. 텍스트나 기호를 처리하는 기존 AI와 달리 물리 AI는 주로 비디오와 같은 감각적 입력과 상호작용한다.
언어 모델이 방대한 인터넷 텍스트 코퍼스로 사전 학습되면 몇 가지 작업 예시만으로도 효과적으로 일반화할 수 있지만, 하위 작업을 위해 이러한 모델을 파인튜닝하는 것은 중요한 도전을 제기한다. 파인튜닝은 수백 개에서 수천 개의 예시가 필요하지만, 결과적인 일반화 패턴에는 제약이 있다.
LLM 기반 에이전트는 복잡한 작업을 처리하고 여러 역할을 수행하기 때문에 다양한 응용 분야에서 점점 더 사용되고 있습니다. 이러한 에이전트의 핵심 구성 요소 중 하나인 메모리는 정보를 저장하고 회상하며 과거 지식을 반영하고 신중한 결정을 내리는 데 중요한 역할을 합니다. 메모리는 장기간 상호 작용이나 역할 연기와 관련된 작업에서 과거 경험을 포착함으로써 핵심적인 역할을 합니다.
Meta가 KernelLLM을 소개했습니다. 이는 PyTorch 모듈을 효율적인 Triton GPU 커널로 번역하는 8억 개의 파라미터를 가진 언어 모델로, GPU 프로그래밍의 장벽을 낮추기 위한 노력입니다.
Unsloth AI는 4비트 양자화와 LoRA 기술을 활용하여 최신 모델인 Qwen3-14B를 손쉽고 빠르게 세밀하게 조정할 수 있게 해준다. 본 튜토리얼에서는 이를 실제로 구현하는 방법을 안내한다.
구글이 NotebookLM 모바일 앱을 출시했다. 이 앱은 사용자의 포켓으로 맞춤 학습과 콘텐츠 통합을 제공하며 이동성, 문맥 인식 및 상호 작용 기능을 결합한 새로운 기능을 소개했다.
RAG는 모델 재교육 없이 응답을 가능케 하지만, 현재의 평가 프레임워크는 답변 가능한 질문들에 대한 정확성과 관련성에 초점을 맞추고, 부적절하거나 답변할 수 없는 요청을 거부하는 중요한 능력을 간과한다. 이로 인해 실제 응용 프로그램에서 부적절한 응답은 오인 또는 피해로 이어질 수 있음.
IBM 컨설팅의 최근 화이트페이퍼는 금융 서비스 부문에 미치는 자율적 인공지능 에이전트의 영향을 개요로 제시하며, 이러한 AI 시스템이 금융 기관의 운영 방식을 근본적으로 재구성할 수 있는 방법을 설명합니다.
Chain-of-Thought (CoT) 프롬프팅은 대형 언어 모델의 추론 과정을 개선하고 해석하는 인기 있는 방법이 되었다. 그러나 최근 Anthropics의 연구에 따르면, 이 방법은 AI의 추론을 완전히 이해하는 데 한계가 있을 수 있다.
연구는 강화 학습이 LLM의 추론 능력을 향상시킬 수 있다는 최근 발전을 기반으로, 오디오 LLMs를 개선하는 것을 목표로 한다. MMAU 벤치마크는 소리, 음성에 관한 객관식 질문을 포함한 데이터셋으로 이 모델들을 평가하는 데 사용된다.
최신 데이터 시스템에 대한 핵심 요구 사항 중 하나는 고차원 벡터 표현을 검색하는 능력이 되었다. 이러한 벡터 표현은 딥러닝 모델에 의해 생성되며 데이터의 의미론적 및 문맥적 의미를 포착한다. 이를 통해 시스템은 정확한 일치가 아닌 관련성과 유사성에 기반한 결과를 검색할 수 있다.
Model Context Protocol (MCP)는 대형 언어 모델이 도구, 서비스 및 외부 데이터 소스와 상호 작용하는 방식에 대한 강력한 패러다임 변화를 나타냅니다. MCP는 동적 도구 호출을 가능하게 하며, 모델이 함수를 지능적으로 선택하고 호출할 수 있는 표준화된 방법을 제공합니다. 그러나 새로운 프레임워크인만큼 보안 취약점도 존재합니다.
최근 LLMs의 발전으로 복잡한 추론 작업을 수행하고 검색 엔진과 같은 외부 도구를 효과적으로 사용하는 잠재력이 드러났다. 그러나 내부 지식 대신 검색을 언제 의존해야 하는지 모델에 스마트한 결정을 내릴 수 있도록 가르치는 것은 여전히 중요한 과제다. 단순한 프롬프트 기반 방법은 모델이 도구를 활용하도록 안내할 수 있지만, LLMs는 여전히 어려움을 겪고 있다.
대규모 데이터셋으로 훈련된 언어 모델은 언어 이해 및 생성 도구로 두드러지며, 상호 작용 환경에서 의사 결정 요소로 작동할 수 있다. 그러나 행동 선택이 필요한 환경에 적용될 때 이러한 모델은 내부 지식과 추론을 활용하여 효과적으로 행동하기를 기대된다. 그러나 LLMs는 이를 실현하기 어렵다. Google DeepMind 연구원들은 강화 학습 세밀 조정을 사용하여 이러한 간극을 메우려고 한다.
이 튜토리얼에서는 Tavily Search API, Chroma, Google Gemini LLMs, 및 LangChain 프레임워크의 강점을 결합하여 강력하고 지능적인 질의응답 시스템을 구축하는 방법을 소개합니다. Tavily를 통한 실시간 웹 검색, Chroma 벡터 저장소를 활용한 의미론적 문서 캐싱, 그리고 Gemini 모델을 통한 문맥적 응답 생성이 포함됩니다.
LM 에이전트의 최근 발전은 복잡한 실제 과제 자동화에 유망한 잠재력을 보여주고 있음. 이러한 에이전트는 일반적으로 API를 통해 작업을 제안하고 실행하여 소프트웨어 공학, 로봇공학, 과학 실험 등의 응용 프로그램을 지원함. 이러한 과제가 더 복잡해지면 LM 에이전트 프레임워크는 다중 에이전트, 다단계 검색, 맞춤형 지원을 포함하도록 진화해왔음.
AWS가 Strands Agents SDK를 오픈 소스로 공개하여, AI 에이전트 개발을 다양한 분야에서 더 접근 가능하고 적응 가능하도록 만들었습니다. 모델 주도적 접근을 통해 복잡성을 추상화하여 지능적인 에이전트를 구축, 조정, 배포하는 작업을 쉽게 만들어줍니다.
LightLab은 단일 이미지에서 미세한 빛 조절을 위한 새로운 AI 방법이다. 기존 방법은 여러 촬영으로부터 장면의 기하학과 속성을 재구성한 후 물리적 조명 모델을 사용하여 새로운 조명을 시뮬레이션하는 3D 그래픽 방법을 사용하는데, 이러한 기술은 빛 원본에 대한 명확한 제어를 제공하지만 단일 이미지로부터 정확한 3D 모델을 복원하는 것은 여전히 문제로 남아있다.
대규모 언어 모델(Large Language Model, LLM)의 개발 및 배포 증가는 구조적 혁신, 대규모 데이터셋, 하드웨어 개선과 밀접한 관련이 있다. DeepSeek-V3, GPT-4o, Claude 3.5 Sonnet, LLaMA-3 등의 모델들은 스케일링이 추론 및 대화 능력을 향상시킨다는 것을 입증했으나, 성능이 향상될수록 컴퓨팅, 메모리, 통신 대역폭 수요도 증가하고 있다.
대화형 인공지능은 사용자 요구가 점진적으로 드러나는 동적 상호작용을 가능하게 하는데 초점을 맞추고 있습니다. Microsoft와 Salesforce 연구자들이 발표한 연구에 따르면, 대화형 인공지능 모델인 LLMs는 실제 대화에서 어려움을 겪고 멀티턴의 미정의 작업에서 39%의 성능 저하가 있습니다.
Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.
BLIP3-o는 CLIP 임베딩과 플로우 매칭을 활용한 멀티모달 모델로, 이미지 이해 및 생성에 사용됩니다. 시각과 언어를 연결하는 관심이 높아지면서, 이미지 인식과 생성 기능을 통합한 시스템에 대한 연구가 확대되고 있습니다.
OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.
LangGraph Multi-Agent Swarm은 여러 AI 에이전트를 하나의 “스왐”으로 조율하는 Python 라이브러리이다. 다양한 특화를 갖는 에이전트들이 작업에 따라 동적으로 제어를 넘기며 특수화된 다중 에이전트 아키텍처를 구현한다.
DanceGRPO는 시각적 콘텐츠 생성을 위한 강화 학습에 대한 통합 프레임워크로, 여러 패러다임과 작업에 걸쳐 시각 생성을 혁신적으로 다룬다. 최근의 생성 모델 발전을 통해 시각적 콘텐츠 생성이 향상되었으며, 훈련 중 인간 피드백 통합이 중요하다.
VLM은 일반 목적의 AI 시스템 구축에 중요하며, 시각적 및 텍스트 데이터를 통합함으로써 다중 모달 추론, 이미지 편집, GUI 에이전트, 로봇공학 등을 발전시키고 있음. 그러나 인간의 능력에 아직 미치지 못하는 부분이 있음.
Hugging Face가 Model Context Protocol (MCP)에 대한 무료 오픈 소스 코스를 출시했습니다. 이 코스는 대규모 언어 모델과 외부 데이터 소스 및 도구를 통합하는 데 도움이 되는 MCP를 개발자와 AI 전문가들에게 제공하여 더 맥락에 맞는 AI 에이전트 및 애플리케이션을 구축하는 데 필요한 지식과 기술을 제공합니다.
텍스트에서 오디오 생성 기술이 음악 제작, 게임, 가상 경험 등에서 혁신적인 방법으로 부각되고 있으며, 이 기술은 일반적으로 확산 또는 정류된 플로우와 같은 가우시안 플로우 기반 기법을 활용하여 구조화된 오디오로의 점진적인 전환 단계를 모델링한다.
NVIDIA의 Joey Conway와의 인터뷰에서 오픈 소스 대형 언어 모델인 Llama Nemotron Ultra 및 Parakeet에 대한 흥미로운 작업에 대해 이야기했습니다.
LangGraph와 NetworkX를 사용하여 자동화된 지식 그래프 파이프라인을 구축하는 방법에 대해 안내하는 튜토리얼. 지능적 에이전트들이 데이터 수집, 개체 추출, 관계 식별, 개체 해결, 그래프 유효성 검사 등의 작업을 협업적으로 수행하는 과정을 모의한다.
조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.
Tsinghua 대학 및 ModelBest 연구진이 Ultra-FineWeb이라는 트리리언 토큰 데이터셋을 발표했다. 이 데이터셋은 LLM의 정확도를 향상시켜주며, 모델 기반 필터링을 통해 고품질 샘플을 식별하는 방법을 사용한다.
SimilarWeb의 ‘AI 글로벌 보고서: 생성 AI에서의 글로벌 섹터 트렌드’는 디지털 업무 방식을 재정의하는 생성 AI로 인해 사용자 참여 패턴이 변화하는 것을 종합적으로 보여줍니다. 코딩 에이전트의 현저한 성장, EdTech의 혁신적 영향, 그리고 법률 AI 플랫폼의 예상치 못한 하락을 강조합니다.
구글 딥마인드는 알고리즘 설계와 과학적 발견을 위해 제미니 기술을 활용한 코딩 AI 에이전트 알파이볼브를 소개했다. 전통적인 방법으로는 전문가 직관과 수동 반복에 의존하는 이러한 과정이 대규모 언어 모델(LLMs)을 활용함으로써 가속화되고 있다.
Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.
기계 학습 시스템이 추천 엔진부터 자율 시스템까지 다양한 응용 프로그램에서 중요해지면서, 이러한 시스템들의 환경 지속 가능성에 대한 필요성이 증가하고 있습니다. CATransformers는 AI 모델과 하드웨어를 지속 가능한 엣지 배포를 위해 공동 최적화하는 탄소 인식 기계 학습 프레임워크입니다.
이 튜토리얼에서는 Together AI의 확장 생태계를 활용하여 텍스트를 빠르게 구조화된 질의응답 서비스로 변환하는 방법을 보여줍니다. 라이브 웹 페이지를 스크래핑하고 응집된 청크로 나눈 후 함께컴퓨터/m2-bert-80M-8k-retrieval 임베딩 모델에 제공하는 과정을 다룹니다.
소프트웨어 문제의 정확한 위치를 식별하는 것은 개발 생애주기에서 가장 인력 집약적인 작업 중 하나이다. 자동화된 패치 생성과 코드 어시스턴트의 발전에도 불구하고, 코드베이스에서 변경이 필요한 위치를 파악하는 프로세스는 종종 수정 방법보다 더 많은 시간을 소비한다.
이 논문은 RLM이 복잡한 문제를 단순하게 분해하고 논리적 단계를 구축하여 답변에 도달하는 것을 시뮬레이션하는 데 사용되며, 다국어 능력을 향상시킴으로써 출력 품질을 향상시키는 것을 조사합니다.
LLM 사전 학습에서 훈련 데이터의 품질은 모델 성능에 중요하며 유해 콘텐츠를 필터링하여 유해한 출력을 최소화하는 전략이 일반적이지만 이는 트레이드오프를 도입한다. 이 기사는 LLM 사전 학습에서 유해 데이터 다루는 새로운 접근 방식을 소개한다.
PwC는 “Agentic AI – GenAI의 새로운 지평”라는 최신 집행부 안내서에서, 자율적인 의사 결정과 문맥 인식 상호작용이 가능한 Agentic 인공지능에 대한 전략적 접근 방식을 제시한다. 이러한 시스템은 기관의 운영 방식을 재구성할 것으로 예상되며, 전통적인 소프트웨어 모델에서 조정된 모델로 전환될 것이다.
LLMs를 외부 도구나 기능으로 장착하는 것이 인기를 끌며, 최소 감독과 최대 일반화로 LLMs의 도구 호출 능력을 향상시키기 위해 고급 언어 모델과 SFT를 통해 대량의 도구 사용 궤적을 종합하는 기존 연구가 있다. 그러나 존재하는 연구의 중요한 한계는 합성 데이터셋이 명시적 추론 단계를 포착하지 못하고 표면적인 도구 사용만 가능하다는 점에 있다.
이 튜토리얼에서는 스미더리를 구성 프레임워크로 사용하여 모델 컨텍스트 프로토콜 (MCP) 서버를 배포하는 방법을 배우고, 런타임 오케스트레이터로 베리액스를 활용합니다. 스미더리를 설치하고 구성하여 MCP 엔드포인트를 정의한 다음, 베리액스를 활용하여 서버 프로세스를 구동하고 관리합니다.
MCP-Use는 모든 LLM을 어떤 MCP 서버에 연결하여 웹 브라우징, 파일 작업 등의 도구 접근을 제공하는 오픈 소스 라이브러리다. 이 튜토리얼에서는 langchain-groq와 MCP-Use의 내장 대화 기억을 사용하여 도구와 상호 작용할 수 있는 간단한 챗봇을 구축한다.
최근 언어 모델들은 보상 기반 강화 학습을 통해 뛰어난 추론 능력을 갖추었다. 과거의 PPO 방식을 버리고 학습된 가치 함수 네트워크를 대신하여 경험적으로 추정된 반환값을 사용하는 현대 강화 학습 알고리즘들은 계산 요구와 GPU 메모리 소비를 줄여준다.
OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.
인공지능은 언어 중심 시스템을 넘어서 여러 입력 유형(텍스트, 이미지, 오디오, 비디오)을 처리할 수 있는 모델로 발전했습니다. 멀티모달 학습은 다양한 감각 데이터를 통합하고 해석하는 인간의 능력을 모방하는 것을 목표로 합니다. 단일 모달리티를 다루는 전통적 AI 모델과 달리, 멀티모달 종합주의자들은…
본 튜토리얼에서는 Lovable.dev를 사용하여 현대적이고 세련된 AI 블로깅 웹사이트를 만들고 게시하는 과정을 단계별로 안내합니다. Lovable.dev는 웹사이트 생성을 간단하게 만들어주며 사용자가 AI와 기술과 같은 특정 niche에 맞게 시각적으로 매력적이고 반응 형 웹 페이지를 손쉽게 개발할 수 있도록 돕습니다. 홈페이지를 빠르게 구축하는 방법, 대화형 구성 요소 통합 방법 등을 설명할 것입니다.
영상-LLMs은 전체 사전 녹화된 비디오를 한꺼번에 처리합니다. 그러나 로보틱스 및 자율 주행과 같은 응용 프로그램은 시간적으로 이해와 응답이 중요한 스트리밍 시나리오에서 작동하도록 설계되지 않은 현재 비디오-LLMs의 한계를 보여줍니다. 애플 연구자들이 StreamBridge를 소개하여 오프라인에서 실시간 스트림으로의 전환을 가능하게 했습니다.
INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.
AI 에이전트들은 주로 백엔드 작업을 자동화하는데 집중해왔지만, 상호작용적인 AI 애플리케이션이 늘어남에 따라 사용자와 상호작용하는 에이전트의 필요성이 대두되었다. AG-UI 프로토콜은 이러한 문제를 해결하기 위해 개발된 오픈, 가벼운, 이벤트 기반 프로토콜이다.
NVIDIA AI는 오디오 확산 모델을 도입하여 텍스트에서 3D 및 이미지 편집을 지원한 Score Distillation Sampling (SDS)을 활용해 오디오 합성 및 소스 분리 작업을 효율적으로 수행한다. 특별한 데이터셋이 필요하지 않고 명시적이고 해석 가능한 매개변수를 조정할 수 있는 모델이 필요한데, 이를 통해 음악, 효과음 등의 고품질 소리를 생성할 수 있다.
시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.
LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.
Adala 프레임워크를 사용하여 의료 증상 분류를 위한 모듈식 활성 학습 파이프라인을 구축하는 방법을 배우고, Google Gemini을 사용하여 증상을 사전 정의된 의료 도메인으로 분류하는 방법을 통해 간단한 세 단계의 활성 학습 루프를 실행합니다.
이번 연구에서는 복잡한 3D 형상을 간단하고 해석 가능한 기하학적 단위로 분해하는 모양 기본 추상화가 소개되었습니다. 최근 3D 생성 방법들은 메쉬, 포인트 클라우드, 신경장 등의 표현을 사용하여 고품질 콘텐츠 생성을 가능케 했지만, 종종 의미적 깊이와 해석 가능성이 부족합니다.
구글 Colab에서 Anthropic의 Claude 모델과 mem0를 활용한 완전히 기능적인 봇 설정을 안내하는 튜토리얼. LangGraph의 직관적인 상태 머신 조종과 mem0의 강력한 벡터 기반 메모리 저장소를 결합하여 과거 대화를 기억하고 필요 시 관련 세부 정보를 검색하며 자연스러운 연속성 유지 가능.
화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.
알리바바의 ZeroSearch는 강화 학습과 시뮬레이션 문서를 활용하여 대형 언어 모델의 검색을 실시간 검색 없이 가르치는 방법을 제시하고 있다. 기존의 정적 데이터셋으로 훈련된 언어 모델은 시간이 지남에 따라 오래되어 문제가 발생하는데, ZeroSearch는 이를 극복하기 위해 새로운 방법론을 제시하고 있다.
강화 학습은 LLMs의 효율적인 추론 전략을 이끌기 위해 보상 신호를 사용하여 모델을 이끄는데, 이를 통해 복잡한 과제에 동적으로 적응하는 더 긴 고찰 과정을 가능하게 한다. 하지만 대부분의 강화 학습이 적용된 LLMs는 이러한 장점을 충분히 활용하지 못하고 있다.
바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.
기업 환경에서의 언어 처리는 점점 다양한 소스에서 정보를 종합해야 하는 문제에 직면하고 있습니다. 최근 대형 언어 모델의 발전은 놀라운 능력을 제공하지만, 매우 높은 비용, 하드웨어 업그레이드 요구와 같은 부작용도 동반됩니다.
자율 시스템이 점점 더 큰 언어 모델 (LLM)을 추론, 계획 및 실행에 활용함에 따라, 능력의 병목 현상이 아닌 의사 소통에서 병목 현상이 발생했습니다. LLM 에이전트는 지침을 구문 분석하고 도구를 호출할 수 있지만, 서로 확장 가능하고 안전하며 모듈식으로 상호 운용하는 능력은 심각하게 제한됩니다.
Tsinghua 대학의 ‘Absolute Zero’는 외부 데이터 없이 LLM을 훈련시키는데 성공하였다. 현재의 RLVR 작업은 규모 확장 문제에 직면하고 있지만, ‘Absolute Zero’는 중간 추론 단계를 모방하는 대신 결과 기반 피드백에 의존하여 추론 능력을 향상시켰다.
컴퓨터 과학 연구는 논리, 엔지니어링 및 데이터 기반 실험을 포함한 다학제적 노력으로 진화했습니다. 컴퓨팅 시스템이 일상생활에 깊이 편입되면서 연구는 대규모이며 실시간 시스템에 초점을 맞추고 있습니다. 이러한 시스템은 대규모 데이터 세트에서 학습하고 다양한 사용자 요구에 적응해야 합니다.
AI 모델은 수학 문제 해결, 논리적 문장 해석, 기업 의사 결정 지원과 같은 복잡한 작업을 처리해야 합니다. 이를 위해 수학적 추론, 과학적 이해, 고급 패턴 인식을 통합하는 것이 필요합니다. 실시간 응용 프로그램에서 지능형 에이전트에 대한 수요가 계속되는 가운데, 코딩 보조 도구와 비즈니스 자동화 도구가 포함됩니다.
Ming-Lite-Uni는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 이해하고 생성하는 멀티모달 AI 시스템을 구축하는 데 사용되는 오픈소스 프레임워크이다. 이는 다양한 상호작용 형식을 통해 보다 원활한 인간-인공지능 커뮤니케이션을 가능하게 한다.
OpenAI가 o4-mini 추론 모델에 Reinforcement Fine-Tuning (RFT)을 출시했는데, 이는 전문화된 작업에 맞게 기초 모델을 맞춤화하는 강력한 새로운 기술을 소개했다. RFT는 강화 학습의 원칙에 기반을 두고 있으며, 조직이 사용자 정의 목표와 보상 함수를 정의할 수 있어 모델이 향상되는 방식에 대해 상세한 제어를 제공한다.
Meta AI가 출시한 LlamaFirewall은 AI 에이전트의 보안 위험에 대응하기 위해 시스템 수준의 보안 계층을 제공하는 오픈 소스 가드레일 시스템이다.
UCLA, UW-Madison, Adobe 연구진이 ‘X-Fusion’을 소개하며 언어 모델에 시각 정보를 추가하는 연구를 발표. 텍스트 이해 능력을 잃지 않으면서 시각 정보를 통합하는 AI 모델의 중요성 강조.
NVIDIA가 코드 추론과 문제 해결을 위해 고안된 고성능 대형 언어 모델 세트인 OCR 모델을 Apache 2.0 라이선스로 오픈 소스화했다. 32B, 14B, 7B 버전은 최고 성능을 자랑하며 OAI 모델을 능가하는 벤치마킹 결과를 보였다.
Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.
구글이 연례 I/O 개발자 컨퍼런스 직전에 플래그십 AI 모델인 Gemini 2.5 Pro (I/O 에디션)의 초기 미리보기를 공개했다. 이번 버전은 코딩 정확도, 웹 애플리케이션 생성, 비디오 이해 등에서 상당한 향상을 이루었으며, GPT-4 Turbo를 앞서는 성능을 보여주고 있다.
후단 대학 연구진은 트랜스포머 모델의 개별 어텐션 헤드를 조사하면서, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이를 확인하는 실험으로 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다.
이 기사는 Anthropic의 Claude 모델로 구동되는 지능적 라우팅 시스템을 구축하는 방법을 보여줍니다. 이 시스템은 사용자 요청을 자동으로 분류하고 특화된 핸들러로 보내어 응답 효율과 품질을 향상시킵니다.
대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론에서 놀라운 능력을 보여주지만, 내부 지식에만 의존할 때 복잡한 정보 연구 요구를 해결하는 데 제약이 있습니다. WebThinker는 이러한 한계를 극복하고 다단계 추론 과정을 통해 정확한 과학 보고서를 생성하는데 도움을 줍니다.
최근 LLMs의 발전으로 자연어 이해, 추론 및 생성이 크게 향상되었지만, 이 모델들은 종종 환각을 생성하는데, 이는 신뢰성을 저해함. 높은 위험도메인에서 특히 시급하게 대응이 필요함.
중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.
AgentQL은 정확한 정보 형태를 정의함으로써 구조화되지 않은 데이터를 스크래핑할 수 있게 해줍니다. 이 튜토리얼에서는 Claude Desktop 내에 AgentQL MCP 서버를 구현하고, Claude의 내장 시각화 기능을 사용하여 탐색합니다.
구글이 AI 에이전트 시스템 개발 전문가를 위한 76페이지 화이트페이퍼를 발표했다. 에이전트 평가, 다중 에이전트 협업, RAG의 진화 등에 중점을 두고 에이전트를 대규모로 운영하는 데 초점을 맞췄다.
NVIDIA가 파라킷 TDT 0.6B를 공개했다. 이는 6억 개의 파라미터, 상용 허용 라이센스, 놀라운 실시간 요소 (RTF) 3386을 가지고 있어 음성 AI의 성능과 접근성에서 새로운 기준을 세우고 있다.
OpenAI가 대규모 AI 배포의 복잡성을 탐색하는 기업을 위한 실용적인 프레임워크를 제시한 ‘AI in the Enterprise’ 24페이지 문서를 발표했다. 보고서는 추상적인 이론보다는 Morgan Stanley, Klarna, Lowe’s, Mercado Libre와의 협업을 통해 얻은 경험을 기반으로한 일곱 가지 실행 전략을 제시한다.
구글 코랩과 그라디오 인터페이스를 활용해 안정성 AI의 세 가지 확산 모델을 비교하고 창의적인 이미지 생성하는 방법을 알아본다. 세 강력한 파이프라인을 비교하고 빠른 프롬프트 반복과 GPU 가속을 경험할 수 있다.
LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.
MCP는 AI 에이전트가 일관된 인터페이스를 통해 외부 서비스와 상호 작용할 수 있는 신흥 오픈 표준이다. API마다 사용자 정의 통합을 작성하는 대신, MCP 서버는 클라이언트 AI가 동적으로 발견하고 호출할 수 있는 일련의 도구를 노출한다. 이러한 분리는 API 제공업체가 진화할 수 있음을 의미한다.
Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.
MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.
대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.
KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.
급변하는 금융 환경에서는 전문화된 AI 에이전트를 활용하여 분석의 각 부분을 처리하는 것이 중요하며, Agno의 가벼운 모델에 중립적인 프레임워크는 Finance Agent와 Risk Assessment Agent와 같은 특정 에이전트를 신속하게 구축할 수 있도록 개발자에게 권한을 부여합니다.
구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.
Meta AI가 Llama 모델에 맞게 프롬프트를 최적화하는 과정을 간편화하는 Python 패키지 ‘Llama Prompt Ops’를 출시했다. 이 오픈소스 도구는 다른 대형 언어 모델과 잘 작동하는 입력을 Llama에 최적화된 형태로 변환하여 개발자와 연구자가 프롬프트 효과를 향상시키는 데 도움을 준다.
Claude 데스크톱을 Tavily AI의 Model Context Protocol (MCP) 서버와 Smithery 클라이언트를 사용하여 실시간 웹 검색 및 콘텐츠 추출 기능에 연결하는 방법에 대한 실습 튜토리얼. Tavily 홈페이지 및 대시보드를 살펴보고 개발자 API 키를 생성한 후 Tavily MCP 서버를 탐색하는 과정 포함.
IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.
이 튜토리얼에서는 비즈니스 응용을 위해 다양한 비전 기반 모델을 구현하는 방법을 탐색합니다. 이론적 측면보다는 실용적인 코드 구현, 기술적 세부사항, 비즈니스 사례에 중점을 둘 것입니다.