
Daytona SDK를 사용하여 안전한 샌드박스 환경에서 신뢰할 수 없거나 AI로 생성된 Python 코드를 Notebook 내에서 안전하게 실행하는 방법을 안내하는 튜토리얼. 샌드박스 생성, 코드 실행, 프로세스 격리, 종속성 설치, 간단한 스크립트 실행 등을 다룸.
Daytona SDK를 사용하여 안전한 샌드박스 환경에서 신뢰할 수 없거나 AI로 생성된 Python 코드를 Notebook 내에서 안전하게 실행하는 방법을 안내하는 튜토리얼. 샌드박스 생성, 코드 실행, 프로세스 격리, 종속성 설치, 간단한 스크립트 실행 등을 다룸.
Apple 연구원들은 대규모 추론 모델인 LRMs의 구조적 결함을 퍼즐 기반 평가를 통해 밝혔다. 최근 AI는 인간과 유사한 사고를 시뮬레이션하는데 초점을 맞춘 고급 모델로 발전하고 있다.
전통적인 기후 모델링의 한계를 극복하기 위해 구글 AI가 하이브리드 AI-물리 모델을 개발했다. 이 모델은 지역 기후 위험을 더 정확하게 예측하고 더 나은 불확실성 평가를 제공한다.
VLM-R³는 시각과 언어 정보를 통합하여 기계가 다이어그램 내의 수학 문제 해결, 사진에서의 표지판 해석, 과학적 차트 해석 등 다중 모달 추론 능력을 갖추도록 돕는 프레임워크이다. 이는 인간의 사고과정을 모방하는데 도움이 되며 시각적 해석과 논리적 진행이 필요한 작업에 적합하다.
Meta AI가 V-JEPA 2를 소개했다. 이는 인터넷 규모의 비디오에서 학습하고 강력한 시각적 이해, 미래 상태 예측, 제로샷 계획을 가능하게 하는 확장 가능한 오픈 소스 세계 모델이다.
AI 기반 개발에서 코딩 에이전트는 필수적인 협업자로 자리 잡았다. 이러한 독립적 또는 준자율적 도구는 코드를 작성, 테스트, 리팩토링하여 개발 주기를 현격히 가속화한다. 그러나 하나의 코드베이스에서 작업하는 에이전트 수가 증가함에 따라 의존성 충돌, 에이전트 간의 상태 누출, 각 에이전트의 작업 추적의 어려움도 커진다.
대형 언어 모델(Large Language Models, LLMs)은 강화 학습과 테스트 시간 스케일링 기술을 통해 추론과 정밀도에서 상당한 향상을 보여주고 있다. 이에 대해 기존 방법들보다 우수한 성능을 보이는 CURE라는 강화 학습 프레임워크가 소개되었는데, 이는 코드 및 단위 테스트 생성에 있어 ground-truth 코드로부터의 감독을 필요로 하지 않아 데이터 수집 비용을 줄이고 사용 가능한 훈련 데이터의 규모를 제한하지 않는다.
본 튜토리얼에서는 Riza의 안전한 Python 실행을 기반으로 강력한 다기능 AI 에이전트를 Google Colab에서 구축하는 방법을 안내합니다. Riza 자격 증명을 구성하여 검사 가능한 코드 실행을 가능하게하고, LangChain 에이전트에 Riza의 ExecPython 도구를 통합합니다.
최근의 LLM 발전은 복잡한 작업에서 뚜렷한 개선을 이끌어내었지만, 이 모델들의 단계적 추론 과정은 여전히 불분명하다. 대부분의 평가는 최종 답변 정확도에 초점을 맞추어 추론 과정을 숨기고 모델이 지식을 어떻게 결합하는지를 나타내지 않는다.
Mistral AI가 최신 시리즈인 Magistral을 소개했다. 이는 추론에 최적화된 대형 언어 모델(Large Language Models)로 LLM 능력 발전의 중요한 한 걸음이다. Magistral 시리즈에는 Apache 2.0 라이선스 하에 공개된 24B-파라미터의 Magistral Small과 기업용 Magistral Medium이 포함되어 있다.
NVIDIA와 대학 연구진이 최근 논문에서, 큰 언어 모델이 더 긴 시퀀스 또는 병렬 추론 체인을 생성하기를 요구함에 따라, 추론 시간 성능이 토큰 수뿐 아니라 키-값(KV) 캐시의 메모리 풋프린트에 의해 심각하게 제한되는 문제를 다루었다.
최신 언어 모델은 훈련 데이터를 의미있게 기억하는지에 대한 논란이 있습니다. 메타의 새로운 프레임워크는 모델의 용량을 비트 수준에서 정의하여 이 문제를 다루고 있습니다.
LLM은 사전 훈련 데이터와 컴퓨팅 리소스의 스케일링을 통해 정확성을 향상시키지만, 한정된 데이터로 인해 대체 스케일링으로의 관심이 이동되었다. 최근에는 강화 학습 (RL) 후 훈련이 사용되었다. 과학적 추론 모델은 CoT 프롬프팅을 통해 초기에 답변 이전에 사고 과정을 내보내는 방식으로 성능을 향상시킨다.
강화 학습은 대형 언어 모델 (LLM)을 미세 조정하는 데 강력한 방법으로 등장했다. 이 모델은 이미 요약부터 코드 생성까지 다양한 작업을 수행할 수 있으며, RL은 구조화된 피드백을 기반으로 출력을 조정하여 지능적인 행동을 더욱 향상시킨다.
AI-주도 개발이 소프트웨어 제작을 재정의함에 따라, “vibe 코딩”이 개발자가 원하는 대로 말하면 에이전트가 구축하는 패러다임 전환적 방법으로 등장했다. Andrej Karpathy가 만든 용어는 코드 중심적 워크플로우에서 자연어 기반 소프트웨어 프로토타이핑으로의 전환을 반영한다. 신뢰할만한 vibe 코딩 도구 목록을 소개한다.
Google의 Gemini 모델과 Pandas의 유연성을 결합하여 타이타닉 데이터셋을 분석하는 방법을 학습합니다. ChatGoogleGenerativeAI 클라이언트와 LangChain의 Pandas DataFrame 에이전트를 결합하여 자연어 쿼리를 해석하는 상호작용 가능한 “에이전트”를 설정합니다.
도구 보강 에이전트의 등장으로 언어 모델이 외부 API 및 서비스를 활용하여 정확한 작업(산술 계산 또는 실시간 데이터 조회)을 수행할 수 있게 되었으며, 이는 언어 이해의 폭과 기능을 효과적으로 결합하고 있다.
VeBrain은 로봇 팔과 다리로 등장하는 기계들이 주변 환경을 인식하고 상황을 해석하며 의미 있는 조치를 취할 수 있도록하는 ML 모델의 통합을 통해 로봇 공학 분야를 발전시키고 자율적인 기계로 나아가고 있다.
알케미스트는 텍스트-이미지(T2I) 생성 분야에서 일관된 출력 품질을 달성하는데 도움을 주는 감독 미세 조정 데이터셋으로, 대규모 사전 훈련만으로는 높은 품질과 정렬을 달성하기 어렵다는 도전에 대응한다. DALL-E 3, Imagen 3, Stable Diffusion 3과 같은 모델의 발전에도 불구하고, 미학적 및 정렬 측면에서 일관된 출력 품질을 달성하는 것은 여전히 과제다.
Mistral 에이전트 API의 핸드오프 기능을 활용하여 스마트하고 멀티 에이전트 워크플로우를 만드는 방법을 살펴본다. 이를 통해 다른 에이전트들이 서로 작업을 전달하면서 복잡한 문제를 모듈화되고 효율적인 방식으로 해결할 수 있다. 인플레이션 관련 질문에 답변하기 위해 협업하는 에이전트 시스템을 구축할 것이다.
대형 언어 모델에 의해 자주 사용되는 대형 추론 모델은 수학, 과학 분석 및 코드 생성의 고수준 문제를 해결하는 데 사용된다. 이중 모드 사고는 간단한 추론에 대한 신속한 응답과 복잡한 문제에 대한 신중하고 느린 사고를 모방한다. 이는 사람들이 직관적인 응답에서 복잡한 문제로 전환하는 방식을 반영한다.
대형 언어 모델(LLMs)은 각 토큰이 일관된 논리적 설명에 기여하는 Chain-of-Thoughts(CoTs)을 생성한다. 이러한 추론의 품질을 향상시키기 위해 다양한 강화 학습 기술이 사용되고 있으며, 이를 통해 모델은 생성된 출력을 정확성 기준과 일치시키는 피드백 메커니즘으로 학습할 수 있다.
Gemini 에이전트 네트워크 프로토콜을 소개하는 튜토리얼. Google의 Gemini 모델을 활용하여 AI 에이전트 간의 지능적인 협업을 가능하게 하는 프레임워크로, 분석가, 연구원, 합성기 및 검증자 역할을 가진 에이전트들 사이의 동적 통신을 용이하게 함.
대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개
모델 컨텍스트 프로토콜(MCP)은 2024년 11월에 Anthropic에 의해 소개되었으며, AI 모델이 JSON-RPC 2.0 기반의 프로토콜을 통해 외부 도구와 상호 작용할 수 있도록 하는 표준화된 안전한 인터페이스를 제공한다. Claude, Gemini, OpenAI에서 이미 MCP를 지원하고 있으며, 빠르게 채택되고 있다.
Mistral 에이전트에서 함수 호출을 활성화하는 방법을 살펴보는 튜토리얼. 함수의 입력 매개변수를 명확한 스키마로 정의하여 사용자 정의 도구를 에이전트에서 호출 가능하게 만들어 강력하고 동적인 상호작용을 가능하게 함. AviationStack API를 사용하여 실시간 항공편 상태를 검색.
AI를 유전체 연구에 활용하는 주요 장애물 중 하나는 복잡한 DNA 데이터로부터 해석 가능한 단계별 추론의 부족이다. BioReason은 생물학 메커니즘에 대한 통찰력을 제공하는 세계 최초의 추론 모델로, 기존의 DNA 모델이 가진 한계를 극복하고, 유전체에 대한 복잡한 추론을 가능하게 한다.
멀티 에이전트 시스템은 여러 대형 언어 모델을 조정하여 복잡한 문제를 해결하는 데 중요해지고 있다. 단일 모델의 관점에 의존하는 대신, 이러한 시스템은 역할을 에이전트 사이에 분배하여 각각이 고유한 기능을 기여하게 한다. 이렇게 노동 분업이 시스템의 분석 및 응답 능력을 향상시킨다.
바이트댄스 연구진이 자기회귀 이미지 생성을 위한 1차원 코어스 투 파인 프레임워크 ‘디테일플로우’를 소개했다. 이 방법은 이미지를 한 토큰씩 생성함으로써 구조적 일관성을 유지하면서 이미지를 생성하는 혁신적인 방법이다.
본 튜토리얼에서는 SerpAPI의 Google 검색 기능과 Google Gemini-1.5-Flash 모델의 기능을 결합하여 Google Colab 노트북 내에서 고급 연구 및 분석 워크플로우를 생성하는 방법을 보여줍니다. AdvancedSerpAPI Python 클래스를 정의함으로써 사용자는 일반 웹 결과, 뉴스 기사, 이미지 등을 다루는 향상된 검색 방법에 액세스할 수 있습니다.
기존 인공지능 시스템은 고정된 구조로 한정되어 있지만, Darwin Gödel Machine은 지속적인 개선을 통해 코드를 진화시키는 자가 개선 AI 에이전트이다. 이 모델은 인간의 과학적 진보에서 영감을 받아 지속적인 개선과 누적으로 작동한다.
알리바바의 Qwen 팀이 Qwen3-Embedding 및 Qwen3-Reranker 시리즈를 발표했다. 이는 다국어 임베딩 및 랭킹 표준을 재정의하여 현대 정보 검색 시스템에 기초를 제공한다. 현재 접근 방식은 고다국어 충실성 및 작업 적응성을 달성하는 데 어려움을 겪고 있지만, Qwen3 시리즈는 이러한 문제를 극복하고 있다.
강화 세밀 조정은 보상 신호를 사용하여 대형 언어 모델이 바람직한 동작을 하도록 안내합니다. 이 방법은 올바른 응답을 강화함으로써 모델이 논리적이고 구조화된 출력을 생성하는 능력을 강화합니다. 그러나 이러한 모델이 불완전하거나 오도하는 질문을 마주했을 때 응답하지 말아야 하는 시점을 알고 있는지 확인하는 것이 여전히 도전입니다.
이 튜토리얼에서는 LangGraph와 Gemini 1.5 Flash를 사용하여 다단계 지능형 쿼리 처리 에이전트를 구축하는 방법을 보여줍니다. 각 노드는 라우팅, 분석, 연구, 응답 생성 및 유효성 검사로 구성된 목적 노드 시리즈를 통해 들어오는 쿼리를 처리합니다.
웹 자동화 에이전트는 인공지능 분야에서 점점 더 주목받고 있는데, 이는 그들이 디지털 환경에서 인간과 유사한 작업을 수행할 수 있는 능력 때문이다. 이러한 에이전트들은 그래픽 사용자 인터페이스(GUI)를 통해 웹사이트와 상호작용하며, 클릭, 타이핑, 다중 웹 페이지 탐색 등과 같은 인간의 행동을 모방한다. WebChoreArena 벤치마크는 에이전트에게 메모리 집중적이고 멀티페이지 작업을 제공하여 도전한다.
LLM으로 구동되는 AI 에이전트는 CRM과 같은 복잡한 비즈니스 업무를 처리하는 데 큰 잠재력을 보여준다. 그러나 실제 세계에서의 효과를 평가하는 것은 공개적이고 현실적인 비즈니스 데이터의 부족으로 어렵다. 기존의 벤치마크는 종종 간단한 일회성 상호작용이나 고객 서비스와 같은 좁은 응용에 초점을 맞추어 실제 업무를 놓치고 있다.
인공지능이 크게 발전해왔고 대형 언어 모델의 등장으로 성장의 주요 이정표를 찍었다. 최신 트렌드를 따라가는 한 가지 방법은 독서다. 2025년에 읽을 인공지능 도서를 소개한다.
NVIDIA는 ProRL을 소개하며 장기간 강화학습이 언어 모델의 새로운 추론 능력을 발휘하고 일반화를 향상시킨다. 최근 추론 중심 언어 모델의 발전으로 AI에서 시험 시간 계산의 규모가 커졌다. 강화학습은 추론 능력을 향상시키고 보상 조작 함정을 완화하는 데 중요하다. 하지만 기본 모델에서 새로운 추론 능력을 제공하는지 아니면 기존 솔루션의 샘플링 효율을 최적화하는 데 도움을 주는지에 대한 논쟁이 남아있다.
파리 기반의 H 회사가 Agentic AI를 현실로 구현하기 위해 3가지 주요 단계를 발표했다. Runner H 공개 베타 버전과 함께 Holo-1과 Tester H도 공개되었다.
Mistral AI가 기업 소프트웨어 개발 환경에 맞춘 AI 코딩 어시스턴트인 Mistral Code를 발표했다. 이 릴리스는 Mistral이 프로페셔널 개발 파이프라인에서의 제어, 보안 및 모델 적응성에 대응하고자 하는 의지를 보여준다. Mistral Code는 기존의 AI 코딩 도구에서 관측된 주요 제약 사항을 대상으로 한다.
현재 LLM 기반 에이전트는 기억력이 부족하고 모든 작업을 처음부터 다시 시작하는 문제가 있다. LifelongAgentBench는 지속적 학습을 평가하기 위한 벤치마크로, 지난 경험을 통해 학습할 수 없는 상태인 LLM 기반 에이전트들의 한계를 보완하고 일반 지능으로 나아가는 진정한 발전을 목표로 한다.
NVIDIA가 Llama Nemotron Nano VL을 소개했다. 이는 문서 수준 이해 작업에 효율적이고 정확한 비전-언어 모델(VLM)로, 복잡한 문서 구조의 정확한 구문 분석이 필요한 애플리케이션을 대상으로 한다.
이 튜토리얼에서는 Tavily와 구글 Gemini AI를 활용한 고급 대화형 웹 인텔리전스 에이전트를 소개한다. 웹 페이지에서 구조화된 콘텐츠를 추출하고 AI 기반 분석을 수행하여 통찰력 있는 결과를 제공하는 스마트 에이전트를 구성하고 사용하는 방법을 배운다.
비전-언어 모델(VLMs)은 다중 모달 AI 시스템의 기초 구성 요소로, 시각 환경을 이해하고 다중 모달 콘텐츠를 추론하며 디지털과 물리적 세계와 상호 작용할 수 있게 함. MiMo-VL-7B는 일반 시각 이해와 다중 모달 추론을 강화하기 위한 강력한 모델로, 연구진은 새로운 아키텍처 설계와 교육 방법론에 대한 연구를 통해 분야에서의 신속한 발전을 이끌고 있음.
야н덱스가 Yambda를 공개하여 추천 시스템 연구 및 개발을 가속화하는데 기여했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하며 학술 연구와 산업 규모 응용 프로그램 간의 간극을 줄이는 데 도움이 된다.
Diffusion 기반 대형 언어 모델은 전통적인 자기 회귀 모델에 대안으로 탐구되고 있으며, 동시 다중 토큰 생성의 잠재력을 제공한다. 그러나 이러한 모델은 경쟁력 있는 추론을 제공하는 데 어려움을 겪는다.
정책 기울기 방법은 특히 강화 학습을 통해 LLM의 추론 능력을 크게 향상시켰습니다. 이들 방법을 안정화하는 데 중요한 도구는 Kullback-Leibler (KL) 정규화인데, 현재 정책과 참조 정책 사이의 급격한 변화를 억제합니다. PPO와 같은 알고리즘에서 널리 사용되지만, 다양한 KL 변형에 대해 더 탐구할 여지가 많습니다.
LangChain, Gemini 2.0 Flash 및 Jina Search 도구를 통합하여 지능형 AI 어시스턴트를 구축하는 방법을 보여주는 튜토리얼. 강력한 대형 언어 모델과 외부 검색 API의 기능을 결합하여 최신 정보 및 인용을 제공하는 어시스턴트를 생성함.
데스크톱 커맨더 MCP 서버는 MCP 파일 시스템 서버를 기반으로 한 강력한 도구로, 모든 개발 작업을 하나의 채팅 인터페이스로 통합해줍니다. 파일 검색, 편집, 관리, 터미널 명령 실행, 프로세스 제어 등을 데스크톱에서 Model Context Protocol (MCP)을 사용하여 직접 수행할 수 있습니다.
인공지능 모델을 사용하여 생성된 딥페이크가 어떻게 만들어지는지, 주로 사용되는 AI 아키텍처인 GANs와 autoencoders에 대해 설명하고 있다. 이러한 딥페이크가 선거 정보 조작에 어떤 영향을 미칠 수 있는지에 대한 법적 책임에 대해 다룬다.
Enigmata의 새로운 훈련 방법은 LRM을 사용하여 RL로 훈련된 대규모 추론 모델이 수학, STEM 및 코딩과 같은 복잡한 추론 작업에서 높은 성능을 보이지만, 순수한 논리 추론 기술이 필요한 다양한 퍼즐 작업을 완료하는 데 어려움을 겪는 문제에 대한 획기적인 성과를 이루고 있습니다.
BOND의 최신 보고서는 2025년 5월의 인공지능 트렌드를 소개하며, AI 기술의 현재 상태와 급속한 발전에 대한 데이터 기반 스냅샷를 제시한다. 보고서는 AI 채택 속도, 기술적 향상, 시장 영향의 전례없는 속도를 강조하며, 주요 결과들을 살펴보고 있다.
NovelSeek는 인공지능 도구들이 특정 작업을 처리하는 데 사용되는 반면, 보다 복잡하고 데이터 중심의 문제에 직면하면 발견 속도가 느려질 수 있다는 문제를 해결하기 위해 가설 생성부터 실험 검증까지 자율적으로 수행하는 통합 멀티 에이전트 프레임워크를 소개한다.
대규모 언어 모델(Large language models, LLMs)은 많은 AI 기반 서비스를 구동하지만 추론 중의 계산 비용이 큰 과제로 남아있었습니다. 본 논문은 WINA라는 훈련 무료 희소 활성화 프레임워크를 소개하며, 계산 효율성과 출력 품질의 균형을 최적화하는 것이 중요한 연구 분야임을 강조합니다.
씨스코의 최신 적극적 AI 보고서는 적극적 AI의 발전으로 B2B 기술 내 고객 경험(CX) 패러다임이 심변하고 있음을 제공. AI 에이전트는 자율적 의사 결정, 맥락 인식 및 적응 학습으로 특징 지어져 CX를 근본적으로 재구성하며, 이전에 이루기 어려웠던 정도의 개인화, 적극성 및 예측 능력을 제공한다.
이 논문은 인공지능의 추론 작업이 효율적이고 확장 가능한 문제 해결을 위한 ARM과 Ada-GRPO와 같은 적응 추론 모델을 소개합니다. 대형 언어 모델이 논리 추론의 다단계를 모방하려는 노력 중에 존재하는데, 이 논리 추론 작업은 상식 이해, 수학 문제 해결 및 상징적 추론과 같은 인공지능의 기본적인 측면을 포함합니다.
이 튜토리얼에서는 Python을 사용하여 에이전트 통신 프로토콜 (ACP)을 구현하고, 구글의 Gemini API를 활용하여 유연하고 ACP 호환성있는 메시징 시스템을 구축합니다. google-generativeai 라이브러리의 설치 및 구성부터 시작하여, 핵심 추상화, 메시지 유형, 수행, ACPMessage 데이터 클래스 등을 소개하며 에이전트 간 통신을 표준화합니다.
최신 다중 모달 기반 모델은 학문적 지식과 수학적 추론에 대한 벤치마크를 발전시켰으나 물리적 추론에는 한계가 있음을 PHYX 벤치마크가 강조. 기계 지능의 중요한 측면인 물리적 추론은 학문적 지식, 상징적 작업, 현실 성애를 통합하는 것을 필요로 함.
Yandex가 세계 최대 규모의 이벤트 데이터셋 ‘Yambda’를 공개했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하여 학술 연구와 산업 규모 응용 사이의 간극을 줄이는 데 기여한다.
스탠포드 대학 연구진이 Biomni를 소개했다. 이는 생명과학 분야에서 다양한 작업과 데이터 유형에 걸쳐 자동화를 위한 AI 에이전트로, 질병 메커니즘 발견, 신약 타깃 식별, 효과적인 치료법 개발을 통해 인간 건강을 발전시키는 빠르게 발전하는 분야에 활용된다.
Apple과 Duke 연구진이 속도와 정확도를 향상시키기 위해 LLM이 중간 답변을 제공할 수 있는 강화 학습 접근 방식을 소개했다. 일반적인 “생각한 후에 대답” 방법은 응답 시간을 늦추고 챗봇과 같은 실시간 상호작용을 방해할 수 있으며, 이전 추론 단계의 오류가 최종 답변을 잘못 이끌 수 있는 위험을 안고 있다.
DeepSeek가 R1 추론 모델의 업데이트 버전인 DeepSeek-R1-0528을 출시했다. 이번 업데이트로 모델은 수학, 프로그래밍, 일반 논리 추론 분야에서 능력을 향상시켰으며, 주요 모델인 OpenAI의 o3 및 Google의 Gemini 2.5 Pro과의 경쟁력을 갖추게 되었다.
이 튜토리얼에서는 구글의 첨단 Gemini API를 사용하여 정교한 자기 발전형 AI 에이전트를 만드는 방법을 살펴볼 것이다. 이 자기 발전형 에이전트는 자율적인 문제 해결을 보여주며 성능을 동적으로 평가하고 성공과 실패로부터 학습하여 반성적 분석과 자가 수정을 통해 지속적으로 능력을 향상시킨다. 이 튜토리얼은 구조화된 코드 구현을 안내하며 메모리 관리 및 기타 메커니즘에 대해 상세히 다룬다.
삼성 연구원이 텍스트 프롬프트를 고품질 비디오 시퀀스로 변환하는 핵심 기술인 비디오 생성 모델을 향상시키기 위한 ANSE(Active Noise Selection for Generation)을 소개했다. 확산 모델은 무작위 노이즈에서 시작하여 현실적인 비디오 프레임으로 반복적으로 정제하는 방식으로 작동한다. 텍스트-비디오 모델은 이를 확장한다.
이 AI 논문은 웹 네비게이션 에이전트를 구축하는 복잡성과 사용자 목표 해석, 웹사이트 구조 이해, 다단계 결정 등의 작업을 필요로 하는 것에 초점을 맞추고 있다.
싱가포르 국립대학 연구진은 최근 확산 모델을 자연어 처리 작업에 적용하는 관심이 증가함에 따라 이를 텍스트 생성의 노이즈 제거 과정으로 취급하는 이산 확산 언어 모델(DLMs)을 개발했다. DLMs는 전통적인 자기회귀 모델과 달리 병렬 디코딩을 가능하게 하며 더 나은 제어를 제공한다.
자연어 처리(NLP)에서 강화 학습 방법인 RLHF를 활용하여 모델 출력을 향상시키는데 사용되었으며, RLVR은 이 접근 방식을 확장하여 feedback으로 수학적 정확성이나 구문적 특징과 같은 자동 신호를 활용함. 부정확한 답변이 수학 추론을 개선할 수 있음을 보여줌.
이 튜토리얼에서는 Lyzr을 활용하여 YouTube 비디오 트랜스크립트를 추출, 처리, 분석하는 간소화된 방법을 소개합니다. Lyzr의 직관적인 챗봇 인터페이스와 youtube-transcript-api, FPDF를 결합하여 사용자는 비디오 콘텐츠를 구조화된 PDF 문서로 변환하고 동적 분석을 수행할 수 있습니다.
확산 모델은 고품질 이미지 생성에서 성공을 거두었으며, 이제는 다양한 데이터 유형 처리의 기초로 탐구되고 있습니다. 이 능력은 텍스트와 이미지와 같은 이산 데이터와 연속 데이터를 포함한 멀티모달 작업에 유망한 확산 모델을 만듭니다.
현재의 대형 언어 모델은 자연어의 범위 내에서 추론하는 데 한정되어 있지만, 연구자들은 이산 언어 토큰 대신 연속적인 개념 임베딩으로 대체하며 모델의 표현 능력과 범위를 확장시키는 소프트 씽킹을 도입했다.
Mistral은 AI 에이전트 개발을 용이하게 하는 Agents API를 소개했다. Python 코드 실행, 이미지 생성, RAG 수행 등 다양한 작업을 수행할 수 있는 AI 에이전트를 개발하기 위한 프레임워크로, 대형 언어 모델이 여러 도구와 데이터 원본과 상호 작용할 수 있는 환경을 제공한다.
본 튜토리얼에서는 Google의 Gemini 모델 위에 구축된 Agent2Agent 협업 프레임워크를 구현한다. 데이터 과학자, 제품 전략가, 위험 분석가 및 창의적 혁신가까지 다양한 AI 페르소나를 만드는 과정을 안내하며, 이들 에이전트들이 구조화된 메시지를 교환하여 복잡한 실제 문제에 대처하는 방법을 보여준다.
다중 모달 대형 언어 모델(Multi-modal large language models, MLLMs)은 다양한 시각적 작업을 처리할 수 있는 다재다능한 AI 어시스턴트로 큰 발전을 이루었다. 그러나 이러한 MLLM들을 격리된 디지턀 엔티티로 배치하는 것은 그들의 잠재력을 제한한다. Meta AI는 Multi-SpatialMLLM을 소개하며 현재 MLLMs의 공간적 추론 결함을 극복하고 실제 응용프로그램에 통합하는 데 도움이 되는 것을 목표로 한다.
대규모 추론 모델(LRMs)은 짧은 문맥 추론에서 강화 학습을 통해 인상적인 성능을 보여주었지만, 이러한 이익은 긴 문맥 시나리오로 일반화되지 않는다. 다중 문서 QA, 연구 종합, 법적 또는 금융 분석과 같은 응용 프로그램에서는 모델이 100K 토큰을 초과하는 시퀀스를 처리하고 추론해야 한다.
UT Austin 연구진이 20,000개의 혼돈적 ODE로 사전 학습된 비선형 동역학을 위한 기반 모델 ‘Panda’를 소개했다. 혼돈적 시스템은 초기 조건에 매우 민감하여 장기적인 예측이 어렵기 때문에, 이를 모델링하는 데 오차가 발생할 경우 빠르게 커질 수 있다. 이에 대한 새로운 접근 방식을 제시하고 있다.
복잡한 데이터 기반 작업을 처리하는데 강력한 도구인 신경망은 종종 차량 라우팅이나 작업 일정 등 엄격한 제약 하에서 이산적인 결정을 내리는 데 어려움을 겪습니다. 이러한 문제들을 해결하기 위해 연구된 새로운 AI 프레임워크인 Differentiable MCMC 레이어를 소개한 논문입니다.
마이크로소프트와 청화 연구자들이 보상 추론 모델을 도입하여 LLM의 테스트 시간 컴퓨팅을 동적으로 조정함으로써 더 나은 정렬을 이룰 수 있는지에 대한 연구. 강화학습 기반 모델의 한계와 장점을 살펴보고, 수학적 추론에 대한 가능성을 탐구함.
실제 데이터는 비용이 많이 들고 혼돈스럽고 개인정보 보호 규정에 제한을 받을 수 있지만, 합성 데이터는 이에 대한 해결책을 제공한다. SDV(Synthetic Data Vault)는 기계 학습을 사용하여 현실적인 탭릿형 데이터를 생성하는 오픈 소스 Python 라이브러리이다. 이는 실제 데이터에서 패턴을 학습하고 안전한 공유, 테스트 및 모델 훈련을 위해 고품질의 합성 데이터를 생성한다.
NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.
LangChain의 ReAct 에이전트 프레임워크와 Anthropic의 Claude API를 통합하여 Python 코드를 생성하고 라이브로 실행하여 결과를 캡처하는 종단간 솔루션 구축 방법에 대한 튜토리얼.
NVIDIA의 인공지능이 강화 학습을 통해 수학 및 코드 추론을 발전시키는 AceReason-Nemotron을 소개했다. AI 시스템의 추론 능력은 중요한 구성 요소이며, 최근 대규모 강화 학습을 통해 추론 모델을 구축하는 데 흥미가 커지고 있다.
마이크로소프트가 NLWeb을 출시했다. 이 프로젝트는 모든 웹사이트를 자연어 인터페이스를 통해 AI 기반 앱으로 쉽게 변환할 수 있게 해준다. 기존 솔루션들은 중앙집중식이거나 기술적 전문 지식이 필요한데, 이로 인해 개발자들이 지능형 에이전트를 구현하는 데 제약이 생겼다.
MLLM은 시각적 콘텐츠의 풍부함과 언어의 논리를 결합하는 모델을 만드는 것이 핵심. 그러나 두 영역을 효과적으로 연결하는 것에 어려움을 겪어 복잡한 추론 작업에서 성능 제한. 이 논문은 GRIT라는 방법을 소개하여 이미지와 텍스트를 교차시켜 복잡한 추론 작업에서의 성능을 향상시킴.
LangGraph와 Claude를 사용하여 다양한 작업에 최적화된 강력한 멀티툴 AI 에이전트를 만드는 포괄적인 튜토리얼. 수학 계산, 웹 검색, 날씨 조회, 텍스트 분석, 실시간 정보 검색 등을 포함한 다양한 작업에 최적화된 AI 에이전트를 만드는 과정을 소개하며, 설치를 간편화하여 초보자도 쉽게 설정할 수 있도록 함.
LLM은 프로그래밍 작업에서 놀라운 능력을 보여주었지만, 프로그램 최적화에 대한 잠재력은 완전히 탐구되지 않았다. 최근의 노력 중 일부는 LLM을 사용하여 C++ 및 Python과 같은 언어의 성능을 향상시키는 데 사용되었지만, LLM을 사용하여 코드를 최적화하는 더 넓은 응용은 여전히 제한적이다.
Microsoft의 AutoGen 프레임워크를 사용하여 개발자들이 최소한의 코드로 복잡한 다중 에이전트 워크플로우를 조율하는 방법을 보여줌. AutoGen의 RoundRobinGroupChat 및 TeamTool 추상화를 활용하여 연구원, 사실 확인자, 비평가, 요약가, 편집자 등 전문 보조자들을 “DeepDive” 도구로 완벽하게 조합할 수 있음.
대형 언어 모델(LLMs)이 협업적으로 작동할 수 있는 방법들 중 하나로 다중 에이전트 시스템이 탐구되고 있다. LLMs를 기반으로 한 다중 에이전트 시스템은 작업을 분할하고 동시에 작업하여 어려운 문제를 조정하는 잠재력을 갖고 있으며, 실시간 응용 프로그램에서 효율성을 높이고 지연 시간을 줄일 수 있는 잠재력을 갖고 있다.
기업이 AI 어시스턴트를 점점 통합함에 따라, 이러한 시스템이 실제 업무를 얼마나 효과적으로 수행하는지, 특히 음성 기반 상호작용을 통해 수행하는 방법을 평가하는 것이 중요하다. 기존의 평가 방법은 일반적인 대화 기술이나 제한된 작업별 도구 사용에 집중하지만, 특정 도메인에서 복잡하고 전문화된 워크플로우를 관리하는 AI 에이전트의 능력을 측정할 때는 한계가 있다.
싱가포르 국립대학 연구진은 ‘Thinkless’라는 적응형 프레임워크를 소개했다. 이 프레임워크는 DeGRPO를 사용하여 불필요한 추론을 최대 90%까지 줄일 수 있다.
롱-컨텍스트 모델링의 발전으로 LLM 및 대형 비전-언어 모델의 새로운 기능이 개방되었고, 이에 효과적인 평가 벤치마크인 ‘MMLONGBENCH’가 소개되었다.
Magentic-UI는 복잡한 웹 작업을 처리하고 다단계 계획과 브라우저 사용이 필요한 작업을 사람들과 협력하여 완료하는 오픈 소스 에이전트 프로토타입이다.
대형 추론 모델인 OpenAI의 o1, o3, DeepSeek-R1, Grok 3.5, Gemini 2.5 Pro는 자체 수정, 되감기, 검증과 같은 고급 행동을 보여주며 “aha moments”로 알려진 강력한 능력을 나타냈다. 이러한 행동들은 지도된 미세 조정 없이 결과 중심 강화 학습을 통해 나타났다.
Anthropic이 새로운 언어 모델인 클로드 오퍼스 4와 클로드 소넷 4를 출시했다. 이 업데이트는 클로드 모델 패밀리의 기술적 세련성을 대폭 향상시켰는데, 특히 구조화된 추론, 소프트웨어 엔지니어링 및 자율 에이전트 행동과 관련된 영역에서 주목할만한 발전을 이루었다.
언어 모델의 구조적 트레이드오프를 다루는 기술. 트랜스포머 아키텍처의 성능과 효율성을 균형 있게 유지하면서 장문맥 시나리오에서의 계산 복잡성을 줄이는 방법에 대한 논의.
멀티모달 수학적 추론은 기계가 텍스트 정보와 다이어그램, 그림과 같은 시각적 구성요소를 포함한 문제를 해결할 수 있게 합니다. 이는 언어 이해와 시각 해석을 결합하여 복잡한 수학적 맥락을 이해하는 것을 요구합니다. 이 능력은 교육, 자동화된 지도, 문서 분석에서 중요한데, 문제들은 종종 텍스트와 시각적 요소를 섞어 제시됩니다.
Gemma 3n은 실시간 장치 사용을 위한 소형이면서 고효율적인 다중 모달 AI 모델로, 지능을 기기에 직접 통합함으로써 빠른 응답 속도를 제공하고 메모리 요구를 줄이며 사용자 프라이버시를 강화한다.
행렬 곱셈에 대한 빠른 알고리즘 발견은 컴퓨터 과학과 수치 선형 대수학에서 중요한 연구 주제이다. Strassen과 Winograd의 공헌 이후 각종 전략들이 등장했고, 이에는 그래디언트 기반 방법, 휴리스틱 기술, 그룹 이론적 기법 등이 포함된다. RXTX 알고리즘은 이러한 맥락에서 효율적인 구조화된 행렬 곱셈을 위한 머신러닝 가이드 알고리즘이다.
모델 컨텍스트 프로토콜 (MCP)은 AI 모델을 더 넓은 소프트웨어 생태계와 통합하는 데 중심 역할을 하고 있다. Anthropic이 개발한 MCP는 언어 모델이나 자율 에이전트가 REST API, 데이터베이스 쿼리, 파일 시스템 작업 또는 하드웨어 제어를 찾고 호출하는 방식을 표준화한다. 각 기능을 자체 설명하는 “도구”로 노출함으로써 […]
이 튜토리얼에서는 Anthropic의 Claude API와 완벽하게 통합된 간소화된 그래프 기반 AI 오케스트레이션 프레임워크인 LangGraph의 구현에 대한 실용적인 가이드를 제공합니다. Google Colab에 최적화된 자세하고 실행 가능한 코드를 통해 개발자들은 간결한 답변 생성, 응답의 분석, AI 워크플로우 시각화 등을 수행하는 상호 연결된 노드로 AI 워크플로우를 구축하는 방법을 학습합니다.
Marktechpost AI 미디어가 2025년 Agentic AI 및 AI 에이전트 보고서를 발표했습니다. 이 보고서는 AI 에이전트의 아키텍처, 프레임워크 및 배포 전략을 탐구하며, 미래를 형성하는 기술적으로 엄밀한 내용을 제공합니다. 보고서는 추론이 가능한 모델, 메모리 프레임워크 및 조정을 기반으로 한 증가하는 생태계를 탐색합니다.