2026년 6월 21일 일요일
오늘의 신문
2026년 6월 21일 일요일 오늘의 신문
퍼플렉시티가 자가 개선 메모리 시스템인 '브레인'을 출시했습니다. 이 시스템은 에이전트의 작업을 기억하며, 성과와 실패를 분석해 개선합니다.
2026년 6월 18일 오후 4시 26분
OpenAI가 생명과학 연구를 평가하는 750개 작업으로 구성된 LifeSciBench를 발표했습니다. 이 벤치마크는 173명의 박사 과학자들이 작성한 기준을 바탕으로 AI 모델의 추론과 결정을 평가합니다.
2026년 6월 17일 오후 10시 28분
Vercel이 Apache-2.0 라이선스의 오픈소스 AI 에이전트 프레임워크 'Eve'를 공개했다. 각 에이전트는 기능에 맞춰 파일 디렉토리로 구성되어 있다.
2026년 6월 17일 오후 1시 22분
아톰 컴퓨팅과 누 퀀텀이 중립 원자 양자 프로세서 네트워크 구축을 위한 전략적 협력 관계를 체결했다. 이들은 모듈형 분산 양자 컴퓨팅 아키텍처를 공동 개발할 예정이다.
2026년 6월 17일 오전 8시 52분Quantum Computing Report
MiniMax가 새로운 희소 주의 메커니즘인 MSA를 발표했습니다. 이 기술은 쿼리당 상위 k 개의 키-값 블록을 선택하여 계산량을 28.4배 줄이는 데 성공했습니다.
2026년 6월 17일 오전 3시 44분
OpenAI가 2026년 6월 16일 배포 시뮬레이션을 도입했습니다. 이 방법은 새로운 모델 출시 전 과거 대화를 재생하여 배포 시 원치 않는 행동의 비율을 추정합니다.
2026년 6월 17일 오전 1시 49분
헤르메스 에이전트가 비동기 서브 에이전트를 도입하여 위임된 작업이 부모 채팅을 차단하지 않도록 개선했습니다. 새로운 도구 세트를 통해 작업을 생성하고 관리하는 방법을 소개합니다.
2026년 6월 16일 오전 5시 21분
'Meet Atoms'는 개발자나 소프트웨어 엔지니어가 아니더라도 아이디어를 AI에게 설명하면 앱을 구축하고 배포할 수 있는 노코드 도구입니다.
2026년 6월 16일 오전 4시 50분
Hewlett Packard Enterprise(HPE)는 양자 컴퓨팅 전략을 확장하며, 양자 하드웨어 및 제어 시스템 분야의 8개 주요 기업과 협력 계약을 체결했다고 발표했다. 이번 이니셔티브는 HPE의 HPC 플랫폼과 다양한 양자 모달리티를 통합하는 것을 목표로 한다.
2026년 6월 15일 오후 8시 40분Quantum Computing Report
사카나 AI의 첫 상용 제품인 사카나 마를린은 최대 8시간 동안 자율적으로 작동하며, AB-MCTS와 AI 과학자 워크플로우를 기반으로 다수의 페이지로 구성된 보고서와 슬라이드를 생성합니다.
2026년 6월 15일 오후 6시 32분
Flash-KMeans는 Triton GPU 커널을 활용한 오픈소스 IO 인식 K-평균 구현체로, 기존의 수학적 접근을 변경하지 않고도 FAISS보다 200배 빠른 성능을 자랑합니다.
2026년 6월 15일 오전 5시 16분
Z.ai가 2026년 6월 13일 GLM-5.2를 출시했습니다. 이 모델은 100만 토큰의 컨텍스트 창을 제공하며, 높은 노력과 최대 노력 수준을 지원합니다. 출시 시점에는 벤치마크가 제공되지 않았습니다.
2026년 6월 15일 오전 2시 10분
다트브릭스가 코딩 에이전트인 클로드 코드, 코덱스, 파이 위에서 작동하는 메타 하네스 '옴니젠트'를 오픈 소스로 공개했습니다. 이 프로젝트는 구성, 정책 관리, 실시간 세션 공유 기능을 제공합니다.
2026년 6월 14일 오전 1시 01분
Moonshot AI가 Kimi K2.7-Code를 오픈소스로 공개했다. 이 모델은 Kimi K2.6을 기반으로 하며, Kimi Code Bench v2에서 +21.8%의 성능 향상을 기록했다.
2026년 6월 13일 오전 12시 57분
문샷 AI가 macOS와 Windows에서 사용할 수 있는 로컬 데스크탑 에이전트 Kimi Work를 출시했습니다. 이 에이전트는 300개의 서브 에이전트로 구성된 스웜을 운영하며, 웹 브라우저를 제어하고 백그라운드 작업을 예약합니다.
2026년 6월 12일 오전 5시 37분
Zyphra가 1.2B, 2.7B, 7B 파라미터를 가진 Zamba2-VL 비전-언어 모델을 출시했습니다. 이 모델은 Mamba2와 Transformer를 결합하여 첫 번째 토큰 생성 시간을 대폭 단축합니다.
2026년 6월 12일 오전 4시 06분

최신뉴스 전체보기

GenSeg: Generative AI가 초저 데이터 환경에서 의료 이미지 세분화 변형

의료 이미지 세분화는 현대 의료 AI의 핵심이며 질병 감지, 진행 모니터링, 맞춤형 치료 계획 등 필수적인 작업을 가능케 한다. 그러나 특히 피부과, 영상의학, 심장병학과 같은 분야에서 정확한 세분화의 필요성이 절실하다. GenSeg는 초저 데이터 환경에서 의료 이미지 세분화를 혁신하는 연구이다.

2025년 7월 27일 오전 1시 07분
알리바바 Qwen, Qwen3-MT 소개: 강화학습으로 구동되는 차세대 다국어 기계 번역

알리바바가 Qwen API를 통해 Qwen3-MT(큐언 엠티터보)를 소개했다. 이는 언어 장벽을 뛰어넘는 놀랍도록 정확하고 빠르며 유연한 최신 기계 번역 모델로, 92개 이상의 언어를 지원하며 전 세계 인구의 95% 이상을 커버한다. 최신 아키텍처, 강화 학습, 풍부한 맞춤 옵션을 활용하여 뛰어난 성능을 보여준다.

2025년 7월 25일 오전 3시 09분
알리바바의 AI 논문, Lumos-1 소개: MM-RoPE 및 AR-DF를 활용한 통합 자기 회귀 비디오 생성기

자기 회귀 비디오 생성은 영상 합성에 초점을 맞추며 공간 배열과 시간 역학의 학습된 패턴을 사용하여 프레임별로 비디오를 생성하는 것이다. 이 논문은 MM-RoPE 및 AR-DF를 활용한 Lumos-1이라는 통합 자기 회귀 비디오 생성기를 소개한다.

2025년 7월 21일 오후 3시 43분
Allen Institute for AI-Ai2가 AutoDS를 발표: 개방형 과학적 발견을 위한 베이지안 서프라이즈 주도 엔진

Allen Institute for AI가 AutoDS(자율적 발견을 통한 서프라이즈)를 소개했는데, 이는 인간이 정의한 목표나 질의에 의존하지 않고 베이지안 서프라이즈를 측정하고 찾아내는 가치 있는 가정을 자동으로 생성, 테스트 및 반복함.

2025년 7월 21일 오전 3시 38분
구글 검색이 대규모 AI 업그레이드를 받았다: Gemini 2.5 Pro, 딥 서치, 그리고 에이전틱 인텔리전스

구글은 Gemini 2.5 Pro, 딥 서치, 그리고 강력한 새로운 에이전틱 기능을 도입하며 검색과 상호작용하는 방식을 변화시키고, 검색 엔진을 보다 똑똑하고 맥락에 맞게 만들고 있다. 이러한 기능들은 현재 미국 사용자에게만 제한되어 있지만, 구글 검색 방식에 대대적인 변화를 암시한다.

2025년 7월 17일 오후 1시 27분
Apple, 코드 생성용 7B Diffusion LLM인 DiffuCoder 소개

Apple이 코드 생성을 위해 맞춤화된 7B Diffusion LLM인 DiffuCoder를 소개했다. LLMs는 대화부터 코드 생성까지 다양한 작업에서 놀라운 결과를 얻어내며 자연어 처리를 혁신시켰다.

2025년 7월 16일 오후 7시 02분
NVIDIA, 오디오 일반 지능 발전을 위한 오픈소스 모델 ‘Audio Flamingo 3’ 출시

NVIDIA의 Audio Flamingo 3 (AF3)은 기계가 소리를 이해하고 추론하는 방식에 큰 발전을 이끌어냈다. 이전 모델들은 음성을 전사하거나 오디오 클립을 분류할 수는 있었지만, AF3는 음성, 주변 소리 등을 인간과 유사한 맥락에서 해석하는 능력을 갖췄다.

2025년 7월 16일 오전 12시 10분
AI 논문 소개: 다중 호합 질문 응답을 위한 하이브리드 SQL 및 텍스트 검색 프레임워크 TableRAG

다양한 데이터 유형이 혼합된 콘텐츠를 처리하는 더 지능적이고 유용한 AI 시스템 구축이 중요해지고 있다. 이 논문은 텍스트와 구조화된 테이블을 동시에 다루는 질문에 초점을 맞춘 프레임워크 TableRAG를 소개한다.

2025년 7월 15일 오후 4시 53분
Liquid AI가 LFM2를 오픈소스로 공개: 새로운 세대의 엣지 LLMs

Liquid AI가 새로운 엣지 LLMs인 LFM2를 오픈소스로 공개했다. 이 모델은 2배 빠른 추론과 3배 빠른 학습 성능을 제공하며, 컨볼루션과 어텐션 블록을 혼합한 하이브리드 설계를 특징으로 한다. 350M, 700M, 1.2B 파라미터 크기의 세 가지 모델이 제공되며, 유사한 크기의 모델과 비교했을 때 우수한 성능을 보여준다.

2025년 7월 14일 오전 2시 48분
인식부터 행동까지: 타인 AI 시스템에서 세계 모델의 역할

신체화된 AI 에이전트는 물리적 또는 가상 형태로 존재하며 주변 환경과 상호 작용할 수 있는 시스템이다. 이들은 세계를 지각하고 의미 있는 행동을 취한다. 최근의 발전은 신체화가 된 AI 에이전트의 물리적 상호작용, 인간 신뢰, 인간과 유사한 학습을 향상시킨다.

2025년 7월 11일 오후 4시 52분
AI에서의 컨텍스트 엔지니어링이란? 기술, 활용 사례 및 중요성

컨텍스트 엔지니어링은 대형 언어 모델(LLM)에 공급되는 컨텍스트를 설계, 조직화 및 조작하는 학문을 의미하며 모델 가중치나 아키텍처를 미세 조정하는 대신 입력에 초점을 맞춥니다. 이 기술은 프롬프트, 시스템 지침, 검색된 지식, 포맷팅 및 심지어 순서 등을 최적화하여 LLM의 성능을 향상시킵니다.

2025년 7월 6일 오전 3시 25분
Llama 3의 추론력을 포스트 트레이닝만으로 향상시킬 수 있을까? ASTRO는 +16% ~ +20% 벤치마크 향상을 보여줘

Meta AI와 Washington 대학의 연구진이 ASTRO(자동 회귀 검색 가르치는 추론기)를 소개했다. Llama-3.1-70B-Instruct에서 추론을 향상시키기 위한 포스트 트레이닝 프레임워크로, 모델에 컨텍스트 내 검색 수행을 가르치는 것이 특징이다.

2025년 7월 4일 오후 1시 19분
상하이 교통대학 연구원들, 강화 학습-확장 가능한 LLM 개발을 위한 OctoThinker 제안

연구원들이 OctoThinker를 제안하여 강화 학습을 통한 복잡한 추론 작업에 대한 LLM의 발전을 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 RL을 적용함으로써 강한 추론 능력을 보여주었다.

2025년 7월 2일 오후 9시 02분
TabArena: 대규모 재현성과 앙상블을 통한 타블러 기계 학습의 벤치마킹

타블러 기계 학습에서 벤치마킹의 중요성을 이해하고, 정형 데이터에서 패턴을 학습하는 모델을 구축하는 것에 초점을 맞추고 있습니다. 이는 정확성과 해석 가능성이 필수적인 의료 및 금융 분야에서 사용됩니다.

2025년 6월 30일 오후 9시 13분
미시간 대학 연구진이 제안한 G-ACT: LLMs에서 프로그래밍 언어 편향을 조절하는 확장 가능한 기계 학습 프레임워크

미시간 대학 연구진이 G-ACT를 소개했다. 이는 프로그래밍 언어 편향을 조절하기 위한 확장 가능한 기계 학습 프레임워크로, LLMs의 과학적 코드 생성에 활용될 수 있다.

2025년 6월 29일 오후 11시 51분
MLFlow를 활용한 LLM 평가 시작하기

MLflow는 머신러닝 라이프사이클을 관리하기 위한 강력한 오픈소스 플랫폼이다. 최근 MLflow는 대형 언어 모델(Large Language Models, LLMs)의 성능을 평가하기 위한 지원을 도입했다. 본 튜토리얼에서는 MLflow를 사용하여 LLM의 성능을 어떻게 평가하는지 살펴본다.

2025년 6월 27일 오후 6시 01분
인셉션 랩스가 소개한 머큐리: 초고속 코드 생성을 위한 확산 기반 언어 모델

인셉션 랩스가 개발한 머큐리는 자동 코드 생성을 위한 확산 기반 언어 모델로, 기존의 자기 회귀 방식보다 빠른 속도로 작동한다. 이는 소프트웨어 개발 분야에서 혁신을 가져올 것으로 기대된다.

2025년 6월 26일 오후 11시 43분
구글 딥마인드, 알파게놈 출시: DNA 단일 변이나 돌연변이의 영향을 더 포괄적으로 예측하는 딥러닝 모델

구글 딥마인드가 새로운 딥러닝 프레임워크인 알파게놈을 공개했다. 이 모델은 DNA 서열 변이의 조절적 결과를 넓은 생물학적 모달리티에 걸쳐 예측하는 것을 목표로 한다. 알파게놈은 1메가베이스까지의 긴 DNA 서열을 입력으로 받아 베이스 수준의 스플라이싱 이벤트와 같은 고해상도 예측을 출력한다.

2025년 6월 26일 오전 3시 39분
ETH와 Stanford 연구진, 의료 AI에서 LLM 정확도 향상을 위한 5.8백만 쌍 데이터셋 MIRIAD 소개

의료 결정 지원 및 적응형 채팅 기반 보조기능을 통해 의료 분야를 혁신시키려는 LLM의 주요 도전 과제는 사실적이지 않은 의료 정보를 생산하는 경향이 있음. ETH와 Stanford 연구진은 이 문제를 해결하기 위해 5.8백만 쌍의 데이터셋 MIRIAD를 소개하며 외부 의료 지식을 활용해 LLM의 정확도를 향상시키고자 함.

2025년 6월 25일 오후 3시 48분
Apple의 AI 추론 비판은 너무 이르다

최근 대형 추론 모델(LRMs)의 추론 능력에 대한 논쟁은 Apple의 “사고의 환영”과 Anthropic의 “사고의 환영의 환영”이라는 두 논문으로 활발해졌다. Apple의 논문은 LRMs의 추론 능력에 근본적 한계를 주장하는 반면, Anthropic은 이러한 주장이 평가의 결함에서 비롯된 것이라고 주장한다.

2025년 6월 22일 오전 2시 11분
WINGS 소개: 멀티모달 대형 언어 모델에서 텍스트만 기반 잊힘 방지를 위한 듀얼-러너 아키텍처

멀티모달 대형 언어 모델은 이미지와 텍스트를 처리하여 상호작용적이고 직관적인 AI 시스템을 발전시키는데 기여한다. 이 논문에서는 WINGS 아키텍처를 소개하며, 텍스트만 기반으로 학습된 모델이 정보를 잊는 것을 방지하는 방법을 제시한다.

2025년 6월 21일 오후 5시 57분
PoE-World + Planner가 최소한의 데모 데이터로 몬테즈마의 복수에서 강화 학습 RL 기준을 능가

심볼릭 추론의 중요성을 강조하며, AI 에이전트가 복잡한 상황에 적응할 수 있도록 하는 것이 중요하다. Dreamer와 같은 신경망 기반 모델은 유연성을 제공하지만 효과적으로 학습하기 위해 엄청난 양의 데이터가 필요하다. 반면 최근 방법들은 더 적은 양의 데이터로도 효율적인 학습이 가능하다.

2025년 6월 20일 오후 2시 01분
Microsoft AI가 코드 연구원 소개: 대규모 시스템 코드 및 커밋 기록을 위한 심층 연구 에이전트

소프트웨어 개발에서 AI의 사용이 커지면서 대형 언어 모델(LLMs)의 등장으로 코딩 관련 작업을 수행할 수 있는 모델이 개발되었습니다. 이러한 변화로 자율 코딩 에이전트가 설계되어 전통적으로 수행되던 작업을 지원하거나 자동화합니다.

2025년 6월 15일 오전 12시 37분
CVPR 2025에서 주목받은 구글 딥마인드의 ‘모션 프롬프팅’ 논문, 세밀한 비디오 제어 가능성 발표

비디오 생성을 위한 세밀한 제어는 광고, 영화 제작, 대화형 엔터테인먼트 시장에서의 확산을 위해 중요한 장벽이다. 텍스트 프롬프트는 제어의 주요 수단이지만 동적인 움직임을 명확히 하는 데 한계가 있다.

2025년 6월 14일 오전 12시 30분
VLM-R³: 시각-언어 작업에서 영역 인식, 추론 및 정제를 위한 다중 모달 프레임워크 소개

VLM-R³는 시각과 언어 정보를 통합하여 기계가 다이어그램 내의 수학 문제 해결, 사진에서의 표지판 해석, 과학적 차트 해석 등 다중 모달 추론 능력을 갖추도록 돕는 프레임워크이다. 이는 인간의 사고과정을 모방하는데 도움이 되며 시각적 해석과 논리적 진행이 필요한 작업에 적합하다.

2025년 6월 12일 오후 9시 17분
Mistral AI, 기업 및 오픈 소스 애플리케이션용 고급 Chain-of-Thought LLMs인 Magistral 시리즈 출시

Mistral AI가 최신 시리즈인 Magistral을 소개했다. 이는 추론에 최적화된 대형 언어 모델(Large Language Models)로 LLM 능력 발전의 중요한 한 걸음이다. Magistral 시리즈에는 Apache 2.0 라이선스 하에 공개된 24B-파라미터의 Magistral Small과 기업용 Magistral Medium이 포함되어 있다.

2025년 6월 11일 오전 5시 25분
구글 AI가 멀티 에이전트 시스템 검색 MASS를 소개: 더 나은 프롬프트와 토폴로지를 위한 새로운 AI 에이전트 최적화 프레임워크

멀티 에이전트 시스템은 여러 대형 언어 모델을 조정하여 복잡한 문제를 해결하는 데 중요해지고 있다. 단일 모델의 관점에 의존하는 대신, 이러한 시스템은 역할을 에이전트 사이에 분배하여 각각이 고유한 기능을 기여하게 한다. 이렇게 노동 분업이 시스템의 분석 및 응답 능력을 향상시킨다.

2025년 6월 7일 오후 7시 52분
클릭부터 추론까지: WebChoreArena 벤치마크, 메모리 집중과 멀티페이지 작업으로 에이전트 도전

웹 자동화 에이전트는 인공지능 분야에서 점점 더 주목받고 있는데, 이는 그들이 디지털 환경에서 인간과 유사한 작업을 수행할 수 있는 능력 때문이다. 이러한 에이전트들은 그래픽 사용자 인터페이스(GUI)를 통해 웹사이트와 상호작용하며, 클릭, 타이핑, 다중 웹 페이지 탐색 등과 같은 인간의 행동을 모방한다. WebChoreArena 벤치마크는 에이전트에게 메모리 집중적이고 멀티페이지 작업을 제공하여 도전한다.

2025년 6월 5일 오후 4시 10분
Salesforce AI, CRMArena-Pro 소개: LLM 에이전트를 위한 최초의 멀티턴 및 기업급 벤치마크

LLM으로 구동되는 AI 에이전트는 CRM과 같은 복잡한 비즈니스 업무를 처리하는 데 큰 잠재력을 보여준다. 그러나 실제 세계에서의 효과를 평가하는 것은 공개적이고 현실적인 비즈니스 데이터의 부족으로 어렵다. 기존의 벤치마크는 종종 간단한 일회성 상호작용이나 고객 서비스와 같은 좁은 응용에 초점을 맞추어 실제 업무를 놓치고 있다.

2025년 6월 5일 오후 3시 52분
NovelSeek 만나보기: 가설 생성부터 실험 검증까지의 자율적 과학 연구를 위한 통합 멀티 에이전트 프레임워크

NovelSeek는 인공지능 도구들이 특정 작업을 처리하는 데 사용되는 반면, 보다 복잡하고 데이터 중심의 문제에 직면하면 발견 속도가 느려질 수 있다는 문제를 해결하기 위해 가설 생성부터 실험 검증까지 자율적으로 수행하는 통합 멀티 에이전트 프레임워크를 소개한다.

2025년 5월 31일 오후 6시 53분
마이크로소프트의 이 AI 논문은 WINA를 소개합니다: 효율적인 대규모 언어 모델 추론을 위한 훈련 무료 희소 활성화 프레임워크

대규모 언어 모델(Large language models, LLMs)은 많은 AI 기반 서비스를 구동하지만 추론 중의 계산 비용이 큰 과제로 남아있었습니다. 본 논문은 WINA라는 훈련 무료 희소 활성화 프레임워크를 소개하며, 계산 효율성과 출력 품질의 균형을 최적화하는 것이 중요한 연구 분야임을 강조합니다.

2025년 5월 31일 오후 6시 44분
ARM 및 Ada-GRPO를 소개하는 이 AI 논문: 효율적이고 확장 가능한 문제 해결을 위한 적응 추론 모델

이 논문은 인공지능의 추론 작업이 효율적이고 확장 가능한 문제 해결을 위한 ARM과 Ada-GRPO와 같은 적응 추론 모델을 소개합니다. 대형 언어 모델이 논리 추론의 다단계를 모방하려는 노력 중에 존재하는데, 이 논리 추론 작업은 상식 이해, 수학 문제 해결 및 상징적 추론과 같은 인공지능의 기본적인 측면을 포함합니다.

2025년 5월 31일 오전 4시 18분
Apple과 Duke 연구진, LLM이 중간 답변 제공 가능하도록 하는 강화 학습 접근 방식 소개, 속도와 정확도 향상

Apple과 Duke 연구진이 속도와 정확도를 향상시키기 위해 LLM이 중간 답변을 제공할 수 있는 강화 학습 접근 방식을 소개했다. 일반적인 “생각한 후에 대답” 방법은 응답 시간을 늦추고 챗봇과 같은 실시간 상호작용을 방해할 수 있으며, 이전 추론 단계의 오류가 최종 답변을 잘못 이끌 수 있는 위험을 안고 있다.

2025년 5월 29일 오후 11시 03분
AI 논문 소개: 40K 데이터셋과 10배 비용 효율성을 갖춘 웹 에이전트를 위한 프로세스 보상 모델 WEB-SHEPHERD

이 AI 논문은 웹 네비게이션 에이전트를 구축하는 복잡성과 사용자 목표 해석, 웹사이트 구조 이해, 다단계 결정 등의 작업을 필요로 하는 것에 초점을 맞추고 있다.

2025년 5월 28일 오후 10시 43분
Meta AI, 다중 프레임 공간 이해를 위한 Multi-SpatialMLLM 소개

다중 모달 대형 언어 모델(Multi-modal large language models, MLLMs)은 다양한 시각적 작업을 처리할 수 있는 다재다능한 AI 어시스턴트로 큰 발전을 이루었다. 그러나 이러한 MLLM들을 격리된 디지턀 엔티티로 배치하는 것은 그들의 잠재력을 제한한다. Meta AI는 Multi-SpatialMLLM을 소개하며 현재 MLLMs의 공간적 추론 결함을 극복하고 실제 응용프로그램에 통합하는 데 도움이 되는 것을 목표로 한다.

2025년 5월 27일 오후 4시 09분
AI 논문 소개: Differentiable MCMC 레이어를 통한 새로운 AI 프레임워크

복잡한 데이터 기반 작업을 처리하는데 강력한 도구인 신경망은 종종 차량 라우팅이나 작업 일정 등 엄격한 제약 하에서 이산적인 결정을 내리는 데 어려움을 겪습니다. 이러한 문제들을 해결하기 위해 연구된 새로운 AI 프레임워크인 Differentiable MCMC 레이어를 소개한 논문입니다.

2025년 5월 26일 오후 8시 57분
AI 논문 소개: GRIT – 텍스트와 시각적 기반을 교차하여 이미지 추론 가르치는 방법

MLLM은 시각적 콘텐츠의 풍부함과 언어의 논리를 결합하는 모델을 만드는 것이 핵심. 그러나 두 영역을 효과적으로 연결하는 것에 어려움을 겪어 복잡한 추론 작업에서 성능 제한. 이 논문은 GRIT라는 방법을 소개하여 이미지와 텍스트를 교차시켜 복잡한 추론 작업에서의 성능을 향상시킴.

2025년 5월 25일 오전 2시 07분
AI 논문 소개: 빠르고 협업적인 LLM 추론을 위한 토큰 수준의 다중 에이전트 추론 패러다임 소개

대형 언어 모델(LLMs)이 협업적으로 작동할 수 있는 방법들 중 하나로 다중 에이전트 시스템이 탐구되고 있다. LLMs를 기반으로 한 다중 에이전트 시스템은 작업을 분할하고 동시에 작업하여 어려운 문제를 조정하는 잠재력을 갖고 있으며, 실시간 응용 프로그램에서 효율성을 높이고 지연 시간을 줄일 수 있는 잠재력을 갖고 있다.

2025년 5월 23일 오후 11시 48분
Microsoft AI가 Magentic-UI를 소개: 다단계 계획과 브라우저 사용이 필요한 복잡한 작업을 완료하기 위해 사람들과 함께 작동하는 오픈 소스 에이전트 프로토타입

Magentic-UI는 복잡한 웹 작업을 처리하고 다단계 계획과 브라우저 사용이 필요한 작업을 사람들과 협력하여 완료하는 오픈 소스 에이전트 프로토타입이다.

2025년 5월 22일 오후 9시 04분
대단한 순간을 넘어서: 대형 언어 모델에서 추론 구조화

대형 추론 모델인 OpenAI의 o1, o3, DeepSeek-R1, Grok 3.5, Gemini 2.5 Pro는 자체 수정, 되감기, 검증과 같은 고급 행동을 보여주며 “aha moments”로 알려진 강력한 능력을 나타냈다. 이러한 행동들은 지도된 미세 조정 없이 결과 중심 강화 학습을 통해 나타났다.

2025년 5월 22일 오후 2시 39분
Technology Innovation Institute TII, Falcon-H1: 확장 가능하고 다국어 및 장문맥 이해를 위한 하이브리드 트랜스포머-SSM 언어 모델 발표

언어 모델의 구조적 트레이드오프를 다루는 기술. 트랜스포머 아키텍처의 성능과 효율성을 균형 있게 유지하면서 장문맥 시나리오에서의 계산 복잡성을 줄이는 방법에 대한 논의.

2025년 5월 22일 오전 2시 49분
AI 논문 소개: MathCoder-VL 및 FigCodifier – 시각과 코드 정렬을 통한 멀티모달 수학적 추론 발전

멀티모달 수학적 추론은 기계가 텍스트 정보와 다이어그램, 그림과 같은 시각적 구성요소를 포함한 문제를 해결할 수 있게 합니다. 이는 언어 이해와 시각 해석을 결합하여 복잡한 수학적 맥락을 이해하는 것을 요구합니다. 이 능력은 교육, 자동화된 지도, 문서 분석에서 중요한데, 문제들은 종종 텍스트와 시각적 요소를 섞어 제시됩니다.

2025년 5월 22일 오전 1시 48분
PARSCALE(병렬 스케일링)을 소개하는 이 인공지능 논문: 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법

언어 모델의 성능 향상을 위해 연구자들이 모델을 확장하는데 집중함에 따라, 계산 자원이 증가하고 언어 모델의 개발 및 배포가 상당한 컴퓨팅 자원과 메모리에 의존하게 되었다. PARSCALE은 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법을 소개한다.

2025년 5월 21일 오후 7시 36분
데이터 없이 샘플링이 이제 확장 가능해졌습니다: Meta AI, 보상 주도적 생성 모델링을 위한 역순 샘플링 출시

기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.

2025년 5월 21일 오전 3시 06분
NVIDIA, 현실 환경에서 육체적 상식과 체험적 추론을 발전시키는 AI 모델 세트 ‘Cosmos-Reason1’ 출시

AI는 언어 처리, 수학, 코드 생성 분야에서 발전했지만 물리적 환경으로 확장하는 것은 여전히 어렵다. 물리 AI는 동적인 실제 환경에서 지각, 이해, 행동하는 시스템을 개발하여 이 간극을 줄이려고 한다. 텍스트나 기호를 처리하는 기존 AI와 달리 물리 AI는 주로 비디오와 같은 감각적 입력과 상호작용한다.

2025년 5월 20일 오후 8시 40분
렌민 대학과 화웨이 연구진, LLM 기반 에이전트의 메모리 맞춤화를 위한 통합 모듈형 AI 라이브러리 MemEngine 제안

LLM 기반 에이전트는 복잡한 작업을 처리하고 여러 역할을 수행하기 때문에 다양한 응용 분야에서 점점 더 사용되고 있습니다. 이러한 에이전트의 핵심 구성 요소 중 하나인 메모리는 정보를 저장하고 회상하며 과거 지식을 반영하고 신중한 결정을 내리는 데 중요한 역할을 합니다. 메모리는 장기간 상호 작용이나 역할 연기와 관련된 작업에서 과거 경험을 포착함으로써 핵심적인 역할을 합니다.

2025년 5월 20일 오후 1시 33분
Meta가 KernelLLM을 소개합니다: 효율적인 Triton GPU 커널로 PyTorch 모듈을 변환하는 8B LLM

Meta가 KernelLLM을 소개했습니다. 이는 PyTorch 모듈을 효율적인 Triton GPU 커널로 번역하는 8억 개의 파라미터를 가진 언어 모델로, GPU 프로그래밍의 장벽을 낮추기 위한 노력입니다.

2025년 5월 20일 오전 3시 36분
마이크로소프트의 AI 논문, 디스크ANN 통합 시스템 소개: Azure Cosmos DB를 활용한 비용 효율적이고 저지연 벡터 검색

최신 데이터 시스템에 대한 핵심 요구 사항 중 하나는 고차원 벡터 표현을 검색하는 능력이 되었다. 이러한 벡터 표현은 딥러닝 모델에 의해 생성되며 데이터의 의미론적 및 문맥적 의미를 포착한다. 이를 통해 시스템은 정확한 일치가 아닌 관련성과 유사성에 기반한 결과를 검색할 수 있다.

2025년 5월 19일 오후 8시 22분
Salesforce AI, CLIP 임베딩 및 플로우 매칭으로 구축된 완전한 오픈 소스 통합 멀티모달 모델 BLIP3-o 발표

BLIP3-o는 CLIP 임베딩과 플로우 매칭을 활용한 멀티모달 모델로, 이미지 이해 및 생성에 사용됩니다. 시각과 언어를 연결하는 관심이 높아지면서, 이미지 인식과 생성 기능을 통합한 시스템에 대한 연구가 확대되고 있습니다.

2025년 5월 16일 오후 3시 31분
바이트댄스, Seed1.5-VL 소개: 일반 목적의 다중 모달 이해와 추론을 진화시키기 위한 비전-언어 기반 모델

VLM은 일반 목적의 AI 시스템 구축에 중요하며, 시각적 및 텍스트 데이터를 통합함으로써 다중 모달 추론, 이미지 편집, GUI 에이전트, 로봇공학 등을 발전시키고 있음. 그러나 인간의 능력에 아직 미치지 못하는 부분이 있음.

2025년 5월 15일 오후 6시 11분
메타 AI가 CATransformers를 소개합니다: 지속 가능한 엣지 배포를 위해 AI 모델과 하드웨어를 공동 최적화하는 탄소 인식 기계 학습 프레임워크

기계 학습 시스템이 추천 엔진부터 자율 시스템까지 다양한 응용 프로그램에서 중요해지면서, 이러한 시스템들의 환경 지속 가능성에 대한 필요성이 증가하고 있습니다. CATransformers는 AI 모델과 하드웨어를 지속 가능한 엣지 배포를 위해 공동 최적화하는 탄소 인식 기계 학습 프레임워크입니다.

2025년 5월 14일 오후 3시 10분
OpenAI, 건강 관리에서 대형 언어 모델의 성능과 안전성 측정을 위한 오픈소스 벤치마크 ‘HealthBench’ 공개

OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.

2025년 5월 13일 오전 2시 18분
AG-UI (에이전트-사용자 상호작용 프로토콜): AI 에이전트가 프론트엔드 애플리케이션에 연결하는 방식을 표준화하는 오픈, 가벼운, 이벤트 기반 프로토콜

AI 에이전트들은 주로 백엔드 작업을 자동화하는데 집중해왔지만, 상호작용적인 AI 애플리케이션이 늘어남에 따라 사용자와 상호작용하는 에이전트의 필요성이 대두되었다. AG-UI 프로토콜은 이러한 문제를 해결하기 위해 개발된 오픈, 가벼운, 이벤트 기반 프로토콜이다.

2025년 5월 12일 오후 12시 04분
AI 논문이 소개하는 효과적인 상태 크기(ESS): 성능 최적화를 위한 시퀀스 모델의 메모리 활용 측정 지표

시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.

2025년 5월 11일 오후 2시 29분
화웨이, Pangu Ultra MoE 소개: 시뮬레이션 주도 아키텍처 및 시스템 수준 최적화를 사용하여 Ascend NPUs에서 효율적으로 훈련된 718B-파라미터 희소 언어 모델

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.

2025년 5월 10일 오후 8시 11분
바이트댄스, 딥 연구 자동화를 위한 모듈화된 멀티 에이전트 프레임워크 DeerFlow 오픈소스화

바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.

2025년 5월 10일 오전 2시 02분
구글, 혁신과 확장 가능한 엔지니어링을 결합한 하이브리드 연구 모델로 컴퓨터 과학 연구 재정의

컴퓨터 과학 연구는 논리, 엔지니어링 및 데이터 기반 실험을 포함한 다학제적 노력으로 진화했습니다. 컴퓨팅 시스템이 일상생활에 깊이 편입되면서 연구는 대규모이며 실시간 시스템에 초점을 맞추고 있습니다. 이러한 시스템은 대규모 데이터 세트에서 학습하고 다양한 사용자 요구에 적응해야 합니다.

2025년 5월 9일 오후 6시 37분
언어 모델에 시각 추가하는 ‘X-Fusion’ 소개하는 UCLA, UW-Madison, Adobe 연구진

UCLA, UW-Madison, Adobe 연구진이 ‘X-Fusion’을 소개하며 언어 모델에 시각 정보를 추가하는 연구를 발표. 텍스트 이해 능력을 잃지 않으면서 시각 정보를 통합하는 AI 모델의 중요성 강조.

2025년 5월 8일 오후 9시 13분
NVIDIA, 32B, 14B, 7B 크기의 오픈 코드 추론 모델 오픈 소스화

NVIDIA가 코드 추론과 문제 해결을 위해 고안된 고성능 대형 언어 모델 세트인 OCR 모델을 Apache 2.0 라이선스로 오픈 소스화했다. 32B, 14B, 7B 버전은 최고 성능을 자랑하며 OAI 모델을 능가하는 벤치마킹 결과를 보였다.

2025년 5월 8일 오전 3시 31분
구글, Gemini 2.5 Pro I/O 출시: 코딩에서 GPT-4 Turbo를 앞섬, 네이티브 비디오 이해 지원, 웹 개발 분야 주도

구글이 연례 I/O 개발자 컨퍼런스 직전에 플래그십 AI 모델인 Gemini 2.5 Pro (I/O 에디션)의 초기 미리보기를 공개했다. 이번 버전은 코딩 정확도, 웹 애플리케이션 생성, 비디오 이해 등에서 상당한 향상을 이루었으며, GPT-4 Turbo를 앞서는 성능을 보여주고 있다.

2025년 5월 7일 오후 6시 30분
후단 대학 연구진, 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 복구하는 희소 어텐션 메커니즘 ‘Lorsa’ 소개

후단 대학 연구진은 트랜스포머 모델의 개별 어텐션 헤드를 조사하면서, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이를 확인하는 실험으로 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다.

2025년 5월 7일 오후 2시 07분
LLMs에서 자동 환각 탐지가 가능할까? 이론적 및 경험적 조사

최근 LLMs의 발전으로 자연어 이해, 추론 및 생성이 크게 향상되었지만, 이 모델들은 종종 환각을 생성하는데, 이는 신뢰성을 저해함. 높은 위험도메인에서 특히 시급하게 대응이 필요함.

2025년 5월 7일 오전 12시 06분
NVIDIA, 파라킷 TDT 0.6B 공개: 음성인식에서 새로운 표준 세우며 오디오 1시간을 1초에 전사

NVIDIA가 파라킷 TDT 0.6B를 공개했다. 이는 6억 개의 파라미터, 상용 허용 라이센스, 놀라운 실시간 요소 (RTF) 3386을 가지고 있어 음성 AI의 성능과 접근성에서 새로운 기준을 세우고 있다.

2025년 5월 6일 오전 1시 47분
AI 에이전트가 기억을 저장, 잊고, 검색하는 방법? 다음 세대 LLM을 위한 메모리 작업에 대한 새로운 시선

LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.

2025년 5월 5일 오후 7시 26분
다중 모달 쿼리에는 다중 모달 RAG가 필요합니다: KAIST와 DeepAuto.ai 연구원들이 정확하고 효율적인 검색 증강 생성을 위해 모달과 세분성을 동적으로 경로 지정하는 UniversalRAG라는 새로운 프레임워크를 제안합니다

KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.

2025년 5월 4일 오후 11시 33분
구글 연구진, 진단 AI 발전: AMIE가 Gemini 2.0 Flash와의 다중모달 추론을 사용해 주치의를 능가

구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.

2025년 5월 4일 오후 4시 00분
Meta AI, Llama 모델용 프롬프트 최적화를 위한 Python 툴킷 ‘Llama Prompt Ops’ 출시

Meta AI가 Llama 모델에 맞게 프롬프트를 최적화하는 과정을 간편화하는 Python 패키지 ‘Llama Prompt Ops’를 출시했다. 이 오픈소스 도구는 다른 대형 언어 모델과 잘 작동하는 입력을 Llama에 최적화된 형태로 변환하여 개발자와 연구자가 프롬프트 효과를 향상시키는 데 도움을 준다.

2025년 5월 4일 오전 12시 20분
Vision Foundation Models: 구현과 비즈니스 응용

이 튜토리얼에서는 비즈니스 응용을 위해 다양한 비전 기반 모델을 구현하는 방법을 탐색합니다. 이론적 측면보다는 실용적인 코드 구현, 기술적 세부사항, 비즈니스 사례에 중점을 둘 것입니다.

2025년 5월 3일 오후 3시 59분
Meta와 부즈 앨런, 우주 산양 배치: 온보드 의사 결정을 위해 국제우주정거장으로 향하는 오픈소스 AI

Meta와 부즈 앨런이 Meta의 오픈소스 대형 언어 모델 ‘Llama 3.2’의 맞춤형 인스턴스인 Space Llama을 국제우주정거장(ISS) 미국 국립 연구소에 배치했다. 이는 우주에서 자율 AI 시스템을 가능하게 하는 중요한 한걸음이며, LLM의 실용적인 통합 사례 중 하나로 주목받고 있다.

2025년 5월 2일 오전 3시 00분
LLM 에이전트 훈련이 더 안정화: StarPO-S와 RAGEN 소개로 다중 턴 추론과 강화 학습 붕괴 대응하는 연구진

대형 언어 모델(Large language models, LLM)이 상호작용 환경에서 자율 에이전트로 훈련받을 때 중요한 도전에 직면하고 있다. 순차적 의사 결정, 교차 턴 메모리 유지, 환경적 피드백에 대한 적응 등이 필요한데, 이는 효과적인 계획 보조자, 로봇 응용 프로그램, 경험을 통해 자가 개선할 수 있는 지도 에이전트 개발에 중요하다. 이에 연구진은 StarPO-S와 RAGEN을 도입하여 이러한 도전을 대응하고 있다.

2025년 5월 2일 오전 2시 31분
LLM 에이전트의 장애 진단과 자가 수정: Atla의 EvalToolbox를 활용한 τ-Bench 결과에 대한 기술적 심층 탐구

대규모 언어 모델(LLM) 기반 에이전트를 운영 환경에 배치하면 종종 신뢰성 문제가 발생한다. 에이전트의 실패 원인을 정확히 식별하고 선행적인 자가 수정 메커니즘을 구현하는 것이 중요하다. Atla의 최근 분석에 따르면, τ-Bench 벤치마크에서 얻은 세부적인 인사이트는 에이전트의 실패에 대해 전통적인 집계 성공 지표를 넘어 Atla의 EvalToolbox 접근법을 강조한다.

2025년 4월 30일 오후 1시 02분
이메일 에이전트를 위한 강화 학습: OpenPipe의 ART·E가 정확도, 응답 시간 및 비용에서 o3를 능가

OpenPipe는 ART·E (이메일 자율 검색 도구)를 소개했는데, 이는 인박스 내용을 기반으로 사용자 질문에 답변하는 데 중점을 둔 오픈소스 연구 에이전트로, 정확성, 응답성 및 계산 효율성에 초점을 맞추고 있다. ART·E는 강화 학습을 통해 대형 언어 모델 에이전트를 튜닝하여 전문화된, 고 신호 사용 사례에 적합성을 증명하고 있다.

2025년 4월 29일 오후 8시 07분
ViSMaP: 메타 프롬프팅과 짧은 형식 데이터셋을 사용한 1시간 길이의 비디오의 비지도 요약

ViSMaP는 짧은 비디오와 캡션으로 구성된 데이터셋에서 학습된 비디오 캡션 모델이 일반적으로 산책이나 대화와 같은 기본 동작을 설명하는 데는 용이하지만, Vlog, 스포츠 이벤트, 영화와 같이 긴 형식의 비디오의 복잡성에는 어려움이 있습니다. ViSMaP는 메타 프롬프팅과 짧은 형식 데이터셋을 사용하여 이러한 문제를 해결합니다.

2025년 4월 28일 오후 4시 24분
바이트댄스, LLM 사전 훈련에서 데이터 품질과 다양성을 위한 통합 AI 프레임워크 ‘QuaDMix’ 소개

대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…

2025년 4월 27일 오전 2시 16분
중국 AI 논문, 대규모 추론 언어 모델이 동적 초기 종료를 달성하는 훈련 무료 접근 방식 DEER 제안

중국의 AI 논문은 대규모 추론 언어 모델이 추론 중 동적 초기 종료를 달성할 수 있는 DEER라는 훈련 무료 접근 방식을 제안했다. 최근 대규모 추론 언어 모델의 발전으로 CoT 생성 길이가 확장되면서 복잡한 문제 해결 능력이 크게 향상되었지만, 지나치게 긴 CoT 시퀀스 생성은 계산 효율성과 대기 시간이 증가한다.

2025년 4월 26일 오후 6시 16분
LLM이 대규모 사회 시뮬레이션 가능해졌다: Fudan 대학 연구진, 1000만 실제 사용자로 사회 시뮬레이션을 위한 LLM 에이전트 주도의 SocioVerse 세계 모델 소개

연구자들은 대규모 사회 시뮬레이션을 위한 SocioVerse를 소개하며, 전통적인 방법론의 한계로부터 대안적 접근법을 모색하고 있다. LLM은 1000만 실제 사용자를 기반으로 사회 시뮬레이션을 가능케 하며, 인간 행동 연구에 혁명을 일으킬 수 있다.

2025년 4월 26일 오후 1시 31분
구글 딥마인드 연구팀이 QuestBench를 소개: LLM의 추론 작업에서 빠진 정보 식별 능력 평가

대형 언어 모델(LLM)은 수학, 논리, 기획, 코딩 등의 추론 작업에서 상당한 주목을 받았다. 그러나 이러한 모델을 실제 상황에 적용할 때 중요한 도전 과제가 발생한다. 현재의 구현은 대부분 필요한 모든 정보가 명확하게 제공된다는 가정 하에 작동하지만, 현실은 종종 불완전하거나 모호한 상황을 제시한다.

2025년 4월 26일 오전 12시 06분
Microsoft Research, 장문 맥락 비전-언어 모델 사전 채우기 가속화를 위한 MMInference 소개

Microsoft Research가 MMInference를 소개하여 장문 맥락 비전-언어 모델의 사전 채우기 속도를 가속화했다. 이는 로봇공학, 자율 주행, 의료 분야에서 특히 성능을 향상시키는데 도움이 된다.

2025년 4월 25일 오전 2시 23분
AWS, SWE-PolyBench 소개: AI 코딩 에이전트 평가를 위한 새로운 오픈소스 다국어 벤치마크

최근 대형 언어 모델의 발전으로 소프트웨어 코드를 생성, 수정, 이해하는 AI 기반 코딩 에이전트 개발이 가능해졌으나, 이러한 시스템의 평가는 주로 파이썬에 국한된 합성 또는 범위가 제한된 벤치마크로 제한되어 있습니다. AWS가 SWE-PolyBench를 소개하며 이 문제에 대처하고 있습니다.

2025년 4월 23일 오후 6시 29분
레이블 없이 학습 가능한 LLMs: Tsinghua 대학과 상해 AI 연구소 연구진, 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 테스트 시간 강화 학습(TTRL) 소개

대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.

2025년 4월 23일 오전 1시 37분
VoltAgent 만나보기: 확장 가능한 AI 에이전트를 구축하고 조율하는 TypeScript AI 프레임워크

VoltAgent는 TypeScript 기반의 오픈 소스 프레임워크로, 모듈화된 빌딩 블록과 자율적인 에이전트를 위한 추상화를 제공하여 AI 주도 애플리케이션의 생성을 간소화합니다. 대규모 언어 모델 (LLMs), 도구 통합 및 상태 관리와 같은 복잡성을 다루기 위해 핵심 엔진을 제공합니다.

2025년 4월 22일 오후 7시 04분
물리 지능 연구자들, 물리 시스템에서 실시간 적응 지능을 위한 새 AI 프레임워크 π-0.5 소개

물리적 환경에서 신뢰성 있는 지능 시스템을 설계하는 것은 AI의 어려운 과제 중 하나이다. 기존 AI 시스템은 높은 수준의 표현에 의존하는 반면, 실제 세계는 잡음이 많고 예측할 수 없으며 추상화에 저항한다. 물리 지능 연구팀은 이러한 문제를 해결하기 위해 새로운 AI 프레임워크인 π-0.5를 소개했다.

2025년 4월 22일 오후 3시 21분
새로운 기술로 쓰레기 분리 작업 개선

인공지능을 활용한 재활용 로봇이 색상, 질감, 모양 및 로고의 패턴을 인식하여 재활용물을 분류하는 방법을 학습하고 있습니다.

2025년 4월 19일 오전 6시 00분
Meta AI가 Perception Language Model (PLM)을 발표: 도전적인 시각 인식 작업 해결을 위한 오픈 및 재현 가능한 비전-언어 모델

Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.

2025년 4월 18일 오후 8시 23분
구글, Gemini API를 통해 Gemini 2.5 Flash 미리보기 공개

구글이 Gemini API를 통해 접근 가능한 AI 모델인 Gemini 2.5 Flash를 소개했다. Gemini 2.0 Flash의 기초를 바탕으로 하면서 추론 능력을 향상시키고 속도와 비용 효율성에 중점을 둔다. Gemini의 주요 기능 중 하나는 조정 가능한 사고 예산과 하이브리드 추론이다.

2025년 4월 18일 오전 1시 36분