2025년 6월 14일 토요일
오늘의 신문
2025년 6월 14일 토요일 오늘의 신문
비디오 생성을 위한 세밀한 제어는 광고, 영화 제작, 대화형 엔터테인먼트 시장에서의 확산을 위해 중요한 장벽이다. 텍스트 프롬프트는 제어의 주요 수단이지만 동적인 움직임을 명확히 하는 데 한계가 있다.
2025년 6월 14일 오전 12시 30분
VLM-R³는 시각과 언어 정보를 통합하여 기계가 다이어그램 내의 수학 문제 해결, 사진에서의 표지판 해석, 과학적 차트 해석 등 다중 모달 추론 능력을 갖추도록 돕는 프레임워크이다. 이는 인간의 사고과정을 모방하는데 도움이 되며 시각적 해석과 논리적 진행이 필요한 작업에 적합하다.
2025년 6월 12일 오후 9시 17분
멀티 에이전트 시스템은 여러 대형 언어 모델을 조정하여 복잡한 문제를 해결하는 데 중요해지고 있다. 단일 모델의 관점에 의존하는 대신, 이러한 시스템은 역할을 에이전트 사이에 분배하여 각각이 고유한 기능을 기여하게 한다. 이렇게 노동 분업이 시스템의 분석 및 응답 능력을 향상시킨다.
2025년 6월 7일 오후 7시 52분
LLM으로 구동되는 AI 에이전트는 CRM과 같은 복잡한 비즈니스 업무를 처리하는 데 큰 잠재력을 보여준다. 그러나 실제 세계에서의 효과를 평가하는 것은 공개적이고 현실적인 비즈니스 데이터의 부족으로 어렵다. 기존의 벤치마크는 종종 간단한 일회성 상호작용이나 고객 서비스와 같은 좁은 응용에 초점을 맞추어 실제 업무를 놓치고 있다.
2025년 6월 5일 오후 3시 52분
비전-언어 모델(VLMs)은 다중 모달 AI 시스템의 기초 구성 요소로, 시각 환경을 이해하고 다중 모달 콘텐츠를 추론하며 디지털과 물리적 세계와 상호 작용할 수 있게 함. MiMo-VL-7B는 일반 시각 이해와 다중 모달 추론을 강화하기 위한 강력한 모델로, 연구진은 새로운 아키텍처 설계와 교육 방법론에 대한 연구를 통해 분야에서의 신속한 발전을 이끌고 있음.
2025년 6월 2일 오전 11시 50분
대규모 언어 모델(Large language models, LLMs)은 많은 AI 기반 서비스를 구동하지만 추론 중의 계산 비용이 큰 과제로 남아있었습니다. 본 논문은 WINA라는 훈련 무료 희소 활성화 프레임워크를 소개하며, 계산 효율성과 출력 품질의 균형을 최적화하는 것이 중요한 연구 분야임을 강조합니다.
2025년 5월 31일 오후 6시 44분
이 논문은 인공지능의 추론 작업이 효율적이고 확장 가능한 문제 해결을 위한 ARM과 Ada-GRPO와 같은 적응 추론 모델을 소개합니다. 대형 언어 모델이 논리 추론의 다단계를 모방하려는 노력 중에 존재하는데, 이 논리 추론 작업은 상식 이해, 수학 문제 해결 및 상징적 추론과 같은 인공지능의 기본적인 측면을 포함합니다.
2025년 5월 31일 오전 4시 18분
이 AI 논문은 웹 네비게이션 에이전트를 구축하는 복잡성과 사용자 목표 해석, 웹사이트 구조 이해, 다단계 결정 등의 작업을 필요로 하는 것에 초점을 맞추고 있다.
2025년 5월 28일 오후 10시 43분
확산 모델은 고품질 이미지 생성에서 성공을 거두었으며, 이제는 다양한 데이터 유형 처리의 기초로 탐구되고 있습니다. 이 능력은 텍스트와 이미지와 같은 이산 데이터와 연속 데이터를 포함한 멀티모달 작업에 유망한 확산 모델을 만듭니다.
2025년 5월 28일 오전 12시 34분
다중 모달 대형 언어 모델(Multi-modal large language models, MLLMs)은 다양한 시각적 작업을 처리할 수 있는 다재다능한 AI 어시스턴트로 큰 발전을 이루었다. 그러나 이러한 MLLM들을 격리된 디지턀 엔티티로 배치하는 것은 그들의 잠재력을 제한한다. Meta AI는 Multi-SpatialMLLM을 소개하며 현재 MLLMs의 공간적 추론 결함을 극복하고 실제 응용프로그램에 통합하는 데 도움이 되는 것을 목표로 한다.
2025년 5월 27일 오후 4시 09분
복잡한 데이터 기반 작업을 처리하는데 강력한 도구인 신경망은 종종 차량 라우팅이나 작업 일정 등 엄격한 제약 하에서 이산적인 결정을 내리는 데 어려움을 겪습니다. 이러한 문제들을 해결하기 위해 연구된 새로운 AI 프레임워크인 Differentiable MCMC 레이어를 소개한 논문입니다.
2025년 5월 26일 오후 8시 57분
MLLM은 시각적 콘텐츠의 풍부함과 언어의 논리를 결합하는 모델을 만드는 것이 핵심. 그러나 두 영역을 효과적으로 연결하는 것에 어려움을 겪어 복잡한 추론 작업에서 성능 제한. 이 논문은 GRIT라는 방법을 소개하여 이미지와 텍스트를 교차시켜 복잡한 추론 작업에서의 성능을 향상시킴.
2025년 5월 25일 오전 2시 07분
대형 언어 모델(LLMs)이 협업적으로 작동할 수 있는 방법들 중 하나로 다중 에이전트 시스템이 탐구되고 있다. LLMs를 기반으로 한 다중 에이전트 시스템은 작업을 분할하고 동시에 작업하여 어려운 문제를 조정하는 잠재력을 갖고 있으며, 실시간 응용 프로그램에서 효율성을 높이고 지연 시간을 줄일 수 있는 잠재력을 갖고 있다.
2025년 5월 23일 오후 11시 48분
대형 추론 모델인 OpenAI의 o1, o3, DeepSeek-R1, Grok 3.5, Gemini 2.5 Pro는 자체 수정, 되감기, 검증과 같은 고급 행동을 보여주며 "aha moments"로 알려진 강력한 능력을 나타냈다. 이러한 행동들은 지도된 미세 조정 없이 결과 중심 강화 학습을 통해 나타났다.
2025년 5월 22일 오후 2시 39분
멀티모달 수학적 추론은 기계가 텍스트 정보와 다이어그램, 그림과 같은 시각적 구성요소를 포함한 문제를 해결할 수 있게 합니다. 이는 언어 이해와 시각 해석을 결합하여 복잡한 수학적 맥락을 이해하는 것을 요구합니다. 이 능력은 교육, 자동화된 지도, 문서 분석에서 중요한데, 문제들은 종종 텍스트와 시각적 요소를 섞어 제시됩니다.
2025년 5월 22일 오전 1시 48분
언어 모델의 성능 향상을 위해 연구자들이 모델을 확장하는데 집중함에 따라, 계산 자원이 증가하고 언어 모델의 개발 및 배포가 상당한 컴퓨팅 자원과 메모리에 의존하게 되었다. PARSCALE은 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법을 소개한다.
2025년 5월 21일 오후 7시 36분

최신뉴스 전체보기

CVPR 2025에서 주목받은 구글 딥마인드의 ‘모션 프롬프팅’ 논문, 세밀한 비디오 제어 가능성 발표

비디오 생성을 위한 세밀한 제어는 광고, 영화 제작, 대화형 엔터테인먼트 시장에서의 확산을 위해 중요한 장벽이다. 텍스트 프롬프트는 제어의 주요 수단이지만 동적인 움직임을 명확히 하는 데 한계가 있다.

2025년 6월 14일 오전 12시 30분
VLM-R³: 시각-언어 작업에서 영역 인식, 추론 및 정제를 위한 다중 모달 프레임워크 소개

VLM-R³는 시각과 언어 정보를 통합하여 기계가 다이어그램 내의 수학 문제 해결, 사진에서의 표지판 해석, 과학적 차트 해석 등 다중 모달 추론 능력을 갖추도록 돕는 프레임워크이다. 이는 인간의 사고과정을 모방하는데 도움이 되며 시각적 해석과 논리적 진행이 필요한 작업에 적합하다.

2025년 6월 12일 오후 9시 17분
구글 AI가 멀티 에이전트 시스템 검색 MASS를 소개: 더 나은 프롬프트와 토폴로지를 위한 새로운 AI 에이전트 최적화 프레임워크

멀티 에이전트 시스템은 여러 대형 언어 모델을 조정하여 복잡한 문제를 해결하는 데 중요해지고 있다. 단일 모델의 관점에 의존하는 대신, 이러한 시스템은 역할을 에이전트 사이에 분배하여 각각이 고유한 기능을 기여하게 한다. 이렇게 노동 분업이 시스템의 분석 및 응답 능력을 향상시킨다.

2025년 6월 7일 오후 7시 52분
Salesforce AI, CRMArena-Pro 소개: LLM 에이전트를 위한 최초의 멀티턴 및 기업급 벤치마크

LLM으로 구동되는 AI 에이전트는 CRM과 같은 복잡한 비즈니스 업무를 처리하는 데 큰 잠재력을 보여준다. 그러나 실제 세계에서의 효과를 평가하는 것은 공개적이고 현실적인 비즈니스 데이터의 부족으로 어렵다. 기존의 벤치마크는 종종 간단한 일회성 상호작용이나 고객 서비스와 같은 좁은 응용에 초점을 맞추어 실제 업무를 놓치고 있다.

2025년 6월 5일 오후 3시 52분
MiMo-VL-7B: 일반 시각 이해 및 다중 모달 추론 강화를 위한 강력한 비전-언어 모델

비전-언어 모델(VLMs)은 다중 모달 AI 시스템의 기초 구성 요소로, 시각 환경을 이해하고 다중 모달 콘텐츠를 추론하며 디지털과 물리적 세계와 상호 작용할 수 있게 함. MiMo-VL-7B는 일반 시각 이해와 다중 모달 추론을 강화하기 위한 강력한 모델로, 연구진은 새로운 아키텍처 설계와 교육 방법론에 대한 연구를 통해 분야에서의 신속한 발전을 이끌고 있음.

2025년 6월 2일 오전 11시 50분
마이크로소프트의 이 AI 논문은 WINA를 소개합니다: 효율적인 대규모 언어 모델 추론을 위한 훈련 무료 희소 활성화 프레임워크

대규모 언어 모델(Large language models, LLMs)은 많은 AI 기반 서비스를 구동하지만 추론 중의 계산 비용이 큰 과제로 남아있었습니다. 본 논문은 WINA라는 훈련 무료 희소 활성화 프레임워크를 소개하며, 계산 효율성과 출력 품질의 균형을 최적화하는 것이 중요한 연구 분야임을 강조합니다.

2025년 5월 31일 오후 6시 44분
ARM 및 Ada-GRPO를 소개하는 이 AI 논문: 효율적이고 확장 가능한 문제 해결을 위한 적응 추론 모델

이 논문은 인공지능의 추론 작업이 효율적이고 확장 가능한 문제 해결을 위한 ARM과 Ada-GRPO와 같은 적응 추론 모델을 소개합니다. 대형 언어 모델이 논리 추론의 다단계를 모방하려는 노력 중에 존재하는데, 이 논리 추론 작업은 상식 이해, 수학 문제 해결 및 상징적 추론과 같은 인공지능의 기본적인 측면을 포함합니다.

2025년 5월 31일 오전 4시 18분
AI 논문 소개: 40K 데이터셋과 10배 비용 효율성을 갖춘 웹 에이전트를 위한 프로세스 보상 모델 WEB-SHEPHERD

이 AI 논문은 웹 네비게이션 에이전트를 구축하는 복잡성과 사용자 목표 해석, 웹사이트 구조 이해, 다단계 결정 등의 작업을 필요로 하는 것에 초점을 맞추고 있다.

2025년 5월 28일 오후 10시 43분
MMaDA: 텍스트 추론, 시각 이해 및 이미지 생성을 위한 통합 멀티모달 확산 모델 소개

확산 모델은 고품질 이미지 생성에서 성공을 거두었으며, 이제는 다양한 데이터 유형 처리의 기초로 탐구되고 있습니다. 이 능력은 텍스트와 이미지와 같은 이산 데이터와 연속 데이터를 포함한 멀티모달 작업에 유망한 확산 모델을 만듭니다.

2025년 5월 28일 오전 12시 34분
Meta AI, 다중 프레임 공간 이해를 위한 Multi-SpatialMLLM 소개

다중 모달 대형 언어 모델(Multi-modal large language models, MLLMs)은 다양한 시각적 작업을 처리할 수 있는 다재다능한 AI 어시스턴트로 큰 발전을 이루었다. 그러나 이러한 MLLM들을 격리된 디지턀 엔티티로 배치하는 것은 그들의 잠재력을 제한한다. Meta AI는 Multi-SpatialMLLM을 소개하며 현재 MLLMs의 공간적 추론 결함을 극복하고 실제 응용프로그램에 통합하는 데 도움이 되는 것을 목표로 한다.

2025년 5월 27일 오후 4시 09분
AI 논문 소개: Differentiable MCMC 레이어를 통한 새로운 AI 프레임워크

복잡한 데이터 기반 작업을 처리하는데 강력한 도구인 신경망은 종종 차량 라우팅이나 작업 일정 등 엄격한 제약 하에서 이산적인 결정을 내리는 데 어려움을 겪습니다. 이러한 문제들을 해결하기 위해 연구된 새로운 AI 프레임워크인 Differentiable MCMC 레이어를 소개한 논문입니다.

2025년 5월 26일 오후 8시 57분
AI 논문 소개: GRIT – 텍스트와 시각적 기반을 교차하여 이미지 추론 가르치는 방법

MLLM은 시각적 콘텐츠의 풍부함과 언어의 논리를 결합하는 모델을 만드는 것이 핵심. 그러나 두 영역을 효과적으로 연결하는 것에 어려움을 겪어 복잡한 추론 작업에서 성능 제한. 이 논문은 GRIT라는 방법을 소개하여 이미지와 텍스트를 교차시켜 복잡한 추론 작업에서의 성능을 향상시킴.

2025년 5월 25일 오전 2시 07분
AI 논문 소개: 빠르고 협업적인 LLM 추론을 위한 토큰 수준의 다중 에이전트 추론 패러다임 소개

대형 언어 모델(LLMs)이 협업적으로 작동할 수 있는 방법들 중 하나로 다중 에이전트 시스템이 탐구되고 있다. LLMs를 기반으로 한 다중 에이전트 시스템은 작업을 분할하고 동시에 작업하여 어려운 문제를 조정하는 잠재력을 갖고 있으며, 실시간 응용 프로그램에서 효율성을 높이고 지연 시간을 줄일 수 있는 잠재력을 갖고 있다.

2025년 5월 23일 오후 11시 48분
대단한 순간을 넘어서: 대형 언어 모델에서 추론 구조화

대형 추론 모델인 OpenAI의 o1, o3, DeepSeek-R1, Grok 3.5, Gemini 2.5 Pro는 자체 수정, 되감기, 검증과 같은 고급 행동을 보여주며 “aha moments”로 알려진 강력한 능력을 나타냈다. 이러한 행동들은 지도된 미세 조정 없이 결과 중심 강화 학습을 통해 나타났다.

2025년 5월 22일 오후 2시 39분
AI 논문 소개: MathCoder-VL 및 FigCodifier – 시각과 코드 정렬을 통한 멀티모달 수학적 추론 발전

멀티모달 수학적 추론은 기계가 텍스트 정보와 다이어그램, 그림과 같은 시각적 구성요소를 포함한 문제를 해결할 수 있게 합니다. 이는 언어 이해와 시각 해석을 결합하여 복잡한 수학적 맥락을 이해하는 것을 요구합니다. 이 능력은 교육, 자동화된 지도, 문서 분석에서 중요한데, 문제들은 종종 텍스트와 시각적 요소를 섞어 제시됩니다.

2025년 5월 22일 오전 1시 48분
PARSCALE(병렬 스케일링)을 소개하는 이 인공지능 논문: 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법

언어 모델의 성능 향상을 위해 연구자들이 모델을 확장하는데 집중함에 따라, 계산 자원이 증가하고 언어 모델의 개발 및 배포가 상당한 컴퓨팅 자원과 메모리에 의존하게 되었다. PARSCALE은 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법을 소개한다.

2025년 5월 21일 오후 7시 36분
데이터 없이 샘플링이 이제 확장 가능해졌습니다: Meta AI, 보상 주도적 생성 모델링을 위한 역순 샘플링 출시

기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.

2025년 5월 21일 오전 3시 06분
NVIDIA, 현실 환경에서 육체적 상식과 체험적 추론을 발전시키는 AI 모델 세트 ‘Cosmos-Reason1’ 출시

AI는 언어 처리, 수학, 코드 생성 분야에서 발전했지만 물리적 환경으로 확장하는 것은 여전히 어렵다. 물리 AI는 동적인 실제 환경에서 지각, 이해, 행동하는 시스템을 개발하여 이 간극을 줄이려고 한다. 텍스트나 기호를 처리하는 기존 AI와 달리 물리 AI는 주로 비디오와 같은 감각적 입력과 상호작용한다.

2025년 5월 20일 오후 8시 40분
렌민 대학과 화웨이 연구진, LLM 기반 에이전트의 메모리 맞춤화를 위한 통합 모듈형 AI 라이브러리 MemEngine 제안

LLM 기반 에이전트는 복잡한 작업을 처리하고 여러 역할을 수행하기 때문에 다양한 응용 분야에서 점점 더 사용되고 있습니다. 이러한 에이전트의 핵심 구성 요소 중 하나인 메모리는 정보를 저장하고 회상하며 과거 지식을 반영하고 신중한 결정을 내리는 데 중요한 역할을 합니다. 메모리는 장기간 상호 작용이나 역할 연기와 관련된 작업에서 과거 경험을 포착함으로써 핵심적인 역할을 합니다.

2025년 5월 20일 오후 1시 33분
마이크로소프트의 AI 논문, 디스크ANN 통합 시스템 소개: Azure Cosmos DB를 활용한 비용 효율적이고 저지연 벡터 검색

최신 데이터 시스템에 대한 핵심 요구 사항 중 하나는 고차원 벡터 표현을 검색하는 능력이 되었다. 이러한 벡터 표현은 딥러닝 모델에 의해 생성되며 데이터의 의미론적 및 문맥적 의미를 포착한다. 이를 통해 시스템은 정확한 일치가 아닌 관련성과 유사성에 기반한 결과를 검색할 수 있다.

2025년 5월 19일 오후 8시 22분
Salesforce AI, CLIP 임베딩 및 플로우 매칭으로 구축된 완전한 오픈 소스 통합 멀티모달 모델 BLIP3-o 발표

BLIP3-o는 CLIP 임베딩과 플로우 매칭을 활용한 멀티모달 모델로, 이미지 이해 및 생성에 사용됩니다. 시각과 언어를 연결하는 관심이 높아지면서, 이미지 인식과 생성 기능을 통합한 시스템에 대한 연구가 확대되고 있습니다.

2025년 5월 16일 오후 3시 31분
바이트댄스, Seed1.5-VL 소개: 일반 목적의 다중 모달 이해와 추론을 진화시키기 위한 비전-언어 기반 모델

VLM은 일반 목적의 AI 시스템 구축에 중요하며, 시각적 및 텍스트 데이터를 통합함으로써 다중 모달 추론, 이미지 편집, GUI 에이전트, 로봇공학 등을 발전시키고 있음. 그러나 인간의 능력에 아직 미치지 못하는 부분이 있음.

2025년 5월 15일 오후 6시 11분
조지아텍과 스탠포드 연구진, 자율 기계 학습 엔지니어링 (MLE) 에이전트를 훈련, 평가 및 벤치마킹하기 위해 설계된 체육관 스타일 프레임워크 ‘MLE-도장’을 소개

조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.

2025년 5월 15일 오전 3시 20분
메타 AI가 CATransformers를 소개합니다: 지속 가능한 엣지 배포를 위해 AI 모델과 하드웨어를 공동 최적화하는 탄소 인식 기계 학습 프레임워크

기계 학습 시스템이 추천 엔진부터 자율 시스템까지 다양한 응용 프로그램에서 중요해지면서, 이러한 시스템들의 환경 지속 가능성에 대한 필요성이 증가하고 있습니다. CATransformers는 AI 모델과 하드웨어를 지속 가능한 엣지 배포를 위해 공동 최적화하는 탄소 인식 기계 학습 프레임워크입니다.

2025년 5월 14일 오후 3시 10분
AI 논문이 소개하는 효과적인 상태 크기(ESS): 성능 최적화를 위한 시퀀스 모델의 메모리 활용 측정 지표

시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.

2025년 5월 11일 오후 2시 29분
화웨이, Pangu Ultra MoE 소개: 시뮬레이션 주도 아키텍처 및 시스템 수준 최적화를 사용하여 Ascend NPUs에서 효율적으로 훈련된 718B-파라미터 희소 언어 모델

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.

2025년 5월 10일 오후 8시 11분
언어 모델에 시각 추가하는 ‘X-Fusion’ 소개하는 UCLA, UW-Madison, Adobe 연구진

UCLA, UW-Madison, Adobe 연구진이 ‘X-Fusion’을 소개하며 언어 모델에 시각 정보를 추가하는 연구를 발표. 텍스트 이해 능력을 잃지 않으면서 시각 정보를 통합하는 AI 모델의 중요성 강조.

2025년 5월 8일 오후 9시 13분
후단 대학 연구진, 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 복구하는 희소 어텐션 메커니즘 ‘Lorsa’ 소개

후단 대학 연구진은 트랜스포머 모델의 개별 어텐션 헤드를 조사하면서, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이를 확인하는 실험으로 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다.

2025년 5월 7일 오후 2시 07분
LLMs에서 자동 환각 탐지가 가능할까? 이론적 및 경험적 조사

최근 LLMs의 발전으로 자연어 이해, 추론 및 생성이 크게 향상되었지만, 이 모델들은 종종 환각을 생성하는데, 이는 신뢰성을 저해함. 높은 위험도메인에서 특히 시급하게 대응이 필요함.

2025년 5월 7일 오전 12시 06분
AI 에이전트가 기억을 저장, 잊고, 검색하는 방법? 다음 세대 LLM을 위한 메모리 작업에 대한 새로운 시선

LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.

2025년 5월 5일 오후 7시 26분
다중 모달 쿼리에는 다중 모달 RAG가 필요합니다: KAIST와 DeepAuto.ai 연구원들이 정확하고 효율적인 검색 증강 생성을 위해 모달과 세분성을 동적으로 경로 지정하는 UniversalRAG라는 새로운 프레임워크를 제안합니다

KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.

2025년 5월 4일 오후 11시 33분
구글 연구진, 진단 AI 발전: AMIE가 Gemini 2.0 Flash와의 다중모달 추론을 사용해 주치의를 능가

구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.

2025년 5월 4일 오후 4시 00분
ViSMaP: 메타 프롬프팅과 짧은 형식 데이터셋을 사용한 1시간 길이의 비디오의 비지도 요약

ViSMaP는 짧은 비디오와 캡션으로 구성된 데이터셋에서 학습된 비디오 캡션 모델이 일반적으로 산책이나 대화와 같은 기본 동작을 설명하는 데는 용이하지만, Vlog, 스포츠 이벤트, 영화와 같이 긴 형식의 비디오의 복잡성에는 어려움이 있습니다. ViSMaP는 메타 프롬프팅과 짧은 형식 데이터셋을 사용하여 이러한 문제를 해결합니다.

2025년 4월 28일 오후 4시 24분
바이트댄스, LLM 사전 훈련에서 데이터 품질과 다양성을 위한 통합 AI 프레임워크 ‘QuaDMix’ 소개

대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…

2025년 4월 27일 오전 2시 16분
중국 AI 논문, 대규모 추론 언어 모델이 동적 초기 종료를 달성하는 훈련 무료 접근 방식 DEER 제안

중국의 AI 논문은 대규모 추론 언어 모델이 추론 중 동적 초기 종료를 달성할 수 있는 DEER라는 훈련 무료 접근 방식을 제안했다. 최근 대규모 추론 언어 모델의 발전으로 CoT 생성 길이가 확장되면서 복잡한 문제 해결 능력이 크게 향상되었지만, 지나치게 긴 CoT 시퀀스 생성은 계산 효율성과 대기 시간이 증가한다.

2025년 4월 26일 오후 6시 16분
LLM이 대규모 사회 시뮬레이션 가능해졌다: Fudan 대학 연구진, 1000만 실제 사용자로 사회 시뮬레이션을 위한 LLM 에이전트 주도의 SocioVerse 세계 모델 소개

연구자들은 대규모 사회 시뮬레이션을 위한 SocioVerse를 소개하며, 전통적인 방법론의 한계로부터 대안적 접근법을 모색하고 있다. LLM은 1000만 실제 사용자를 기반으로 사회 시뮬레이션을 가능케 하며, 인간 행동 연구에 혁명을 일으킬 수 있다.

2025년 4월 26일 오후 1시 31분
구글 딥마인드 연구팀이 QuestBench를 소개: LLM의 추론 작업에서 빠진 정보 식별 능력 평가

대형 언어 모델(LLM)은 수학, 논리, 기획, 코딩 등의 추론 작업에서 상당한 주목을 받았다. 그러나 이러한 모델을 실제 상황에 적용할 때 중요한 도전 과제가 발생한다. 현재의 구현은 대부분 필요한 모든 정보가 명확하게 제공된다는 가정 하에 작동하지만, 현실은 종종 불완전하거나 모호한 상황을 제시한다.

2025년 4월 26일 오전 12시 06분
레이블 없이 학습 가능한 LLMs: Tsinghua 대학과 상해 AI 연구소 연구진, 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 테스트 시간 강화 학습(TTRL) 소개

대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.

2025년 4월 23일 오전 1시 37분
Meta AI가 Perception Language Model (PLM)을 발표: 도전적인 시각 인식 작업 해결을 위한 오픈 및 재현 가능한 비전-언어 모델

Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.

2025년 4월 18일 오후 8시 23분