2025년 4월 29일 화요일
오늘의 신문
2025년 4월 29일 화요일 오늘의 신문
ViSMaP: 메타 프롬프팅과 짧은 형식 데이터셋을 사용한 1시간 길이의 비디오의 비지도 요약

ViSMaP는 짧은 비디오와 캡션으로 구성된 데이터셋에서 학습된 비디오 캡션 모델이 일반적으로 산책이나 대화와 같은 기본 동작을 설명하는 데는 용이하지만, Vlog, 스포츠 이벤트, 영화와 같이 긴 형식의 비디오의 복잡성에는 어려움이 있습니다. ViSMaP는 메타 프롬프팅과 짧은 형식 데이터셋을 사용하여 이러한 문제를 해결합니다.

2025년 4월 28일 오후 4시 24분
바이트댄스, LLM 사전 훈련에서 데이터 품질과 다양성을 위한 통합 AI 프레임워크 ‘QuaDMix’ 소개

대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…

2025년 4월 27일 오전 2시 16분
중국 AI 논문, 대규모 추론 언어 모델이 동적 초기 종료를 달성하는 훈련 무료 접근 방식 DEER 제안

중국의 AI 논문은 대규모 추론 언어 모델이 추론 중 동적 초기 종료를 달성할 수 있는 DEER라는 훈련 무료 접근 방식을 제안했다. 최근 대규모 추론 언어 모델의 발전으로 CoT 생성 길이가 확장되면서 복잡한 문제 해결 능력이 크게 향상되었지만, 지나치게 긴 CoT 시퀀스 생성은 계산 효율성과 대기 시간이 증가한다.

2025년 4월 26일 오후 6시 16분
LLM이 대규모 사회 시뮬레이션 가능해졌다: Fudan 대학 연구진, 1000만 실제 사용자로 사회 시뮬레이션을 위한 LLM 에이전트 주도의 SocioVerse 세계 모델 소개

연구자들은 대규모 사회 시뮬레이션을 위한 SocioVerse를 소개하며, 전통적인 방법론의 한계로부터 대안적 접근법을 모색하고 있다. LLM은 1000만 실제 사용자를 기반으로 사회 시뮬레이션을 가능케 하며, 인간 행동 연구에 혁명을 일으킬 수 있다.

2025년 4월 26일 오후 1시 31분
구글 딥마인드 연구팀이 QuestBench를 소개: LLM의 추론 작업에서 빠진 정보 식별 능력 평가

대형 언어 모델(LLM)은 수학, 논리, 기획, 코딩 등의 추론 작업에서 상당한 주목을 받았다. 그러나 이러한 모델을 실제 상황에 적용할 때 중요한 도전 과제가 발생한다. 현재의 구현은 대부분 필요한 모든 정보가 명확하게 제공된다는 가정 하에 작동하지만, 현실은 종종 불완전하거나 모호한 상황을 제시한다.

2025년 4월 26일 오전 12시 06분
Microsoft Research, 장문 맥락 비전-언어 모델 사전 채우기 가속화를 위한 MMInference 소개

Microsoft Research가 MMInference를 소개하여 장문 맥락 비전-언어 모델의 사전 채우기 속도를 가속화했다. 이는 로봇공학, 자율 주행, 의료 분야에서 특히 성능을 향상시키는데 도움이 된다.

2025년 4월 25일 오전 2시 23분
AWS, SWE-PolyBench 소개: AI 코딩 에이전트 평가를 위한 새로운 오픈소스 다국어 벤치마크

최근 대형 언어 모델의 발전으로 소프트웨어 코드를 생성, 수정, 이해하는 AI 기반 코딩 에이전트 개발이 가능해졌으나, 이러한 시스템의 평가는 주로 파이썬에 국한된 합성 또는 범위가 제한된 벤치마크로 제한되어 있습니다. AWS가 SWE-PolyBench를 소개하며 이 문제에 대처하고 있습니다.

2025년 4월 23일 오후 6시 29분
레이블 없이 학습 가능한 LLMs: Tsinghua 대학과 상해 AI 연구소 연구진, 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 테스트 시간 강화 학습(TTRL) 소개

대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.

2025년 4월 23일 오전 1시 37분
VoltAgent 만나보기: 확장 가능한 AI 에이전트를 구축하고 조율하는 TypeScript AI 프레임워크

VoltAgent는 TypeScript 기반의 오픈 소스 프레임워크로, 모듈화된 빌딩 블록과 자율적인 에이전트를 위한 추상화를 제공하여 AI 주도 애플리케이션의 생성을 간소화합니다. 대규모 언어 모델 (LLMs), 도구 통합 및 상태 관리와 같은 복잡성을 다루기 위해 핵심 엔진을 제공합니다.

2025년 4월 22일 오후 7시 04분
물리 지능 연구자들, 물리 시스템에서 실시간 적응 지능을 위한 새 AI 프레임워크 π-0.5 소개

물리적 환경에서 신뢰성 있는 지능 시스템을 설계하는 것은 AI의 어려운 과제 중 하나이다. 기존 AI 시스템은 높은 수준의 표현에 의존하는 반면, 실제 세계는 잡음이 많고 예측할 수 없으며 추상화에 저항한다. 물리 지능 연구팀은 이러한 문제를 해결하기 위해 새로운 AI 프레임워크인 π-0.5를 소개했다.

2025년 4월 22일 오후 3시 21분
새로운 기술로 쓰레기 분리 작업 개선

인공지능을 활용한 재활용 로봇이 색상, 질감, 모양 및 로고의 패턴을 인식하여 재활용물을 분류하는 방법을 학습하고 있습니다.

2025년 4월 19일 오전 6시 00분
Meta AI가 Perception Language Model (PLM)을 발표: 도전적인 시각 인식 작업 해결을 위한 오픈 및 재현 가능한 비전-언어 모델

Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.

2025년 4월 18일 오후 8시 23분
구글, Gemini API를 통해 Gemini 2.5 Flash 미리보기 공개

구글이 Gemini API를 통해 접근 가능한 AI 모델인 Gemini 2.5 Flash를 소개했다. Gemini 2.0 Flash의 기초를 바탕으로 하면서 추론 능력을 향상시키고 속도와 비용 효율성에 중점을 둔다. Gemini의 주요 기능 중 하나는 조정 가능한 사고 예산과 하이브리드 추론이다.

2025년 4월 18일 오전 1시 36분