2026년 6월 21일 일요일
오늘의 신문
2026년 6월 21일 일요일 오늘의 신문
애플은 사용자 중심의 차세대 인공지능을 소개하며, 새로운 아키텍처를 통해 운영 체제에 깊이 통합된 기초 모델을 선보였습니다. 이 모델은 개인 정보 보호를 핵심으로 하고 있습니다.
2026년 6월 8일 오전 12시 00분Apple
애플은 2026년 6월 3일부터 7일까지 덴버에서 열리는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에 참가하여 새로운 연구를 발표합니다.
2026년 5월 28일 오전 12시 00분Apple
VSAS-Bench는 비주얼 스트리밍 어시스턴트 모델의 실시간 성능을 평가하기 위한 새로운 프레임워크입니다. 기존 모델 평가 방식의 한계를 극복하고, 응답의 적시성과 일관성을 측정하는 데 중점을 두고 있습니다.
2026년 5월 22일 오전 12시 00분Apple
이미지 캡셔닝은 컴퓨터 비전의 기본적인 작업 중 하나로, 최근 MLLM 시대에 많은 주목을 받고 있습니다. 새로운 연구는 강화 학습을 통해 더 정확하고 상세한 캡션을 생성하려고 합니다.
2026년 5월 11일 오전 12시 00분Apple
애플은 프라이버시를 인권으로 여기며, AI 기술이 일상에 통합됨에 따라 프라이버시 보호 연구의 중요성이 커지고 있다고 강조했다. 이를 위해 애플은 프라이버시 보호 기계 학습 및 AI 워크숍을 개최했다.
2026년 5월 8일 오전 12시 00분Apple
Velox는 4D 객체의 기하학과 외관을 효과적으로 포착하는 잠재 표현을 학습하는 프레임워크를 소개합니다. 이 시스템은 최소한의 입력으로 동적 포인트 클라우드를 활용하여 효율적인 데이터 압축을 지원합니다.
2026년 5월 8일 오전 12시 00분Apple
현재의 비평가 없는 RLHF 방법은 다목적 보상을 산술 평균으로 집계하여 제약 무시의 위험에 노출됩니다. RVPO는 보상 간 분산을 처벌하여 일관성을 극대화하는 위험 민감한 프레임워크를 제안합니다.
2026년 5월 8일 오전 12시 00분Apple
HeadsUp은 대규모 다중 카메라 설정에서 고품질 3D 가우시안 머리를 재구성하는 효율적인 피드포워드 방법을 제안합니다. 이 방법은 입력 뷰를 압축하여 잠재 표현으로 변환합니다.
2026년 5월 8일 오전 12시 00분Apple
학습된 코덱이 전통적인 하드코딩 방식과 차별화되는 점은 인간의 시각 시스템에 최적화될 수 있는 능력입니다. 그러나 아직 실용적이고 지각적인 이미지 코덱은 제안되지 않았습니다. 본 연구는 이 격차를 해소하고자 합니다.
2026년 5월 7일 오전 12시 00분Apple
이미지 기반의 공동 임베딩 예측 아키텍처(I-JEPA)는 마스킹된 특징 예측을 통해 시각적 자기 지도 학습의 유망한 접근 방식을 제공합니다. 본 연구에서는 텍스트 캡션을 활용하여 예측 불확실성을 줄이는 텍스트 조건부 JEPA(TC-JEPA)를 제안합니다.
2026년 5월 7일 오전 12시 00분Apple
공간 지능은 단순한 기하학적 인식을 넘어 사물의 용도를 이해하는 것으로 발전하고 있습니다. 이를 평가하기 위한 새로운 기준인 공간-기능 지능 벤치마크(SFI-Bench)가 소개되었습니다.
2026년 5월 6일 오전 12시 00분Apple
Mixture-of-Experts(MoE) 모델은 희소 전문가 활성화를 가능하게 하지만, 이를 실제 성능으로 전환하기 위해서는 전문가 캐싱 메커니즘이 필요하다. SpecMD는 다양한 하드웨어 구성에서 캐싱 정책을 벤치마킹하는 표준화된 프레임워크이다.
2026년 5월 6일 오전 12시 00분Apple
정규화 흐름(Normalizing Flows, NFs)은 최근 이미지 모델링 작업에서 유망한 성과를 보여주며 주목받고 있다. 이번 연구에서는 반복적 TARFlow(iTARFlow)를 도입해 NFs의 생성 모델을 한층 발전시켰다.
2026년 5월 6일 오전 12시 00분Apple
변환기 언어 모델의 높은 처리량을 위해 키-값(KV) 캐싱이 필요하지만, 이는 메모리 사용량을 증가시켜 비용에 영향을 미친다. 이 연구는 메모리 요구 사항을 줄이는 방법을 제안한다.
2026년 5월 5일 오전 12시 00분Apple
PORTool은 LLM 기반 도구 사용 에이전트가 복잡한 작업을 해결할 수 있도록 도와주는 중요도 인식 정책 최적화 알고리즘입니다. 이 알고리즘은 도구 사용 능력을 강화하며, 단계별 보상을 통해 성공과 실패의 중간 단계를 명확히 합니다.
2026년 5월 4일 오전 12시 00분Apple
이 논문은 ACL 2026에서 열린 제5회 자연어 생성, 평가 및 메트릭 워크숍에서 채택되었습니다. 도구 호출 에이전트의 평가 방식과 실시간 피드백의 필요성을 다룹니다.
2026년 5월 1일 오전 12시 00분Apple

최신뉴스 전체보기

최적 운송을 사용한 다변량 형식 예측

기계 학습 모델의 불확실성을 양적화하기 위한 형식 예측은 다변량 공간에서 점수를 확장하는 것이 어렵다. 이 연구는 최적 운송을 활용하여 다변량 형식 예측을 수행한다.

2026년 1월 12일 오전 12시 00분Apple
딥엠엠서치-R1: 멀티모달 웹 검색에서 멀티모달 LLMs에 전력을

실제 응용 프로그램에서의 멀티모달 대형 언어 모델(MLLMs)은 외부 지식 원본에 액세스해야 하며 정보 탐색 및 지식 집약적 사용자 쿼리를 처리하기 위해 동적이고 끊임없이 변화하는 실세계 정보에 반응해야 합니다. 기존 방법들은 제한적인 파이프라인, 과도한 검색 호출 및 부적절한 검색 쿼리로 효율성과 최적화된 결과를 얻는 데 어려움을 겪습니다. 이러한 제한 사항을 해결하기 위해 우리는…

2026년 1월 12일 오전 12시 00분Apple
대형 언어 모델에서의 초검색 현상

검색 보강 대형 언어 모델은 외부 검색을 통합하여 지식 친화적 작업에서 뛰어난 성과를 보이지만 종종 초검색 현상이 발생하여 응답 품질을 향상시키지 않는 경우에도 검색 도구를 불필요하게 활용하며, 이로써 연산 효율성이 저하되고 관련 없는 문맥이 포함되어 환각을 유발합니다.

2026년 1월 12일 오전 12시 00분Apple
MANZANO: 간단하고 확장 가능한 혼합 비전 토크나이저를 갖춘 통합 다중 모달 모델

Manzano는 시각적 콘텐츠를 이해하고 생성할 수 있는 통합 다중 모달 대형 언어 모델(LLM)을 제안한다. 이미지 토크나이저와 훈련 레시피를 결합하여 성능 트레이드오프를 크게 줄이는 간단하고 확장 가능한 통합 프레임워크이다. 단일 공유 비전 인코더가 두 가벼운 어댑터로 연결되어 이미지에서 텍스트 이해 및 텍스트에서 이미지 생성을 위한 지속적인 임베딩과 이산형 토큰을 제공한다.

2026년 1월 11일 오전 12시 00분Apple
음성 모델 평가를 위한 분류 체계

음성 기본 모델은 다양한 작업에서 놀라운 성능을 보이고 있지만, 여전히 작업과 모델 유형에 따라 분리된 평가를 받고 있다. 이 논문은 “어떤 모델에 어떤 평가가 적합한가?”라는 질문에 대한 통합적인 분류 체계를 제안한다. 분류 체계는 측정되는 평가 측면, 작업을 수행하기 위해 필요한 모델 기능, 그리고 수행해야 하는 작업 또는 프로토콜 요구 사항을 정의하는 세 가지 직교하는 축을 정의한다.

2026년 1월 9일 오전 12시 00분Apple
광플레치소미그라피를 활용한 광학 조직 특성 추론: 하이브리드 감쇠 추론

스마트 웨어러블 기기를 통해 심박수, 심박변이성, 혈중 산소 포화도 등을 연속 추적할 수 있는데, 이를 통해 PPG 파형에는 최근 딥러닝 연구에서 보듯이 더 많은 생리학적 정보가 포함되어 있다. 그러나 DL 모델은 종종 생리학적 의미가 불명확한 피처에 의존하기 때문에 예측력, 임상 해석 가능성 및 센서 설계 사이에 긴장이 생긴다. 이 갭을 PPGen이라는 바이오피지컬 모델을 통해 해결하고 PPG 신호를 해석 가능한 생리학적 및 광학적 정보에 관련시킨다.

2026년 1월 9일 오전 12시 00분Apple
계층적 메모리를 활용한 사전훈련: 희귀 지식과 일반 지식 분리

현대 언어 모델의 놀라운 성능 향상은 주로 파라미터의 확장에 의존하고 있습니다. 이에 대한 대응으로 메모리 보강 구조와 기존 하드웨어 패러다임과 일치하는 사전훈련 전략을 소개합니다. 세부 지식을 인코딩하는 대규모 계층적 파라미터 메모리 은행에 접근하는 소규모 언어 모델을 도입합니다.

2026년 1월 9일 오전 12시 00분Apple
AdaBoN: 적응형 Best-of-N 정렬

최근의 테스트 시간 정렬 방법인 Best-of-N 샘플링은 보상 모델(RM)을 사용하여 언어 모델(LM)을 선호하는 동작으로 유도하는 간단하고 효과적인 방법을 제공한다. 그러나 이러한 방법은 정렬 난이도의 차이를 고려하지 않고 프롬프트 전반에 균일하게 적용할 때 계산 비용이 많이 발생할 수 있다. 이 연구에서는 Best-of-N 정렬에 대한 프롬프트 적응형 전략을 제안하며 추론 시간 계산을 더 효율적으로 할당한다.

2026년 1월 9일 오전 12시 00분Apple
AgentBuilder: 인터페이스 에이전트의 사용자 경험 프로토타입을 위한 스캐폴드 탐색

인터페이스 에이전트는 사용자 명령에 기반해 작업을 자동화하는데, 에이전트를 개발하는 중요한 측면은 사용자 경험이다. 본 연구에서는 AI 엔지니어 이외의 다양한 사람들이 에이전트 경험을 프로토타입화할 수 있는 스캐폴드를 제공하는 것의 필요성을 탐구한다. 12명의 참가자와 요구사항 수집 연구를 통해 에이전트 프로토타이핑 시스템이 제공해야 할 기능을 탐색했다.

2026년 1월 9일 오전 12시 00분Apple
디자이너 피드백을 통한 사용자 인터페이스 생성 모델 개선

대부분의 LLM은 대규모 데이터로 훈련되었지만 잘 디자인된 UI를 신뢰할 수 없다. 디자이너 피드백은 UI 생성의 성능을 향상시키는 데 필수적이다. 본 논문에서는 디자이너가 UI 생성 모델에 피드백을 제공하는 여러 접근 방법을 조사하며, 의견 남기기, 스케치 및 직접 조작과 같은 익숙한 상호작용을 사용한다.

2026년 1월 6일 오전 12시 00분Apple
비디오 언어 모델 평가: NarrativeTrack

NarrativeTrack는 비디오에서 이야기 전개를 평가하는 첫 번째 벤치마크로, 시간적으로 펼쳐지는 이야기를 이해하는 능력을 평가한다. 이는 동적 비주얼 및 시간적 맥락에서 일관된 엔티티 표현을 유지하며 누가 언제 어디서 무엇을 하는지를 기반으로 한 엔티티 중심 추론을 통해 MLLMs의 이야기 이해 능력을 평가한다.

2026년 1월 6일 오전 12시 00분Apple
BED-LLM: LLM과 베이지안 실험 설계를 활용한 지능적인 정보 수집

BED-LLM은 대형 언어 모델이 사용자나 외부 소스로부터 정보를 지능적이고 적응적으로 수집하는 능력을 향상시키기 위한 일반적인 방법론을 제안한다. 이는 LLM이 효과적인 다중 대화형 에이전트로 작용하고 외부 환경과 상호작용할 수 있게 한다. BED-LLM은 정보 획득의 기대값을 최대화하는 질문이나 쿼리를 반복적으로 선택함으로써 작동한다.

2025년 12월 19일 오전 12시 00분Apple
신생 엔티티에 대한 지식 그래프 완성을 위한 에이전틱 추론

새로운 엔티티의 지식 그래프 완성에 대한 도전을 극복하기 위해 Agentic Reasoning for Emerging Entities (AgREE)를 소개한다. 기존 방법들이 지식 모델의 파라미터, 미리 만들어진 쿼리 또는 단일 단계 검색에 의존하는 반면, AgREE는 신생 엔티티에 대한 종합적이고 최신 정보를 캡처하는 노력을 한다.

2025년 12월 17일 오전 12시 00분Apple
분산 추정의 통신 복잡성

두 당사자가 확률 분포를 가지고 있고, 공통으로 알고 있는 함수를 통해 추정을 목표로 하는 분산 추정 문제를 연구한다. 이 문제는 스케치, 데이터베이스 및 학습과 같은 다양한 분야에서 발생한다. 목표는 필요한 통신이 어떻게 변화하는지 이해하는 것이다.

2025년 12월 17일 오전 12시 00분Apple
의사 결정을 위한 효율적 보정

완벽한 보정에 대한 의사 결정 이론적 특성은 완벽하게 보정된 예측기를 후처리함으로써 결과를 개선할 수 없음을 말한다. CDL은 후처리를 통해 얻을 수 있는 최대한의 개선을 측정하는 근사 보정 측도로 소개되었지만, 오프라인 설정에서는 심지어 약간의 근사도로도 추정하기 어렵다. 이를 우회하기 위한 방법을 제안한다.

2025년 12월 17일 오전 12시 00분Apple
텍스트로 안내된 이미지 편집을 위한 미래지향적인 평가를 향하여

텍스트로 이미지를 편집하는 것은 시각적 콘텐츠를 수정하는 자연스럽고 표현력 있는 방법이 되었지만, 이러한 모델의 성능을 평가하는 것은 여전히 어렵다. 기존의 평가 방법은 주로 CLIP와 같은 이미지-텍스트 유사성 지표에 의존하며 정확도가 부족하다. 이 연구에서는 텍스트로 안내된 이미지 편집 모델을 보다 근거 있는 방식으로 평가하기 위한 새로운 벤치마크를 소개한다.

2025년 12월 16일 오전 12시 00분Apple
흐름 일치 모델의 점수 증류

확산 모델은 고품질 이미지 생성을 달성하지만 느린 반복 샘플링에 제한을 받는다. 점수 증류 기법은 한 단계 또는 몇 단계의 생성을 가능하게 함으로써 이를 완화한다. 우리는 Bayes의 법칙과 조건부 기대값에 기반한 간단한 유도를 제공하여 가우시안 확산과 흐름 일치를 통합한다.

2025년 12월 16일 오전 12시 00분Apple
DarkDiff: 저조도 Raw 이미지 향상을 위한 확산 모델 재할당으로 진보

극한 저조도 조건에서의 고품질 사진 촬영은 디지턈 카메라에 있어 어렵지만 중요하다. 전통적인 카메라 이미지 신호 처리기 알고리즘 대신 효율적인 심층 신경망이 노이즈가 많은 Raw 이미지를 더 지능적으로 향상시키고 있다. 그러나 기존의 회귀 기반 모델은 종종 픽셀 오류를 최소화하고 저조도 사진이나 깊은 그림자를 과도하게 부드럽게 만든다. 최근 연구에서는 이 한계를 극복하기 위해 확산 모델을 처음부터 훈련시키려고 노력해왔지만, 이러한 모델은 여전히 선명한 이미지 세부사항을 복원하는 데 어려움을 겪고 있다.

2025년 12월 16일 오전 12시 00분Apple
음성-언어 사전훈련 개선을 위한 데이터 중심 수업

음성 질문-응답(SQA)은 유용하고 대화형 인공지능 시스템의 핵심 능력이다. 음성 언어 모델(SpeechLMs)의 사전훈련 데이터 처리 및 선별에 대한 통제된 실험을 통해 성능을 향상시키는 방법을 탐구한다.

2025년 12월 16일 오전 12시 00분Apple
다중 모달 프롬프트를 이용한 통합 개방 세계 세분화

COSINE은 단일 모달리티 프롬프트에 제한된 기존 방법의 한계를 극복하기 위해 개방 세계 이미지 세분화의 빠른 발전을 경험하고, 복잡한 객체 인식 프롬프트에 필요한 유연성과 정확도를 제공하는 통합 개방 세계 세분화 모델이다.

2025년 12월 16일 오전 12시 00분Apple
합성 부트스트랩 프리트레이닝

Synthetic Bootstrapped Pretraining (SBP)은 문서 간 관계 모델을 학습하고 이를 활용하여 새로운 많은 말뭉치를 합성하는 언어 모델 사전훈련 절차이다. 기존 사전훈련은 단일 문서 내 토큰 간 인과 관계를 학습시키지만, SBP는 문서 간 상호 관계를 효율적으로 모델링하도록 설계되어 더 나은 성능을 도모할 수 있다.

2025년 12월 16일 오전 12시 00분Apple
강화 학습에서 보상 통합을 통한 이미지 생성 및 편집 개선 UniGen-1.5

UniGen-1.5는 이미지 이해, 생성 및 편집을 향상시키기 위한 통합된 다중 모달 대형 언어 모델(MLLM)이다. UniGen을 기반으로 모델 아키텍처와 교육 파이프라인을 종합적으로 개선하여 이미지 생성 및 편집 능력을 강화하였다. 특히, 이미지 생성과 편집을 모두 개선하는 통합 강화 학습(RL) 전략을 제안하였다.

2025년 12월 16일 오전 12시 00분Apple
1초 내에 선명한 단안 시야 합성

SHARP는 단일 이미지로부터 사실적인 시야 합성을 제공하는 방법을 소개한다. SHARP는 단일 사진을 통해 표시된 장면의 3D 가우시안 표현의 매개변수를 회귀한다. 이는 표준 GPU에서 1초 미만으로 단일 전방향 신경망 통과를 통해 이루어진다. SHARP에 의해 생성된 3D 가우시안 표현은 실시간으로 렌더링될 수 있으며 가까운 시야에 대한 고해상도의 사실적인 이미지를 제공한다.

2025년 12월 13일 오전 12시 00분Apple
IMPACT: 복잡한 유형학에서 굴절적 형태론 조사

대형 언어 모델(LLMs)은 다양한 다국어 벤치마크에서 상당한 진전을 보여주었으며, 비영어 언어로 텍스트를 생성하고 평가하는 데 점점 더 사용되고 있다. 그러나 이러한 모델은 유창한 결과물을 만들어내더라도, 이러한 언어의 언어적 복잡성을 어느 정도까지 이해하는지는 여전히 불분명하다. 이를 조사하기 위해 우리는 IMPACT를 소개한다. 이는 굴절적 형태론에 집중한 합성으로 생성된 평가 프레임워크로, 다섯 가지 형태론적으로 풍부한 언어들에서 LLM 성능을 평가하도록 설계된 것이다.

2025년 12월 12일 오전 12시 00분Apple
음성에서의 추론 디코딩을 위한 원칙적인 거친 그레인 수용

음성 생성을 가속화하기 위해 빠른 초안 모델이 제안한 토큰을 큰 대상 모델이 확인함으로써 추론 디코딩을 가속화한다. 음성 LLMs의 경우 정확한 토큰 일치는 지나치게 제한적이므로, 우리는 Acoustic Similarity Groups(ASGs) 수준에서 제안을 검증하는 Principled Coarse-Graining (PCG)를 소개한다.

2025년 12월 12일 오전 12시 00분Apple
테스트 시점에 사전 학습 데이터 재사용은 계산 곱셈기

대형 언어 모델은 방대한 사전 학습 말뭉치로부터 배우며, 점점 다양한 작업을 해결하는 능력을 갖추게 된다. 그러나 연구자들은 이러한 데이터셋을 개선하는 데 노력을 기울이지만, 사전 학습 장치가 데이터에서 아이디어와 지식을 효율적으로 추출하는지에 대한 연구는 거의 없다. 본 연구에서는 테스트 시간 계산을 통해 사전 학습 과정에서 얼마나 많은 데이터셋 가치가 남아 있는지, 그리고 이것이 규모에 따라 어떻게 변하는지를 양적으로 측정하는 방법을 제시한다. 우리는 사전 학습 및 검색을 통해 표준적인 방법으로부터 검색한 후에…

2025년 12월 12일 오전 12시 00분Apple
텍스트에서 이미지 생성을 위한 확산 모델 아키텍처 디자인의 효율성 재방문

이 연구에서는 텍스트에서 이미지를 생성하기 위해 Diffusion Transformers(DiTs)를 실험적으로 연구하며 아키텍처 선택, 텍스트 조건화 전략 및 훈련 프로토콜에 초점을 맞춥니다. 다양한 DiT 기반 아키텍처를 평가하고, 일반 DiT 변형과 비교하여 성능 및 파라미터 효율성을 검증합니다. 결과는 표준 DiT가 특화된 모델과 비교해 성능이 비슷하면서도 특히 크게 확장될 때 우수한 파라미터 효율성을 보인다는 것을 보여줍니다.

2025년 12월 11일 오전 12시 00분Apple
COMPASS: 도구 중심 계획 및 선호도 최적화를 위한 Multi-Turn 벤치마크

COMPASS는 실제 여행 계획 시나리오에서 에이전트를 평가하는 벤치마크로, 여행 계획을 제한된 선호도 최적화 문제로 캐스팅하여 에이전트가 강한 제약 조건을 만족하면서 동시에 사용자 선호도를 최적화해야 합니다. 이를 지원하기 위해 현실적인 여행 데이터베이스를 구축하였습니다.

2025년 12월 11일 오전 12시 00분Apple
데이터 품질이 이중 언어 모델 학습에 미치는 역할 평가

다국어 및 이중 언어 모델은 NLP 시스템을 다양한 언어와 사용자에 걸쳐 확장하는 유망한 길을 제시한다. 그러나 이들의 성능은 종종 언어에 따라 크게 다르며, 이전 연구에서 몇몇 언어의 성능을 저하시키는 반면(예: 영어), 다른 언어(일반적으로 더 많은 데이터 제약이 있는 언어들)를 향상시키는 것으로 나타났다. 본 연구에서는 두 언어 모델을 비교하여 이러한 일관성의 원인을 조사했는데, 이를 통해 데이터 품질의 불평등이 성능의 주요 원인임을 밝혀냈다.

2025년 12월 11일 오전 12시 00분Apple
유연한 런타임 희소성을 위한 MoE-PHDS: 하나의 MoE 체크포인트

MoE-PHDS는 고정된 희소성 수준에서 작동하는 Sparse Mixtures of Experts(MoEs)를 훈련시키는 대신 여러 효율성 목표를 충족시키기 위해 여러 모델을 훈련하고 유지하는 것을 간소화하고 유연성을 높이는 방법을 제시한다. 사전 훈련된 MoEs가 런타임 희소성 변화에 민감하지 않다는 것을 보여줌.

2025년 12월 11일 오전 12시 00분Apple
LLM 추론에서 직렬 장벽을 깨는 Mirror 추측 디코딩

Mirror Speculative Decoding은 속도-정확도 트레이드오프를 해결하면서 LLM 추론을 가속화하는 추론 알고리즘입니다. 이전 방법들과 달리 Mirror-SD는 지연 시간-수락률 트레이드오프를 극복하여 더 빠른 추론을 가능케 합니다.

2025년 12월 11일 오전 12시 00분Apple
GRACE: 해석 가능한 역강화 학습을 위한 언어 모델 프레임워크

GRACE는 대규모 언어 모델을 활용하여 전문가의 궤적으로부터 해석 가능한 코드 기반 보상 함수를 역공학하는 방법을 제시한다. 이를 통해 검증 가능한 실행 가능한 코드 형태의 보상 함수를 얻을 수 있으며 BabyAI와 AndroidWorld에서 효율적으로 학습하는 것을 실험적으로 검증했다.

2025년 12월 11일 오전 12시 00분Apple
대규모 Sinkhorn 결합을 사용한 Flow 모델 적합에 대해

Flow 모델은 데이터를 한 모드(예: 소음)에서 다른 모드(예: 이미지)로 점진적으로 변환한다. 이 모델들은 시간에 따라 변하는 속도장에 의해 매개변수화되며, 소스와 타겟 포인트를 연결하는 세그먼트를 맞추기 위해 훈련된다. 소스와 타겟 포인트 간의 매칭이 주어지면, Flow 모델 훈련은 지도 회귀 문제로 단순화된다. 그러나 매칭이 없는 경우(예: 소음에서 데이터 생성 시), 훈련이 더 어려워진다.

2025년 12월 11일 오전 12시 00분Apple
Chain-of-Sketch: 글로벌 시각 추론 가능하게 하기

로컬 특징이 중요한 정보를 제공하는 벤치마크에서 현대 비전 모델은 놀라운 성과를 거두었습니다. 그러나 로컬 특징이 중요한 정보를 제공하지 않는 더 많은 글로벌 추론을 필요로 하는 작업에 대한 관심이 증가하고 있습니다. 이 논문에서는 그래프, 문자열, 미로 및 이미지 그리드를 포함하는 확장된 글로벌 시각 데이터셋을 소개합니다. 대형 비전 모델이 이러한 작업들을 학습하는 데 어려움을 겪는 것을 보여줍니다.

2025년 12월 10일 오전 12시 00분Apple
다변량 인과 발견 시 비가우시안성 없이 다중 뷰: 식별가능성과 알고리즘

비가우시안성과 같은 강력한 가정에 의존하는 인과 발견은 어려운 문제이다. 본 연구에서는 다중 관점의 데이터를 활용하여 약한 가정으로도 인과 발견을 이루는 방법을 제안한다. 비가우시안 잡음의 잘 알려진 프레임워크를 확장하고, 다중 뷰 구조를 활용하여 다변량 선형 구조 방정식 모델을 제안한다.

2025년 12월 10일 오전 12시 00분Apple
범주형 생성 모델을 위한 지속적으로 증가하는 이산 확산 모델

CADD는 이산 상태 공간을 연속적 잠재 공간에 결합하여 점진적으로 손상된 상태를 제공함으로써 정보를 유지하는 프레임워크이다.

2025년 12월 10일 오전 12시 00분Apple
ChipChat: MLX에서의 저지연 카스케이드 대화형 에이전트

ChipChat은 새로운 저지연 카스케이드 시스템으로 전통적인 병목 현상을 극복하고 스트리밍 최적화를 통해 성능을 향상시킵니다.

2025년 12월 10일 오전 12시 00분Apple
우울증과 불안의 대규모 디지털 감지 가능성 평가: 디지턈 정신 건강 연구

스마트폰과 웨어러블 기기에서 수집된 데이터는 우울증과 불안과 같은 정신 건강 상태에 영향을 미치는 광범위한 생리적, 행동 및 감정 영역을 연속적으로 감지하는 정보를 제공할 수 있다. 이와 같은 디지털 표현형핑의 광범위한 적용은 연구 및 임상 관리에서 우울증과 불안을 평가하는 방식을 변화시킬 수 있지만, 이 접근 방식의 유용성을 입증하는 잘 설계된 종단적 연구가 부족했다.

2025년 12월 10일 오전 12시 00분Apple
Semantic Mastery: 고급 자연어 이해로 LLMs 향상시키기

대형 언어 모델(LLMs)은 NLP 작업 수행 능력을 크게 향상시켰지만, 더 깊은 의미론적 이해, 맥락 일관성, 미묘한 추론은 여전히 어렵다. 이 논문은 의미론적 구문 분석, 지식 통합, 맥락 강화 학습과 같은 고급 NLU 기술로 LLMs를 발전시키는 최신 방법론을 논의한다. 구조화된 지식 그래프, 검색 보강 생성(RAG), 모델을 인간 수준 이해에 맞추는 파인튜닝 전략의 활용을 분석하며, 더 나아가…

2025년 12월 9일 오전 12시 00분Apple
소프트웨어 테스트 케이스 작성을 위한 강화학습 통합된 에이전틱 RAG

본 논문은 강화학습을 자율 에이전트와 통합하여 소프트웨어 테스트 케이스 작성 프로세스의 지속적인 개선을 가능하게 하는 프레임워크를 소개한다. 기존 시스템은 대규모 언어 모델을 사용하여 정적 지식 베이스에서 테스트 케이스를 생성하는 것으로 한정되어 있지만, 제안된 강화학습 통합된 에이전틱 RAG 프레임워크는 이 한계를 극복한다.

2025년 12월 9일 오전 12시 00분Apple
SO-Bench: 다중 모달 LLM의 구조적 출력 평가

다중 모달 대형 언어 모델(MLLMs)은 실제 현장에서 점진적으로 적용되고 있으며, 출력물은 올바를 뿐만 아니라 사전 정의된 데이터 스키마에도 준수해아 합니다. 이 연구에서는 주의 깊게 설계된 SO-Bench 벤치마크를 사용하여 MLLMs의 시각적 구조적 출력 능력에 대한 포괄적인 연구를 진행합니다.

2025년 12월 5일 오전 12시 00분Apple
시맨틱 레귤러 익스프레션: 구조화된 언어를 통해 LLM 피처 해석 자동화

이 연구는 대규모 언어 모델(LLM)의 피처를 인간이 이해할 수 있는 설명으로 번역하는 자동 해석 기술에 대해 다룬다. 자연어 피처 설명은 종종 모호하고 일관성이 없으며 수동 재레이블링이 필요한데, 이에 대응하여 LLM 피처의 구조화된 언어 설명인 시맨틱 레귤러 익스프레션을 소개한다. 이를 통해 정확하고 표현력 있는 피처 설명이 가능해진다.

2025년 12월 3일 오전 12시 00분Apple
PREDICT: 후보 궤적에서 추론된 선호도를 평가하여 분해된 선호도로 선호 추론하기

사용자 선호도를 추론하기 위해 LLMs를 사용하는데, 이는 종종 일반적이고 일반화된 선호도를 생성하여 개인의 선호도를 포착하지 못한다. 이 논문은 PREDICT를 소개하는데, 이는 추론된 선호도의 정밀도와 적응성을 향상시키기 위해 설계된 방법이다. PREDICT는 세 가지 핵심 요소를 포함한다: (1) 추론된 선호도의 반복적인 개선, (2) 선호도의 분해…

2025년 12월 3일 오전 12시 00분Apple
광플레치스모그래피의 하이브리드 모델링을 통한 심혈관 매개변수의 비침습적 모니터링

연속적인 심혈관 모니터링은 정밀의료에서 중요한 역할을 할 수 있으나 일부 기본 심장 생리지표는 침습적인 측정을 요구하는데, 광플레치스모그래피(PPG)를 이용한 하이브리드 접근 방식을 제안하여 비침습적으로 핵심 심장 생리지표를 예측하는 것을 해결하고 있다.

2025년 12월 2일 오전 12시 00분Apple
단일 볼록 포텐셜로부터 샘플링 및 매핑: 수렴적 모멘트 측정을 이용한 생성

이 연구는 생성 모델링에서 두 단계로 모델 적합을 분리하는 것이 일반적이지만, 본 연구에서는 샘플링과 매핑을 연결하는 대안적인 방법을 탐구합니다. 모멘트 측정에 영감을 받아 잠재적으로 볼록한 u를 사용하여 샘플링과 매핑을 효과적으로 결합하였습니다.

2025년 12월 1일 오전 12시 00분Apple
3D CVML 알고리즘의 더 나은 평가를 향하여: Localization 모델의 몰입형 디버깅

로봇공학, 자율 주행, 공간 컴퓨팅의 발전으로 3차원 데이터가 CVML 알고리즘에 통합되면서 3D CVML 모델의 디버깅은 전통적인 성능평가 방법을 넘어서는 깊은 이해를 요구한다. 그러나 적절한 시각화 도구의 부재는 3D 데이터와 공간적 특징을 효과적으로 탐색하는 데 중요한 장애물로 작용한다.

2025년 11월 22일 오전 12시 00분Apple
애플 머신러닝 연구 NeurIPS 2025에서

애플 연구자들이 AI 및 머신러닝 분야를 선도하는 연구를 통해 진보시키고, 연구 공동체를 지원하기 위해 NeurIPS 2025에 참여하고 후원하는 소식.

2025년 11월 21일 오전 12시 00분Apple
2025년 신경정보처리시스템(NeurIPS)

애플이 캘리포니아 샌디에고에서 개최되는 연례 학회인 NeurIPS에서 새로운 연구 발표. 다양한 분야의 학술 및 산업 연구 커뮤니티를 연결하는 이 학회에 자랑스럽게 후원하며 참여할 예정.

2025년 11월 21일 오전 12시 00분Apple
활동 인식을 위한 늦은 다중 모달 센서 퓨전에 LLM 활용하기

센서 데이터 스트림은 활동 및 문맥에 대한 유용한 정보를 제공하지만 보완적인 정보를 통합하는 것은 어려울 수 있습니다. 이 연구에서는 대형 언어 모델(LLMs)이 오디오 및 동작 시계열 데이터로부터 활동 분류를 위한 늦은 퓨전에 사용될 수 있음을 보여줍니다. Ego4D 데이터셋에서 다양한 활동 인식을 위한 데이터 하위 집합을 공본하였으며, 평가된 LLMs는 12가지 클래스의 제로샷 및 원샷…

2025년 11월 20일 오전 12시 00분Apple
EEG 신호의 상대 구성 학습: 쌍별 상대 시프트 사전 훈련 활용

이 논문은 NeurIPS 2025에서 열린 ‘Foundation Models for the Brain and Body’ 워크샵에서 발표되었다. 자기 지도 학습(Self-supervised learning, SSL)을 통해 EEG 신호의 상대적 구성을 학습하는 방법에 대해 다루고 있다.

2025년 11월 20일 오전 12시 00분Apple
웨어러블 센서 데이터로부터의 시계열 작업에 음성 기반 모델이 일반화됩니다

연구논문이 NeurIPS 2025의 Learning from Time Series for Health 워크샵에서 받아졌습니다. 음성과 센서의 시계열 데이터는 주파수 영역과 시간 영역에서 정보를 인코딩하며, 음성 기반 모델이 음성 영역을 넘어서 다양한 시계열 작업에서 웨어러블 센서 데이터로 상위 성능을 달성한다는 것을 보여줍니다.

2025년 11월 20일 오전 12시 00분Apple
AI 안전을 위한 Joint Multimodal 이해의 한계 매핑: VLSU

VLSU는 AI 안전을 위해 비전과 언어를 함께 이해하는 능력을 제한적으로 매핑하는 프레임워크이다. 이는 다중 모달 기반 모델의 안전 평가에서의 부족함을 보완하고, 유해한 콘텐츠를 식별하는데 도움을 준다.

2025년 11월 20일 오전 12시 00분Apple
LLMs를 탐색하는 MLX와 M5 GPU의 신경 가속기

Apple 실리콘을 사용하는 Mac은 최신 모델과 기술을 실험하고자 하는 AI 개발자와 연구자들 사이에서 점점 인기를 얻고 있다. MLX를 통해 사용자들은 Mac에서 효율적으로 LLMs를 탐색하고 실행할 수 있다. MLX는 모든 Apple 실리콘 시스템과 함께 작동하며, 최신 macOS 베타 릴리스에서는 새로운 M5 칩의 신경 가속기를 활용할 수 있다.

2025년 11월 19일 오전 12시 00분Apple
CAR-Flow: 조건에 민감한 재매개화가 소스와 타겟을 일치시켜 흐름 일치를 더 잘 함

CAR-Flow는 조건부 생성 모델링에서 소스와 타겟을 더 잘 일치시키기 위해 가벼운 학습된 시프트인 조건에 민감한 재매개화를 제안한다. 이는 흐름 모델이 조건을 무시하는 초기 표준 가우시안 노이즈를 조건부 데이터 분포로 전달하기 위해 학습되며, 모델이 질량 이동과 조건 주입을 동시에 학습해야 하는 것을 완화시킨다.

2025년 11월 12일 오전 12시 00분Apple
ExpertLens: 활성화 스티어링 피처는 매우 해석 가능합니다

이 논문은 NeurIPS 2025에서 열린 신경 모델에서 표현을 통합하는 워크샵(UniReps)에서 받아들여졌다. 대형 언어 모델(LLMs)에서의 활성화 스티어링 방법은 대량의 적응 데이터가 필요하지 않고 생성된 언어를 향상시키기 위한 효과적인 방법으로 등장했다. 우리는 활성화 스티어링 방법에 의해 발견된 피처가 해석 가능한지 묻는다. 우리는 “전문가 찾기” 방법을 사용하여 특정 개념(예: “고양이”)에 대한 책임 있는 뉴런을 식별하고 이를 검사하는 ExpertLens를 보여준다.

2025년 11월 7일 오전 12시 00분Apple
텍스트 음성 변환을 위한 Few-Shot LLM 기반 텍스트 정규화 기술, PolyNorm

PolyNorm은 텍스트 음성 변환 시스템에서 텍스트 정규화의 효율성을 높이기 위한 방법으로, 수동으로 작성된 규칙에 의존하지 않고 넓은 언어적 적용성을 가능하게 하는 대규모 언어 모델(LLM)을 활용하는 prompt 기반 접근법을 제안한다.

2025년 11월 6일 오전 12시 00분Apple
적응적 공간 토큰화를 이용한 가변형 바디 상호작용 학습

미래인 NeurIPS 2025 AI for Science 워크샵에서 발표된 논문. 변형 가능한 물체 간 상호작용 시뮬레이션은 재료 과학, 기계 설계, 로봇학 분야에 중요하다. 그래프 신경망(GNN)을 활용한 학습 기반 방법은 복잡한 물리 시스템을 해결하는 데 효과적하지만, 가변형 본체 상호작용을 모델링할 때 확장성 문제를 겪는다.

2025년 11월 4일 오전 12시 00분Apple
자기 지도 학습 표현을 효율적인 생성을 위한 잠재 공간으로 적응하기

RepTok은 이미지를 단일 연속 잠재 토큰으로 표현하는 생성 모델링 프레임워크로, 자기 지도 비전 트랜스포머로부터 얻은 토큰을 기반으로 한다. 사전 훈련된 SSL 인코더를 기초로 하여 의미론적 토큰 임베딩만을 미세 조정하고 일반적인 흐름 일치 목적을 사용하여 함께 훈련된 생성 디코더와 짝을 이룬다. 이 적응은 토큰을 저수준, 재구성 관련 세부 정보로 보강하여 충실한 이미지 재구성을 가능하게 한다.

2025년 11월 4일 오전 12시 00분Apple
LinEAS: 활성화 스티어링의 분포 손실과의 엔드 투 엔드 학습

LinEAS는 생성 모델의 효율적인 제어 메커니즘을 제공하며, 모델 활성화에 직접 개입하여 출력 품질을 유지하는 것을 목표로 한다. 최근 연구에서는 모델 활성화에 독점적으로 개입함으로써 활성화 간의 분포 차이를 보정하는 것이 가능하다는 것을 보여줌.

2025년 11월 3일 오전 12시 00분Apple
LLM 동작의 안내를 위한 Policy Maps 도구

대형 언어 모델의 거대한 동작 공간에서 허용 가능한 동작에 경계를 설정하는 AI 정책은 어려운데, Policy Maps는 물리적 지도 작성 방식에서 영감을 받은 AI 정책 설계 접근 방식으로, 효과적인 내비게이션을 돕는다. Policy Projector를 통해 AI 실무자는 LLM 정책 지도를 설계하고 모델의 지형을 조사할 수 있다.

2025년 11월 3일 오전 12시 00분Apple
임베딩 아틀라스: 저저항, 대화형 임베딩 시각화

Embedding Atlas는 대규모 데이터셋 및 모델을 시각화하는 데 널리 사용되는 임베딩 프로젝션이지만, 사용자들은 종종 임베딩 시각화 도구를 사용할 때 “저항”을 겪는다. 이 논문에서는 대규모 임베딩과 상호 작용하는 데 쉽게 접근할 수 있도록 설계된 확장 가능한 대화형 시각화 도구인 Embedding Atlas를 제시한다.

2025년 11월 3일 오전 12시 00분Apple
SEMORec: 스칼라화된 효율적인 다중 목적 추천 프레임워크

다중 이해관계자 환경에서의 추천 시스템은 공급업자와 소비자 요구를 동시에 최적화해야 합니다. SEMORec는 다중 목적을 효율적으로 조합하여 각 이해관계자의 기대를 충족시키는 추천을 제공합니다. 가중치를 사용한 스칼라화 기능을 통해 이러한 환경에서 추천을 제공하는 것은 실제 문제가 됩니다. 최근 연구는 RL을 사용하여 응용 프로그램별 요구에 따라 이러한 가중치를 적응적으로 조정하는 알고리즘을 개발했습니다.

2025년 10월 30일 오전 12시 00분Apple
2025년 Empirical Methods in Natural Language Processing (EMNLP)

Apple이 중국 수주에서 11월 4일부터 9일까지 개최되는 EMNLP 학회에서 새로운 연구를 발표할 예정이다.

2025년 10월 29일 오전 12시 00분Apple
인간 통역 연구로부터의 기계 통역으로의 발전

현재 음성 번역 시스템은 높은 정확도를 보유하고 있지만 인간 통역사처럼 실제 상황에 적응하거나 동적으로 작동하지 못하는 한계가 있다. 인간 통역의 본질을 정확히 이해하여 음성 번역 시스템의 발전을 위한 함의를 찾아야 한다. 이를 위해 기계 번역 분야에서 인간 통역 문헌을 살펴보고 운영 및 질적 측면을 모두 고려한다.

2025년 10월 29일 오전 12시 00분Apple
추론의 면도날: 추론은 정확도를 향상시키지만 안전 및 환각 탐지에서 재현율을 해칠 수 있음

추론은 대형 언어 모델에서 정확도를 지속적으로 향상시키지만, 정밀도에 민감한 작업에서의 적합성은 명확하지 않았다. 저거짓 양성율(FPR) 조건 하에서 분류 작업에 대한 추론의 체계적인 연구를 제시하며, 안전 탐지와 환각 탐지 두 가지 작업을 다루었고 결과는 추론을 포함한 생성이 정확도를 향상시키지만 재현율을 희생시키는 교환이 있음을 보여줌.

2025년 10월 29일 오전 12시 00분Apple
부분 전문가 데모를 통한 추론을 위한 강화 학습

부분 전문가 데모를 통한 강화 학습은 복잡한 시퀀스 생성 작업을 해결하는 유망한 프레임워크로 제안된다. 주어진 밀도 높은 라벨에 의존하는 감독된 미세 조정(SFT)은 시퀀스 길이가 늘어날수록 점점 비용이 증가하는 반면, 강화 학습은 희소한 보상과 조합적으로 큰 출력 공간으로 인해 어려움을 겪는다. 우리는 이를 Adaptive Backtracking(AdaBack)이라는 샘플별 커리큘럼 학습 알고리즘을 소개함으로써 해결한다. 이 알고리즘은 훈련 중에 목표 출력의 부분 접두사만을 공개함으로써 이를 다룬다.

2025년 10월 29일 오전 12시 00분Apple
심리적 지지물을 활용한 언어 모델 페르소나 개선

사용자 설명이나 페르소나로 유도된 언어 모델은 사용자의 선호 및 의견을 예측하는 데 사용됩니다. 기존 방법은 사용자의 인구 특성 또는 이전 판단에 의존하지만 판단의 근본적인 이유에는 의존하지 않습니다. PB&J(행동 및 판단의 심리학)을 소개하는데, 이는 사용자가 특정 판단을 내릴 수 있는 이유를 명확히 추론하기 위해 언어 모델에 의해 생성된 이유를 통합하여 LM 페르소나를 개선합니다.

2025년 10월 28일 오전 12시 00분Apple
ODKE+: 온톨로지 가이드 오픈 도메인 지식 추출과 LLMs

ODKE+는 웹 소스에서 수백만 개의 오픈 도메인 사실을 고정밀로 자동 추출하고 흡수하는 프로덕션 급 시스템이다. 이는 지식 그래프가 많은 AI 응용 프로그램의 기반이 되지만 신선성과 완전성을 유지하는 것이 비용이 많이 든다는 문제를 해결한다. ODKE+는 모듈식 구성 요소를 활용하여 확장 가능한 파이프라인으로 결합된다.

2025년 10월 27일 오전 12시 00분Apple
대규모 언어 모델의 파워를 활용한 Entity Linking에서의 Multi-step Prompting 및 Targeted Reasoning

최근 몇-shot 방법은 대규모 언어 모델을 활용하여 훈련 요구를 줄이기 위해 prompting을 통해 Entity Linking을 수행해왔으나, 비효율성을 겪었다. ARTER는 후보 생성, 문맥 기반 점수 매기기, 적응적 라우팅, 선택적 추론을 전략적으로 결합하여 깊은 세부 튜닝 없이 높은 성능을 달성하는 구조화된 파이프라인을 제시한다.

2025년 10월 27일 오전 12시 00분Apple
모형 불일치 시뮬레이션 기반 추론에서의 귀납적 도메인 전이

시뮬레이션 기반 추론(SBI)은 우도가 복잡하지만 시뮬레이션이 가능한 물리 시스템의 잠재적 매개 변수를 추정하는 통계적 추론 방법이다. 모형 불일치로 실제 관측치와 시뮬레이션 간 불일치가 발생하는데, RoPE는 이에 대응하기 위해 반지도 보정과 최적 수송을 결합한 두 단계의 도메인 전이 과정을 사용한다.

2025년 10월 27일 오전 12시 00분Apple
자원 제한된 모바일 기기에서 대규모 언어 모델의 메모리 효율적인 역전파

대규모 언어 모델을 역전파로 미세 조정할 때 메모리를 많이 사용하는 문제를 해결하기 위해 모바일 기기에 메모리 효율적인 구현을 제안함. Zeroth-order optimization 대신 더 나은 메모리 사용과 계산량의 균형을 제공함.

2025년 10월 27일 오전 12시 00분Apple
비디오 LLM 벤치마크 분석: 지식, 공간 지각 또는 진정한 시간적 이해?

논문이 NeurIPS 2025의 Evaluating the Evolving LLM Lifecycle Workshop에서 받아들여졌다. 기존 비디오 이해 벤치마크는 모델의 시간적 추론 능력을 명확하게 분리하는 대신, 지식 기반 및 순수 이미지 기반 질문을 혼동시키는 경향이 있음을 파악했다. 더 높은 점수가 동영상의 동적 콘텐츠에 대한 더 강한 이해를 진정으로 나타내는지 알아보기 어렵게 만드는 두 가지 주요 제한 사항을 식별했다.

2025년 10월 27일 오전 12시 00분Apple
PrimeX: 세계관, 의견, 설명을 담은 데이터셋

PrimeX는 858명의 미국 주민을 대상으로 한 공개 의견 조사 데이터셋으로, 의견을 지지하는 이유에 대한 설명과 응답자의 세계관을 평가하는 Primal World Belief 조사를 포함하고 있습니다.

2025년 10월 27일 오전 12시 00분Apple
평가 평가 지표의 평가 – 환각 탐지의 신화

환각은 언어 모델의 신뢰성과 보급에 큰 장애물이지만 정확한 측정은 여전히 과제다. 본 논문에서는 4개 데이터셋, 5가지 모델 패밀리의 37개 언어 모델 및 5가지 디코딩 방법을 통해 6가지 다양한 환각 탐지 메트릭 세트를 대규모로 검증했다. 광범위한 조사 결과, 이러한 메트릭의 강건성과 일반화가 아직 테스트되지 않았음을 보여준다.

2025년 10월 27일 오전 12시 00분Apple
대규모 이미지 편집을 위한 Pico-Banana-400K 데이터셋

Pico-Banana-400K는 텍스트로 이끌어지는 이미지 편집 능력을 향상시키기 위해 만들어진 대규모 데이터셋이다. 이미지 편집에 대한 지침을 기반으로 400,000장의 이미지로 이루어져 있으며, 실제 이미지에서 생성된 다양한 수정 쌍을 포함하고 있다.

2025년 10월 27일 오전 12시 00분Apple
대화형 언어 모델에서의 지속적인 편향: 프롬프트 이후의 차별

대화형 언어 모델에서의 편향 전이 가설(BTH)에 대한 이전 연구로부터 나온 위험한 가정은, 사전 훈련된 대형 언어 모델(LLM)에서 편향이 적응된 모델로 전이되지 않는다는 것이다. 우리는 실제 응용 프로그램에서 사용되는 매우 인기 있는 적응 전략인 프롬프트를 통해 BTH를 연구함으로써 이 가정을 무효화한다. 이전 연구와는 달리, 우리는 편향이 프롬프트를 통해 전이될 수 있으며, 인기 있는 프롬프트 기반의 완화 방법이 편향이 전이되는 것을 일관되게 방지하지 못하는 것을 발견했다.

2025년 10월 25일 오전 12시 00분Apple
움직임으로부터 방: 포즈되지 않은 실내 3D 물체 감지를 위치추정 및 매핑으로

“Rooms from Motion (RfM)”은 실내 3D 물체 감지를 위치추정과 매핑의 결과물로 삼는 객체 중심 프레임워크를 재방문한 것이다. 기존의 3D 물체 감지 방법은 전역적으로 운영되며 메트릭 카메라 포즈의 사전 존재를 내재적으로 가정한다. RfM은 포즈되지 않은 이미지 모음에 작용하며, 구조-동작으로부터 파생된 3D 상자를 기반으로 한 객체 중심 매처로 기존의 2D 키포인트 기반 매처를 대체함으로써 메트릭 카메라 포즈, 객체 트랙, 및…

2025년 10월 24일 오전 12시 00분Apple
대화식 음성으로부터 감정 인식 레이블인 Switchboard-Affect

대화식 음성 데이터셋의 세밀한 감정 인식 레이블링은 실제 응용 프로그램에서 음성 감정 인식(SER) 모델의 잠재력을 평가하는 데 중요하다. 대부분의 훈련 및 평가 데이터셋에는 감정 표현이 과장되거나 의도적으로 수정된 경우가 있는데, 이는 모델의 성능을 이해하고 개선이 필요한 부분을 파악하기 어렵게 만든다.

2025년 10월 17일 오전 12시 00분Apple
CPEP: 대조적 자세-EMG 사전 훈련이 EMG 신호에서 제스처 일반화를 향상시킵니다

이 논문은 NeurIPS 2025의 Foundation Models for the Brain and Body Workshop에서 받아들여졌다. 고화질의 구조화된 데이터를 사용한 손 제스처 분류는 컴퓨터 비전에서 잘 연구된 문제이다. 낮은 전력과 비용 효율적인 생체 신호인 표면 근전도(sEMG)를 활용하면 웨어러블 기기에서 연속적인 제스처 예측이 가능해진다. 본 논문에서는 약한 모달리티 데이터로부터 표준화된 고화질 데이터와 일치하는 표현을 학습함으로써 표현 품질을 향상시키고 제로샷 학습을 가능하게 한다는 것을 입증한다.

2025년 10월 16일 오전 12시 00분Apple
SWE-Gym를 활용한 소프트웨어 엔지니어링 에이전트와 검증자의 훈련

SWE-Gym은 실제 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하기 위한 환경으로, 2,438개의 실제 Python 작업 인스턴스를 포함하고 있습니다. SWE-Gym을 활용하여 언어 모델 기반 SWE 에이전트를 훈련시켜 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 최대 19%의 절대 성과 향상을 달성했습니다.

2025년 10월 16일 오전 12시 00분Apple
소프트웨어 테스팅을 위한 하이브리드 벡터-그래프와 멀티 에이전트 조합을 활용한 에이전틱 RAG

소프트웨어 테스팅 자동화를 위한 에이전틱 검색-증강 생성(RAG) 시스템을 활용한 접근 방식을 소개합니다. 자율형 AI 에이전트와 하이브리드 벡터-그래프 지식 시스템을 결합하여 테스트 계획, 케이스, QE 메트릭 생성을 자동화합니다. Gemini와 Mistral과 같은 LLMs, 멀티 에이전트 조작, 향상된 문맥화를 활용하여 전통적인 소프트웨어 테스팅 한계를 극복하며 65%에서 94.8%로 높은 정확도 향상을 달성합니다.

2025년 10월 15일 오전 12시 00분Apple
오토인코더 트랜스포머 모델을 활용한 소프트웨어 결함 예측

AI-ML을 활용한 품질 엔지니어링 접근 방식은 결함을 예측하여 소프트웨어 품질 평가를 향상시킵니다. 새로운 모델인 ADE-QVAET는 고차원 잠재 특성을 얻고 순차적 의존성을 유지하여 결함 예측 정확도를 향상시킵니다.

2025년 10월 15일 오전 12시 00분Apple
FS-DFM: 소수 단계 확산 언어 모델을 활용한 빠르고 정확한 긴 텍스트 생성

ARMs은 강력한 가능성을 제공하지만, 시리얼로 동작하여 장거리 시퀀스의 처리량을 제한하고 지연을 증가시킨다. DLMs는 위치별 병렬화를 통해 언어 생성에 유망하나 품질 향상을 위해 많은 모델 평가가 필요하다. FS-DFM은 속도를 희생시키지 않고 설계된 소수 단계의 이산 흐름 일치 모델을 소개한다.

2025년 10월 13일 오전 12시 00분Apple
ICCV 2025

애플이 하와이에서 개최되는 국제 컴퓨터 비전 학회 ICCV 2025에서 새로운 연구를 발표합니다.

2025년 10월 13일 오전 12시 00분Apple
시각 인코딩을 활용한 시각-언어 모델의 벤치마킹, EncQA

시각-언어 모델의 성능은 차트 이해 벤치마크에서 계속 발전하고 있지만, 시각적 추론 능력을 완전히 포착하지 못함. EncQA는 시각화 문헌을 기반으로한 새로운 벤치마크로, 차트 이해에 중요한 시각 인코딩과 분석 작업을 체계적으로 다루도록 설계됨. 2,076개의 합성 질문-답변 쌍을 제공하여 시각 인코딩 채널(위치, 길이, 면적, 색상 등)을 균형 있게 다루게 함.

2025년 10월 13일 오전 12시 00분Apple
조건부 확산에서의 합성 일반화의 지역 메커니즘

조건부 확산 모델은 합성 일반화, 즉 조건부의 분포와 관련 없는 조합에 대해 설득력 있는 샘플을 생성할 수 있는 것으로 보이지만, 이 능력의 메커니즘이 여전히 불분명하다. 길이 일반화를 연구하여 모델이 때때로 기초 합성 구조를 학습하는 것을 발견한다.

2025년 10월 9일 오전 12시 00분Apple
지식 및 추론 기준에 대한 LLMs의 방언적 편향 분석

이 연구는 대형 언어 모델이 현대 자연어 처리에서 널리 사용되고 있지만, 소수 영어 방언에 대한 성능이 저하되는 문제를 분석합니다. 특히, “표준” 미국 영어 언어 질문을 “표준이 아닌” 방언적 변형으로 분류할 때 객관식 질문 응답 작업에서 최대 20%의 정확도 감소가 나타났습니다. 또한, “표준이 아닌” 영어 질문의 성능 저하에 대한 문법적 근거를 조사했습니다.

2025년 10월 9일 오전 12시 00분Apple
JEPA 재고: 동결된 선생님과 함께 하는 계산 효율적 비디오 SSL

V-JEPA는 동결된 선생님과 함께 마스킹된 영역을 예측하여 범용적 비디오 표현을 학습하는데, 학생과 선생님의 구조를 복잡하게 하는 EMA를 사용하지 않고도 마스킹된 잠재 공간에서 일반화 가능한 영상 표현을 학습하는 방법에 대해 재고했다.

2025년 10월 8일 오전 12시 00분Apple
이유론 기반 이상 감지 프레임워크: 도메인 간 이상 감지에 대한 실시간, 확장 가능하고 자동화된 접근

대규모 분산 시스템에서 이상을 감지하는 것은 여러 어려움이 있습니다. 데이터 양의 증가와 시계열 데이터셋의 다양성으로 인한 도전이 있습니다. 이상을 탐지하기 위해 알고리즘과 시스템 설계를 신중히 고려해야 합니다. 이상 감지 시스템은 한 가지 용도에 대해 드물게 배포되며 여러 도메인에서 종종 여러 지표를 모니터링해야 합니다.

2025년 10월 8일 오전 12시 00분Apple
안정적 확산 모델은 시각 내 콘텍스트 학습에 좋다

최근 컴퓨터 비전 작업에 대한 초기 결과가 매우 유망한 언어 모델(LLM)이 적용된 내 콘텍스트 학습(ICL)의 잠재력을 입증했다. 본 연구에서는 일반적으로 사용되는 안정적 확산 모델을 시각 내 콘텍스트 학습에 재활용할 수 있다는 것을 보여준다.

2025년 10월 7일 오전 12시 00분Apple
TASER: 시스템적 평가와 추론을 통한 번역 평가

TASER는 대규모 추론 모델을 활용하여 자동 번역 품질 평가를 위한 메트릭으로, 명시적 추론 능력을 활용하여 번역 품질을 체계적으로 평가합니다. WMT24 Metrics Shared Task에서 TASER를 평가하고, 최신 기술을 보여주며 최고의 성능을 달성합니다.

2025년 10월 2일 오전 12시 00분Apple
진화하는 세상에서의 학습 장벽: 가중치 손실의 수학적 이해

이 연구는 변동성 있는 환경에서 심층 학습 모델이 미래 학습 능력을 저하시키는 가중치 손실(LoP) 현상으로 어려움을 겪는 것을 다루고 있다. 다이내믹 시스템 이론에 기반을 둔 이 연구는 경사 하강 학습에서의 LoP에 대한 원리주의적 탐구를 제시한다. LoP를 공식적으로 정의함으로써 안정된 매개 변수 공간 내에서 경사도 궤적을 가두는 안정 매니폴드를 식별한다. 이 분석은 활성화 포화로 인한 동결 단위와 표현적 복제 단위 매니폴드로부터 이러한 함정을 만드는 두 가지 주요 메카니즘을 밝혀냈다.

2025년 10월 2일 오전 12시 00분Apple
Hilbert: 비형식적 추론으로 형식적 증명 구축하기

대형 언어 모델(Large Language Models, LLMs)은 수학적 추론 능력을 보여주지만 자동으로 확인할 수 없는 오류를 포함한다. Lean 4와 같은 형식적 정리 증명 시스템은 자동 검증을 제공하여 최근에는 형식 언어로 검증 가능한 증명을 생성하는 전문 프로버 LLMs 구축에 노력하고 있다. 그러나 현재 프로버 LLMs는 일반적인 자연 언어에서 작동하는 범용 LLMs보다 훨씬 적은 문제를 해결한다. Hilbert는 이 간극을 메우는 에이전트 프레임워크를 소개한다.

2025년 10월 2일 오전 12시 00분Apple
양자화 인식 훈련의 최적 컴퓨팅

양자화 인식 훈련(QAT)은 양자화된 신경망의 정확도를 향상시키는 주요 기술이다. 최적의 컴퓨팅 할당 방법을 밝히는 연구를 실시했으며, QAT 기간이 최종 성능에 미치는 영향을 조사한다.

2025년 10월 1일 오전 12시 00분Apple
그래프 표현 학습의 생성 및 대조

그래프의 자기지도 학습은 노드 및 그래프 표현(임베딩)을 생성하여 레이블이 제한적이거나 없는 경우에 노드 분류, 노드 클러스터링 및 링크 예측과 같은 하위 작업에 사용될 수 있다. 이 논문에서는 대조적 또는 생성적 패러다임을 따르는 기존의 그래프 자기지도 학습 방법을 통합하는 새로운 아키텍처를 제안한다.

2025년 9월 29일 오전 12시 00분Apple
최적 데이터 혼합을 위한 스케일링 법칙

대규모 기초 모델은 일반적으로 여러 도메인의 데이터로 학습되는데, 데이터 혼합은 각 도메인의 비율이 모델 성능에 중요한 역할을 한다. 우리는 스케일링 법칙을 사용하여 어떤 대상 도메인에 대한 최적 데이터 혼합을 결정하기 위한 체계적인 방법을 제안한다. 이 방법은 모델의 손실을 정확하게 예측하며 이러한 스케일링 법칙의 보편성을 확인하였다.

2025년 9월 26일 오전 12시 00분Apple
PersonaTeaming: Personas 도입이 자동화된 AI Red-Teaming을 개선하는 방법 탐구

AI 모델이 가지는 잠재적 위험을 효과적으로 발견할 수 있는 red-teaming 방법론이 필요한데, 이 논문은 PersonaTeaming이라는 새로운 방법을 제안한다. 이 방법은 red-teamer의 신원과 배경이 red-teaming 전략과 발견 가능한 위험의 종류를 형성하는 데 어떤 영향을 미치는지 탐구하고 있다. 자동화된 red-teaming 접근 방식이 인간 red-teaming을 보완할 수 있는 가능성을 제시하고 있으나 현재의 방법론은 역할을 고려하지 않는다.

2025년 9월 26일 오전 12시 00분Apple
자가 교육 음성 모델의 다국어 간격 축소를 위한 오디오-비주얼 데이터 활용

자가 교육 학습은 음성 표현 학습에서 상당한 발전을 이루었습니다. 그러나 다국어 환경에서는 단일 언어에 비해 성능이 떨어지는 경향이 있습니다. 이 연구에서는 이러한 성능 간격을 줄이기 위해 이중 언어 음성 자가 교육 모델에 제한된 비주얼 기반을 도입하는 새로운 접근 방식을 탐구합니다.

2025년 9월 25일 오전 12시 00분Apple
단순한 방법으로 단백질 접힘 모델링하기

알파폴드2의 도입 이후 단백질 접힘 모델은 도메인 전문 지식을 통합하고 트랜스포머 레이어만 사용하는 SimpleFold 모델을 소개하며, 성공적인 생성 모델의 영향을 조사한다.

2025년 9월 24일 오전 12시 00분Apple
구별 불가능성의 렌즈를 통한 보정

예측된 확률이 어떻게 해석되어야 하는지에 대한 고전적인 개념인 보정은 어떻게 측정되고 해석되는지에 대한 연구에 대한 최근 관심이 증가하고 있다. 이 연구는 보정 오차를 정의하고 측정하는 방법 및 이러한 측정치가 의미하는 바에 대한 최근 연구에 대해 설명한다.

2025년 9월 23일 오전 12시 00분Apple