미주투데이

애플, 3세대 기초 모델 발표

애플은 사용자 중심의 차세대 인공지능을 소개하며, 새로운 아키텍처를 통해 운영 체제에 깊이 통합된 기초 모델을 선보였습니다. 이 모델은 개인 정보 보호를 핵심으로 하고 있습니다.

2026년 6월 8일 오전 12시 00분Apple

애플, 2026년 CVPR 컨퍼런스에서 새로운 연구 발표

애플은 2026년 6월 3일부터 7일까지 덴버에서 열리는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에 참가하여 새로운 연구를 발표합니다.

2026년 5월 28일 오전 12시 00분Apple

VSAS-Bench: 실시간 비주얼 스트리밍 어시스턴트 모델 평가

VSAS-Bench는 비주얼 스트리밍 어시스턴트 모델의 실시간 성능을 평가하기 위한 새로운 프레임워크입니다. 기존 모델 평가 방식의 한계를 극복하고, 응답의 적시성과 일관성을 측정하는 데 중점을 두고 있습니다.

2026년 5월 22일 오전 12시 00분Apple

BalCapRL: RL 기반 MLLM 이미지 캡셔닝을 위한 균형 잡힌 프레임워크

이미지 캡셔닝은 컴퓨터 비전의 기본적인 작업 중 하나로, 최근 MLLM 시대에 많은 주목을 받고 있습니다. 새로운 연구는 강화 학습을 통해 더 정확하고 상세한 캡션을 생성하려고 합니다.

2026년 5월 11일 오전 12시 00분Apple

애플, 프라이버시 보호 기계 학습 및 AI 워크숍 2026 개최

애플은 프라이버시를 인권으로 여기며, AI 기술이 일상에 통합됨에 따라 프라이버시 보호 연구의 중요성이 커지고 있다고 강조했다. 이를 위해 애플은 프라이버시 보호 기계 학습 및 AI 워크숍을 개최했다.

2026년 5월 8일 오전 12시 00분Apple

Velox: 4D 객체의 기하학과 외관 표현 학습

Velox는 4D 객체의 기하학과 외관을 효과적으로 포착하는 잠재 표현을 학습하는 프레임워크를 소개합니다. 이 시스템은 최소한의 입력으로 동적 포인트 클라우드를 활용하여 효율적인 데이터 압축을 지원합니다.

2026년 5월 8일 오전 12시 00분Apple

위험 민감한 정렬을 위한 보상 분산 정책 최적화(RVPO)

현재의 비평가 없는 RLHF 방법은 다목적 보상을 산술 평균으로 집계하여 제약 무시의 위험에 노출됩니다. RVPO는 보상 간 분산을 처벌하여 일관성을 극대화하는 위험 민감한 프레임워크를 제안합니다.

2026년 5월 8일 오전 12시 00분Apple

다중 시점 캡처를 통한 고품질 3D 가우시안 머리 재구성 기술

HeadsUp은 대규모 다중 카메라 설정에서 고품질 3D 가우시안 머리를 재구성하는 효율적인 피드포워드 방법을 제안합니다. 이 방법은 입력 뷰를 압축하여 잠재 표현으로 변환합니다.

2026년 5월 8일 오전 12시 00분Apple

실용적인 학습 이미지 압축에서 중요한 요소

학습된 코덱이 전통적인 하드코딩 방식과 차별화되는 점은 인간의 시각 시스템에 최적화될 수 있는 능력입니다. 그러나 아직 실용적이고 지각적인 이미지 코덱은 제안되지 않았습니다. 본 연구는 이 격차를 해소하고자 합니다.

2026년 5월 7일 오전 12시 00분Apple

텍스트 조건부 JEPA로 의미론적으로 풍부한 시각 표현 학습하기

이미지 기반의 공동 임베딩 예측 아키텍처(I-JEPA)는 마스킹된 특징 예측을 통해 시각적 자기 지도 학습의 유망한 접근 방식을 제공합니다. 본 연구에서는 텍스트 캡션을 활용하여 예측 불확실성을 줄이는 텍스트 조건부 JEPA(TC-JEPA)를 제안합니다.

2026년 5월 7일 오전 12시 00분Apple

공간-기능 지능 벤치마크, 멀티모달 LLM을 위한 새로운 기준 제시

공간 지능은 단순한 기하학적 인식을 넘어 사물의 용도를 이해하는 것으로 발전하고 있습니다. 이를 평가하기 위한 새로운 기준인 공간-기능 지능 벤치마크(SFI-Bench)가 소개되었습니다.

2026년 5월 6일 오전 12시 00분Apple

SpecMD: 전문가 사전 로딩에 대한 종합 연구

Mixture-of-Experts(MoE) 모델은 희소 전문가 활성화를 가능하게 하지만, 이를 실제 성능으로 전환하기 위해서는 전문가 캐싱 메커니즘이 필요하다. SpecMD는 다양한 하드웨어 구성에서 캐싱 정책을 벤치마킹하는 표준화된 프레임워크이다.

2026년 5월 6일 오전 12시 00분Apple

반복적 디노이징을 통한 정규화 흐름의 발전

정규화 흐름(Normalizing Flows, NFs)은 최근 이미지 모델링 작업에서 유망한 성과를 보여주며 주목받고 있다. 이번 연구에서는 반복적 TARFlow(iTARFlow)를 도입해 NFs의 생성 모델을 한층 발전시켰다.

2026년 5월 6일 오전 12시 00분Apple

적응형 깊이별 캐시 공유를 위한 확률적 KV 라우팅

변환기 언어 모델의 높은 처리량을 위해 키-값(KV) 캐싱이 필요하지만, 이는 메모리 사용량을 증가시켜 비용에 영향을 미친다. 이 연구는 메모리 요구 사항을 줄이는 방법을 제안한다.

2026년 5월 5일 오전 12시 00분Apple

PORTool: 도구 통합 추론을 위한 중요도 인식 정책 최적화

PORTool은 LLM 기반 도구 사용 에이전트가 복잡한 작업을 해결할 수 있도록 도와주는 중요도 인식 정책 최적화 알고리즘입니다. 이 알고리즘은 도구 사용 능력을 강화하며, 단계별 보상을 통해 성공과 실패의 중간 단계를 명확히 합니다.

2026년 5월 4일 오전 12시 00분Apple

도구 호출 에이전트를 위한 강화된 에이전트: 추론 시간 피드백

이 논문은 ACL 2026에서 열린 제5회 자연어 생성, 평가 및 메트릭 워크숍에서 채택되었습니다. 도구 호출 에이전트의 평가 방식과 실시간 피드백의 필요성을 다룹니다.

2026년 5월 1일 오전 12시 00분Apple

2026 국제 음향, 음성 및 신호 처리 회의(ICASSP)에서 애플 연구 발표

애플이 2026년 5월 4일부터 8일까지 스페인 바르셀로나에서 열리는 국제 음향, 음성 및 신호 처리 회의(ICASSP)에서 새로운 연구를 발표합니다. 이번 회의는 신호 처리 및 응용 분야에 중점을 둔 과학 및 산업 연구 커뮤니티가 모이는 자리입니다.

2026년 4월 30일 오전 12시 00분Apple

수화 모델을 활용한 수화 주석 자동화

AI 기반 수화 해석의 발전은 고품질 주석 데이터 부족에 의해 제한되고 있다. 새로운 데이터셋인 ASL STEM Wiki와 FLEURS-ASL은 전문 통역사와 수백 시간의 데이터를 포함하고 있지만, 주석이 부분적으로만 이루어져 있어 활용도가 낮다.

2026년 4월 30일 오전 12시 00분Apple

최신뉴스 전체보기

데이터 선택을 위한 샘플 유틸리티 평가: 모델 가중치 모방

노이즈, 편향, 불필요한 정보를 포함하는 대규모 웹 크롤링 데이터셋에서 다중 모달 모델을 훈련시키는데 데이터 선택 기술의 중요성. 모델 무관한 방법과 모델 기반 방법을 비교하며, 후자는 계산적으로 부담스러울 수 있음. 이 연구에서는 모델 가중치를 모방하여 데이터 선택 방법을 제안한다.

2025년 9월 23일 오전 12시 00분Apple

장기 대화형 질의응답을 위한 에피소딕 KV 캐시 관리 시스템 EpiCache

대규모 언어 모델의 발전으로 대화형 어시스턴트가 긴 이력을 유지하며 일관된 맞춤형 응답을 제공할 수 있게 되었지만, 이는 KV 캐싱에 의존하고 있음. EpiCache는 이러한 한계를 극복하기 위한 새로운 방법론으로, 캐시 크기를 줄이면서도 정확성을 유지하는 것을 목표로 함. 기존 방법들의 한계를 극복하기 위해 연구가 진행 중.

2025년 9월 23일 오전 12시 00분Apple

AToken: 시각을 위한 통합 토크나이저

AToken은 이미지, 비디오, 3D 자산에 대해 고신뢰 재구성과 의미 이해를 달성하는 최초의 통합 시각 토크나이저이다. 기존의 특정 단일 모달리티에 대한 재구성 또는 이해에 특화된 토크나이저와는 달리, AToken은 이러한 다양한 시각 입력을 공유된 4D 잠재 공간으로 인코딩하여 단일 프레임워크에서 두 작업과 모달리티를 통합한다.

2025년 9월 23일 오전 12시 00분Apple

MM-Spatial: 3D 공간 이해를 탐구하는 다중 모달 LLMs

다중 모달 대형 언어 모델(MLLMs)은 2D 시각적 이해에서 뛰어나지만 3D 공간 추론능력에 제한이 있습니다. 이 연구에서는 대규모 고품질 3D 장면 데이터를 활용하여 1) 새로운 지도형 데이터셋을 소개하고 2) 실내 장면에 중점을 둔 새로운 평가 기준을 도입합니다. Cubify Anything VQA (CA-VQA) 데이터는 공간 관계 예측, 측정 크기 및 거리 추정, 3D 기준을 포함한 다양한 공간 작업을 다룹니다. CA-VQA를 사용하여 MM-Spatial을 학습시키면 강력한 종합 MLLM인 MM-Spatial을 훈련시킬 수 있음을 보여줍니다.

2025년 9월 23일 오전 12시 00분Apple

첫 번째 정규화 불완전 모멘트에 대한 대안 통계적 추론

이 논문은 불평등의 잘 알려진 측정 방법인 첫 번째 정규화 불완전 모멘트를 재검토합니다. 기존의 통계적 추론이 현대 분석 요구에 미달한다는 점을 고려하여 직관적이고 계산 효율적인 대안 솔루션을 제안합니다. 제안된 방법론의 이론적 및 실용적 이점이 증명됩니다.

2025년 9월 23일 오전 12시 00분Apple

2025년 애플 자연어 및 대화형 시스템 워크샵

자연어 처리(NLP)는 AI 분야에서 가장 빠르게 발전하는 분야 중 하나로, 대형 언어 모델(LLM), 음성 인식 및 생성 시스템, 언어 에이전트 등이 급속히 발전하고 있다. 이 기술은 애플 인텔리전스와 시리를 포함한 많은 AI 경험에 필수적이며, NLP의 기본 연구는 미래 AI에 기초가 될 것이다.

2025년 9월 23일 오전 12시 00분Apple

RATTENTION: 로컬-글로벌 어텐션 모델에서 최소 슬라이딩 윈도우 크기를 향하여

로컬-글로벌 어텐션 모델은 표준 트랜스포머에 대안으로 최근 등장했는데, 훈련 및 추론 효율성을 모두 향상시킬 것으로 약속되고 있다. 그러나 창 크기 선택은 핵심적인 문제이며, 이 연구는 최소한의 슬라이딩 윈도우 크기에 대해 조사한다.

2025년 9월 23일 오전 12시 00분Apple

가우시안이 아닌 상태에서 식별 가능한 다중뷰 인과 발견

다중뷰 구조 방정식 모델에서 선형 인과 발견에 대한 새로운 접근 방식을 제안한다. 가우시안 왜곡 가정을 완화시키고 대신 다양한 분산을 가정함으로써 더 넓은 적용 범위를 갖게 한다. SEM의 구조에 대해 사이클이 없다는 것 외 추가 가정 없이 모델의 모든 매개변수의 식별 가능성을 증명한다. 또한 최근 다중뷰 독립 성분 분석(IAC)의 발전에 기반한 추정 알고리즘을 제안한다.

2025년 9월 23일 오전 12시 00분Apple

TADA: 훈련 불필요한 증가된 동역학을 활용한 개선된 확산 샘플링

이 연구에서는 이미지넷512에서 비교 FID에 대해 현재 최신 기술 솔버보다 최대 186% 빠른 새로운 샘플링 방법을 소개합니다. 이 새로운 샘플링 방법은 훈련 불필요하며 상평면 상미분 방정식(ODE) 솔버를 사용합니다. 높은 차원의 초기 잡음을 사용함으로써 빠른 샘플링을 가능하게 합니다.

2025년 9월 22일 오전 12시 00분Apple

확산 트랜스포머의 일반화를 가능하게 하는 추론 편향에 대해

최근 연구에서 UNet 기반의 노이즈 제거기를 사용한 확산 모델의 일반화를 연구한 결과, 기하적 적응적 고조파 베이스를 통해 표현 가능한 추론 편향이 발견되었다. 그러나 최근의 더 많은 노이즈 제거 네트워크는 트랜스포머를 기반으로 하고 있는데, 이는 트랜스포머 기반의 노이즈 제거 네트워크도 기하적 적응적 고조파 베이스를 통해 표현 가능한 추론 편향을 나타내는가에 대한 의문을 제기한다. 우리는 이에 대한 탐색을 통해 좋은 결과를 이끌어낼 수 있는 추론 편향을 찾고자 한다.

2025년 9월 22일 오전 12시 00분Apple

MobileCLIP2: 다중 모달 강화 학습 개선

MobileCLIP은 저지연 및 가벼운 아키텍처를 가지고 있으며, 새로운 다중 모달 강화 학습을 활용하여 지식 전달을 효율적으로 만들어내는 이미지-텍스트 모델이다.

2025년 9월 22일 오전 12시 00분Apple

이산형 뉴럴 플로우 샘플러와 로컬 등변 변환기

DNFS는 이산 샘플링을 위한 훈련 가능하고 효율적인 프레임워크로, 연속 시간 마르코프 체인의 비율 행렬을 학습하여 결과적인 역학이 콜모고로프 방정식을 만족하도록 합니다. 이 목표는 추정 불가능한 파티션 함수를 포함하므로, 이에 대한 분산을 줄이기 위해 제어 변수를 사용합니다.

2025년 9월 22일 오전 12시 00분Apple

트랜스포머 기반 자기회귀 플로우를 활용한 연속 공간에서의 유연한 언어 모델링

이 연구는 언어 모델링의 설계 공간을 탐색하여 새로운 모델링 유연성을 제안하는데, 연속 잠재 공간에서의 언어 모델링에 대한 새로운 프레임워크인 TarFlowLM을 제안한다. 이 프레임워크는 트랜스포머 기반 자기회귀 정규화 플로우를 사용하여 연속 표현을 모델링한다.

2025년 9월 22일 오전 12시 00분Apple

데이터셋, 문서 및 반복: 불균형 데이터 품질의 실제

데이터 필터링은 모델 성능을 향상시키고 계산 비용을 줄이는 강력한 도구가 되었지만, 대규모 언어 모델의 계산 예산이 계속 증가함에 따라 심각하게 필터링된 데이터셋에서 제공되는 제한된 데이터 양이 실제 제약 요인이 될 것으로 예상된다. 이에 대한 더 나은 이해를 위해, 우리는 데이터 필터링과 중복 제거를 통해 생성된 다양한 사전 훈련 데이터셋에서 모델 성능을 연구한다. 적절한 훈련 레시피 수정을 고려할 때, 기존에 강력하게 필터링된 것을 반복할 때 모델 성능이 어떻게 변하는지 및 다양한 계산 예산에서 모델 성능을 연구한다.

2025년 9월 22일 오전 12시 00분Apple

UniGen: 통합된 다중 모달 이해 및 생성을 위한 향상된 훈련 및 테스트 시 전략

UniGen은 이미지 이해와 생성이 가능한 통합된 다중 모달 대형 언어 모델이다. 새로운 Chain-of-Thought Verification (CoT-V) 전략을 제안하여 테스트 시 스케일링을 수행하고 이미지 생성 품질을 현저히 향상시킨다.

2025년 9월 22일 오전 12시 00분Apple

개인 KL 분포 추정을 위한 인스턴스 최적성

미지의 이산 분포를 추정하는 기본 문제를 다루며, 실제 분포와 알고리즘의 추정치 사이의 KL 발산을 최소화하려고 함. 개인 최적 추정기를 구축하고 개별 인스턴스에서의 알고리즘 성능을 조사함.

2025년 9월 22일 오전 12시 00분Apple

에너지를 따라가면, 길을 찾다: 에너지 기반 모델로부터의 리만 거리측정

고차원 공간에 있는 두 데이터 포인트 사이의 가장 짧은 경로는 무엇인가? 유클리드 기하학에서는 답이 간단하지만, 데이터가 곡률 다양체에 있는 경우에는 리만 거리측정이 필요하다. 이 연구에서는 사전 훈련된 에너지 기반 모델로부터 리만 거리측정을 직접 유도하는 방법을 제안한다. 이러한 메트릭은 공간적으로 정의된다.

2025년 9월 22일 오전 12시 00분Apple

MLLM 사전을 활용한 MLLM 우선순위에 따른 교차 모달 표현 안내

CLIP의 놀라운 능력에도 불구하고, 여전히 특징 공간에서 상당한 모달 갭이 존재합니다. 최근의 MLLM 기반 리트리버는 이 갭을 일부 완화하지만, 미세 모달리티 정렬 메커니즘에 의존하는 한 그들의 잠재력을 근본적으로 제한합니다. 본 연구에서는 임베딩을 위한 모달리티-정렬 우선 학습인 MAPLE을 소개합니다.

2025년 9월 22일 오전 12시 00분Apple

SlowFast-LLaVA-1.5: 비디오 이해를 위한 토큰 효율적인 비디오 대형 언어 모델 패밀리

SF-LLaVA-1.5는 비디오 이해를 위한 효율적인 모델로, 작은 규모의 Video LLMs도 최첨단 성능을 달성할 수 있다는 것을 보여줌.

2025년 8월 22일 오전 12시 00분Apple

체크리스트는 보상 모델보다 언어 모델을 정렬하는 데 더 나은 방법입니다

언어 모델은 사용자 지시를 이해하고 따라야 합니다. 저자들은 보상 모델 대신 유연한, 지시별 기준을 제안하며, “체크리스트 피드백에서 강화 학습”을 제안합니다. 이를 통해 강화 학습이 지시 따르기에 미치는 영향을 확대할 수 있습니다.

2025년 8월 22일 오전 12시 00분Apple

대형 언어 모델의 행동을 결정할 수 있는 단일 파라미터의 역할

Apple 연구원들의 논문에 따르면, 대형 언어 모델에서 매우 작은 파라미터 하위 집합이 (경우에 따라 단일 파라미터) 전체 기능에 지나치게 큰 영향을 미칠 수 있다. 이 연구는 이러한 “슈퍼 가중치”와 이에 상응하는 “슈퍼 활성화”의 중요성을 강조하며, 효율적인 모델 압축을 위한 새로운 통찰을 제공한다.

2025년 8월 21일 오전 12시 00분Apple

대용량 언어 모델에서 핵심 참조 해결에서의 확신 격차를 활용한 교차적 편향 조사

대용량 언어 모델은 인상적인 성능을 달성했지만, 사회적 편견을 반영하고 악화시킬 수 있다는 과학적 합의가 있음. 이 연구에서는 확신 격차를 사용하여 LLMs의 교차적 편향을 조사함.

2025년 8월 18일 오전 12시 00분Apple

암시적 신경 표현과 함께 비음수 행렬 인수분해 다시 생각하기

이 논문은 IEEE 음향 및 음향 신호 처리 응용 워크샵 (WASPAA) 2025에서 수락되었습니다. 비음수 행렬 인수분해(NMF)는 정기적으로 샘플링된 데이터를 분석하는 강력한 기술이지만, 불규칙하게 샘플링된 TF 표현에도 확장하기 어려웠습니다.

2025년 8월 18일 오전 12시 00분Apple

사전 훈련된 자동 음성 인식의 성능 개선을 위한 Pitch Accent 감지

세미-지도 음성 표현을 이용하는 자동 음성 인식(ASR) 시스템의 성능을 향상시키기 위해 ASR 및 Pitch Accent 감지 모델을 소개한다. 모델의 Pitch Accent 감지 구성 요소는 과제의 최신 기술에 대해 F1 점수 갭을 41%로 줄이는 중요한 개선을 달성한다. 또한, ASR 성능이 한정된 자원 미세 조정 하에 LibriSpeech에서 WER을 28.3% 감소시킨다. 이러한 결과로 사전 훈련을 확장하는 중요성을 입증한다.

2025년 8월 15일 오전 12시 00분Apple

신경 기계 번역을 위한 최적 말뭉치 인식 훈련

말뭉치 인식 훈련(CAT)은 매우 효과적이며, CAT 모델은 데이터로부터 직접 말뭉치의 품질, 도메인 및 뉴안스를 학습하며 추론 동작을 쉽게 전환할 수 있다. 본 논문에서는 최적 말뭉치 인식 훈련 방법을 제안한다.

2025년 8월 15일 오전 12시 00분Apple

Misty: 상호작용적 개념 혼합을 통한 UI 프로토타이핑

Misty는 UI 프로토타이핑을 위해 새로운 개념적 혼합 기술을 소개하는데, 이는 디자인 예시에서 다양한 측면을 빠르게 통합할 수 있는 혁신적인 UI 워크플로우를 제공한다. 14명의 프론트엔드 개발자를 대상으로 한 탐색적 사용 연구를 통해 Misty의 효과를 평가하고 이에 대한 피드백을 수집했으며, 결과는 Misty가 효과적임을 시사한다.

2025년 8월 15일 오전 12시 00분Apple

2025 Interspeech 스피치 접근성 프로젝트 챌린지

지난 10년 동안 자동 음성 인식(ASR) 시스템에서 큰 발전이 있었지만, 언어 장애를 가진 사람들을 위한 시스템의 성능은 부족한데에 공개된 훈련 데이터의 부족이 일부 원인이다. 이 갭을 메우기 위해 2025 Interspeech Speech Accessibility Project (SAP) Challenge가 시작되었고, 500명 이상의 다양한 언어 장애를 가진 사람들로부터 수집된 400시간 이상의 SAP 데이터를 활용한다. EvalAI에서 진행되며, 원격 평가 파이프라인을 활용하여 제출물을 단어 오류율에 따라 평가한다.

2025년 8월 8일 오전 12시 00분Apple

기기 지향적 음성 감지를 위한 적응형 지식 증류

기기 지향적 음성 감지(DDSD)는 사용자의 음성 어시스턴트(VA)에 대한 쿼리를 배경 음성이나 부수적인 대화와 분리하는 이진 분류 작업이다. 이를 위해, ASR 대규모 사전 훈련된 음향 인코더(교사)의 일반적인 표현으로부터 지식을 전달하는 새로운 적응형 KD 방법을 제안한다. 이를 통해 DDSD 정확도를 향상시키고 효율적인 배포를 보장한다.

2025년 8월 8일 오전 12시 00분Apple

HuBERT 자가 지도 학습 목표로 DiceHuBERT 압축하기

DiceHuBERT는 HuBERT를 압축하기 위한 지식 증류 프레임워크로, 기존의 층별 및 특징별 매핑을 사용하는 방법과 달리 HuBERT의 자체 증류 메커니즘을 활용하여 원래 모델을 학생 모델로 직접 대체함으로써 학생이 HuBERT 사전 훈련시 사용된 동일한 자가 지도 학습 목표를 사용하여 학습되도록 함.

2025년 8월 8일 오전 12시 00분Apple

웨이브폼 도메인 신경망을 활용한 앰비소닉 슈퍼-해상도

한글

2025년 8월 4일 오전 12시 00분Apple

STIV: 확장 가능한 텍스트 및 이미지 조건부 비디오 생성

비디오 생성 분야는 놀라운 발전을 이루었지만, 강력하고 확장 가능한 모델의 개발을 지도할 명확하고 체계적인 레시피에 대한 긴급한 필요성이 여전히 존재합니다. 본 연구에서는 모델 아키텍처, 훈련 레시피 및 데이터 정리 전략의 상호 작용을 체계적으로 탐구하는 포괄적인 연구를 제시하며, STIV라는 간단하고 확장 가능한 텍스트-이미지-조건부 비디오 생성 방법을 완성했습니다. 우리의 프레임워크는 이미지 조건을 DiT(Diffusion Transformer)에 프레임 교체를 통해 통합하면서 텍스트 조건을 통합합니다.

2025년 8월 1일 오전 12시 00분Apple

특이 발화에 대한 감정 모델의 일반화 능력이 약하다

특이 발화의 음향 특성이 파악모델의 성능에 영향을 줄 수 있다. 특이 발화 데이터셋을 사용해 음성으로부터 감정을 인식하는 모델의 성능을 평가했으며, 전형적인 발화 데이터셋과 비교했다. 인텔리지빌리티, 모노피치, 가혹함 세 가지 발화 특징을 조사했다.

2025년 8월 1일 오전 12시 00분Apple

다양한 Embedding 공간으로의 조향: 다국어 언어 모델에서 모델 개입에 의한 교차언어 정렬 분석

다국어 대규모 언어 모델(mLLMs)에서 언어 간 정렬된 표현은 교차언어 작업의 성능을 향상시킬 수 있습니다. 보통 정렬은 모델을 세밀하게 조정하는 것을 필요로 하는데, 이는 계산적으로 비싸며 종종 충분한 언어 데이터가 없을 수 있습니다. 모델 개입은 세부 조정에 대안이 될 수 있습니다. 우리는 인기있는 개입 방법(전문가 찾기)이 교차언어 표현의 정렬에 미치는 영향을 분석합니다.

2025년 7월 25일 오전 12시 00분Apple

정보 기하학과 모델 압축에서의 반복 최적화: 연산자 인수분해

딥러닝 모델의 매개변수 수가 증가함에 따라 자원 제한된 장치에 배포하기 위한 효과적인 압축 기술이 필요하다. 이 논문은 정보 기하학을 적용하여 모델 압축 영역에서 기존 방법을 분석하고, 주로 연산자 인수분해에 초점을 맞춘다. 이 관점을 채택함으로써 핵심 과제를 강조하는데, 최적의 저연산 하위다양체(또는 부분집합)를 정의하고 그 위에 투영하는 것이다. 많은 성공적인 모델 압축 접근법이 이해될 수 있다고 주장한다.

2025년 7월 25일 오전 12시 00분Apple

LLM 개인화로 나아가기: 사용자 대화 기억하는 법

이 논문은 2025년 Large Language Model Memorization (L2M2) 워크샵에서 받았다. 대형 언어 모델(Large Language Models, LLMs)은 다양한 작업에 귀중한 도우미가 되었지만, 사용자 대화를 기억하고 맞춤 응답하는 능력이 제한된다. 이 논문에서는 이전 대화의 지식을 LLM에 주입하여 개인화 작업을 더 나아가게 하는 방법을 탐구한다.

2025년 7월 25일 오전 12시 00분Apple

ASPERA: 복잡한 작업 실행을 평가하기 위한 시뮬레이션 환경

이 연구는 대규모 언어 모델이 복잡한 작업 실행이 가능한 디지털 어시스턴트를 구동하는 잠재력을 평가한다. ASPERA는 어시스턴트 라이브러리 시뮬레이션과 인간 지원 LLM 데이터 생성 엔진으로 구성된 프레임워크로, 개발자들이 LLM이 고품질의 작업을 생성하도록 안내할 수 있도록 한다.

2025년 7월 25일 오전 12시 00분Apple

외부 검증 도구가 LLM을 위한 주석 품질을 향상시킬 수 있을까

대규모 언어 모델(LLM)을 평가하고 피드백하기 위해 모델 응답에 대한 쌍별 선호도가 널리 수집됩니다. 이 데이터는 전통적인 하드 코딩된 지표를 얻기 어려운 도메인에서 모델 진행 상황을 측정하거나 모델 세부 조정을 돕는 데 도움이 될 수 있습니다. 그러나 일부 도메인에서는 이러한 쌍별 비교를 얻는 것이 까다로울 수 있습니다.

2025년 7월 25일 오전 12시 00분Apple

mRAKL: 저자원 언어를 위한 다국어 검색 보강 지식 그래프 구축

mRAKL은 저자원 언어를 위한 다국어 검색 보강 지식 그래프 구축을 위한 시스템으로, 다국어 지식 그래프 구축 작업을 질문 응답(QA) 작업으로 재정의하고, RAG 기반 시스템을 도입하여 수행합니다. 실험은 헤드 엔티티와 링크 관계를 활용하여 모델이 꼬리 엔티티를 예측하도록 합니다.

2025년 7월 25일 오전 12시 00분Apple

다양한 도메인에서 에이전트 능력의 종합적인 벤치마크인 MMAU

최근 대형 언어 모델의 발전으로 인해 인간과 유사한 에이전트 능력을 평가하기 위한 종합적인 벤치마크의 수요가 증가했다. 기존의 벤치마크는 특정 응용 시나리오에 초점을 맞추고 작업 완료를 강조하지만 결과를 이끌어내는 기본적인 기술을 분석하지 못하는 경우가 많다. 이러한 세부성의 부족으로 인해 실패의 원인을 심층적으로 이해하기 어렵다. 또한, 이러한 환경을 설정하는 데 상당한 노력이 필요하며 대화형 작업에서는 신뢰성과 재현성 문제가 발생할 수 있다.

2025년 7월 25일 오전 12시 00분Apple

글로벌 캘리브레이션이 다중 정확도를 강화하는 방법

다중 정확도와 다중 캘리브레이션은 학습과 계산 복잡성에서 다양한 응용을 찾은 예측의 다중 그룹 공정 개념이다. 이는 약한 어고노틱 학습이라는 하나의 학습 기본 원리로부터 이루어질 수 있다. 이 연구에서는 다중 정확도를 학습 기본 원리로서의 힘을 조사했으며, 캘리브레이션의 추가 가정 없이도 다중 정확도의 역량이 상당히 약하다는 것을 발견했다. 그러나 글로벌 캘리브레이션을 추가하면(이 개념을 캘리브레이션된 다중 정확도라고 함) 그 역량이 크게 향상되어, 이전에 파악되지 않았던 시사점을 복구할 수 있음을 발견했다.

2025년 7월 25일 오전 12시 00분Apple

ACL 2025: Apple이 ACL 2025에서 새로운 연구 발표

Apple은 오스트리아 비엔나에서 7월 27일부터 8월 1일까지 진행되는 연례 컴퓨터언어학 협회(Association for Computational Linguistics, ACL) 대회에서 새로운 연구를 발표할 예정이다. ACL은 자연어에 대한 컴퓨터 접근 방식에 관심 있는 다양한 연구 분야를 다루는 컴퓨터언어학 분야의 학회이다.

2025년 7월 24일 오전 12시 00분Apple

2024년 애플 인간중심 머신러닝 워크샵

2024년 애플이 인간중심 머신러닝 워크샵을 개최한다. 이 접근 방식은 ML 및 AI 기술을 사용하는 사람들의 필요와 가치를 우선시하여 인간 능력을 보완하고 향상시키는 AI를 만들어낸다. HCML 영역의 연구는 투명하고 해석 가능한 머신러닝 시스템 개발로 사용자들이 AI를 더 안전하게 사용하도록 돕고 부정적인 사회적 영향을 예측하고 예방하는 전략을 다룬다.

2025년 7월 24일 오전 12시 00분Apple

Vision Language Models을 위한 효율적인 Vision 인코딩인 FastVLM

Vision Language Models은 시각적 이해를 텍스트 입력과 함께 가능케 합니다. FastVLM은 사전 훈련된 시각 인코더에서 시각 토큰을 대규모 언어 모델로 전달하여 구축됩니다. VLM은 시각 인코더의 풍부한 시각적 표현과 LLM의 세계 지식 및 추론 능력을 활용하여 접근성 보조기, UI 탐색, 로봇 공학, 게임 등 다양한 응용 분야에 유용할 수 있습니다.

2025년 7월 23일 오전 12시 00분Apple

Boolformer: 심볼릭 회귀를 위한 논리 함수 및 트랜스포머

Boolformer는 불리언 함수들의 심볼릭 회귀를 수행하는 Transformer 기반 모델로, 훈련 중이 아닌 복잡한 함수에 대한 간결한 공식을 예측할 수 있음을 보여줌. 불완전하거나 잡음이 있는 관측에서도 좋은 근사 표현을 찾을 수 있음을 입증하며, 실제 이진 분류 데이터셋에서 Boolformer를 평가하여 해석 가능한 대안으로의 잠재력을 보여줌.

2025년 7월 21일 오전 12시 00분Apple

사전 학습 데이터가 대상 작업과 일치할 때 언어 모델이 개선됩니다

데이터 선택 방법은 대상을 가지고 있으며, 이를 명시적으로 최적화할 때 어떤 일이 벌어지는지를 탐구하기 위해 벤치마크 대상 순위(BETR) 방법을 제안하고 있다. 이 방법은 벤치마크 학습 예제와 유사성에 기반한 사전 학습 문서를 선택하는 간단한 방법으로, 모델의 성능을 향상시킬 수 있다.

2025년 7월 18일 오전 12시 00분Apple

Apple 인텔리전스 Foundation 언어 모델 기술 보고서 2025

Apple은 Apple 디바이스와 서비스 전반에 걸쳐 사용되는 두 개의 다국어, 다모달 Foundation 언어 모델을 소개합니다. 이 모델들은 Apple 실리콘에 최적화된 약 30억 파라미터의 온디바이스 모델과 Apple의 Private Cloud Compute에서 경쟁력 있는 비용으로 높은 품질을 제공하는 새로운 병렬 트랙 MoE(Mixture-of-Experts) 트랜스포머를 기반으로 합니다.

2025년 7월 17일 오전 12시 00분Apple

블록 희소 벡터를 통한 개인 및 효율적인 집계

이 연구는 두 서버 시스템에서 높은 차원 벡터의 안전한 집계 문제를 재방문하며, 개인 연합 학습에서 그래디언트와 같은 벡터를 집계하는 데 사용되는 Prio와 같은 시스템을 다룬다. 기존 방법은 차원과 통신량을 필요로 하지만, 우리는 차원에 비례하지 않는 효율적인 처리가 가능한 PREAMBLE를 제안한다.

2025년 7월 16일 오전 12시 00분Apple

AXLearn: 이질적 인프라에서 모듈식 대형 모델 훈련

AXLearn은 대규모 심층 학습 모델의 확장 가능하고 고성능의 훈련을 용이하게 하는 제품 심층 학습 시스템이다. 다른 최신 심층 학습 시스템과 비교했을 때, AXLearn은 모듈화와 이질적 하드웨어 인프라 지원에 중점을 둔다. AXLearn의 내부 인터페이스는 엄격한 캡슐화를 따라 소프트웨어 구성 요소 간의 다양한 조합을 용이하게 하여 빠른 모델 개발 및 실험을 가능케 한다.

2025년 7월 14일 오전 12시 00분Apple

Visatronic: 음성 합성을 위한 다중 모달 디코더 전용 모델

다중 입력 데이터를 활용하는 기계 학습 시스템의 능력 향상을 위해 LLMs의 발전이 중요하다. 그러나 기존의 다중 모달 모델은 대부분 사전 훈련된 LLMs 위에 구축되어 다른 모달 간의 시간적 의존성을 정확하게 모델링하는 것을 제한할 수 있다. 이에 LLM 스타일의 다중 모달 디코더 모델에서 텍스트, 비디오, 음성 모달의 정렬을 조사한다.

2025년 7월 14일 오전 12시 00분Apple

ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations

이 논문에서는 Multimodal Vision-Language Models (VLMs)을 사용하여 UI 작업에 대한 훈련 데이터 부족 문제를 해결하는 방법을 제시한다. 이를 위해 기존의 이미지-언어 쌍 데이터 생성 방법을 UI 도메인에 적용하여 대화형 예제와 UI를 결합한 데이터셋을 생성한다.

2025년 7월 14일 오전 12시 00분Apple

음성 인식을 위한 차별적 개인정보 보호 페더레이티드 러닝 활성화: 벤치마크, 적응형 옵티마이저, 그리고 그래디언트 클리핑

대규모 트랜스포머 모델을 훈련하는 것에 대한 어려움으로 인해 차별적 개인정보 보호 및 페더레이티드 러닝(FL)이 음성 인식에 적용되는 것은 쉽지 않았다. 이를 해결하기 위해 새로운 벤치마크, 적응형 옵티마이저, 그리고 그래디언트 클리핑을 제안하였다. 이전 연구들은 표준 최적화 기술로 수렴하기 어렵다는 문제에 직면해왔다.

2025년 7월 14일 오전 12시 00분Apple

픽셀 수준 대체로 어휘 제약 극복하기

언어 모델에 어휘 없는 인코더를 추가하여, 텍스트를 픽셀로 렌더링하여 입력 임베딩을 생성하는 방법을 제안함. 영어 중심 언어 모델 실험 결과, 기존의 서브워드 토큰화 방식을 능가하며 기계 번역 성능을 획기적으로 향상시키고 효과적인 다국어 전이를 가능하게 함.

2025년 7월 14일 오전 12시 00분Apple

프라이버시를 고려한 적대적 밴딧 알고리즘의 빠른 속도

이 연구에서는 적대적 밴딧과 전문가 충고가 있는 밴딧 문제에 대한 새로운 차별화된 프라이버시 알고리즘을 설계했다. 기존의 비-프라이버시 밴딧 알고리즘을 프라이버시 밴딧 알고리즘으로 변환하는 간단하고 효율적인 방법을 제시했으며, 기존 상한선을 개선하여 모든 프라이버시 영역에서 O(KTε)의 상한선을 제공한다.

2025년 7월 11일 오전 12시 00분Apple

센서 데이터 이상 넘어서: 웨어러블의 행동 데이터에 대한 기반 모델이 건강 예측을 개선

웨어러블 기기는 생리적 및 행동 신호를 기록하여 건강 예측을 개선할 수 있다. 이 연구에서는 162,000명의 개인으로부터 얻은 25억 시간의 웨어러블 데이터를 사용하여 행동 신호의 기반 모델을 개발했다. 이는 고유한 데이터셋에 대해 구조와 토큰화 전략을 체계적으로 최적화한 것이다. 이 모델은 57가지 건강 관련 문제에 대해 평가되었다.

2025년 7월 11일 오전 12시 00분Apple

시뮬레이션 기반 추론에서 데이터 기반 보정을 통한 모델 부정확성 해결

딥 생성 모델링의 지속적인 발전에 이끌리는 시뮬레이션 기반 추론(SBI)은 확률적 시뮬레이터의 매개변수를 추론하는 데 사용되고 있습니다. 하지만 최근 연구에서 모델 부정확성이 SBI의 신뢰성을 훼손할 수 있다는 것을 보여주었습니다. 이 연구는 소량의 실제 세계 보정 데이터를 사용하여 모델 부정확성을 극복하는 Robust Posterior Estimation~(RoPE) 프레임워크를 소개합니다.

2025년 7월 11일 오전 12시 00분Apple

CommVQ: Commutative Vector Quantization를 이용한 KV 캐시 압축

CommVQ는 Commutative Vector Quantization을 제안하여, 긴 문맥을 필요로 하는 대형 언어 모델에서 메모리 사용량을 현저히 줄이는 방법을 제시합니다. 가벡터 양자화를 활용하여 가벡터 캐시를 압축하고, 간단한 행렬 곱셈으로 디코딩할 수 있도록 설계되었습니다.

2025년 7월 11일 오전 12시 00분Apple

새로운 및 다양한 이미지 생성을 위한 Shielded Diffusion

이 연구는 생성 모델이 동일한 프롬프트로 반복해서 이미지를 생성할 때 종종 비슷한 변형을 얻는 문제를 다루며, 기존 이미지와의 다양성을 유지하면서 새로운 이미지를 생성하는 방법을 제안한다. 데이터 기반의 방법을 활용하여 생성된 이미지를 기존 이미지 집합으로부터 멀어지도록 격리시키는 효과적인 방법을 제시한다.

2025년 7월 11일 오전 12시 00분Apple

대상 콘크리트 점수 매칭: 이산 확산을 위한 포괄적인 프레임 워크

본 연구에서는 이산 데이터를 모델링하고 생성하기 위한 유망한 프레임 워크인 이산 확산을 제시한다. 대상 콘크리트 점수 매칭(TCSM)은 이산 확산 모델의 교육과 세부 조정을 위한 혁신적이고 다재다능한 목적을 제시한다. TCSM은 넓은 적용 가능성을 갖는 일반적인 프레임 워크를 제공하며, 다양한 기존 이산 확산 접근 방식을 자연스럽게 다룰 수 있다. 또한, 동일한 TCSM 목적은 이산 확산 모델의 사후 교육까지 확장된다.

2025년 7월 11일 오전 12시 00분Apple

생성형 음성 언어 모델의 자연함 향상을 위한 변분 프레임워크

대형 언어 모델의 성공으로 영감을 받아 음성 모델링에 적용되고 있지만, 음성은 연속적이고 복잡하여 자동 회귀 모델링을 위해 이산화되곤 한다. 자기 지도 모델에서 파생된 음성 토큰은 음성의 언어적 측면에 중점을 두지만 억양 정보를 무시하는 경우가 많다. 이에 따라 이러한 토큰으로 훈련된 모델은 자연함이 감소한 음성을 생성할 수 있다. 기존 접근 방식은 이를 해결하기 위해 음성 토큰에 음높이 특성을 추가하는 것이지만, 음높이만으로는 범위를 완전히 표현할 수 없다.

2025년 7월 11일 오전 12시 00분Apple

LLM이 자신의 내부 답변 분포를 알까?

이 논문은 대규모 언어 모델(LLMs)이 답변에 대해 확신이 없을 때 그것을 나타내야 한다는 불확실성 양자화의 역할을 탐구한다. LLMs의 다양한 출력 공간을 활용하여 불확실성을 설명하는 문자열을 제안한다.

2025년 7월 11일 오전 12시 00분Apple

QuantSpec: 계층 적용된 양자화된 KV 캐시를 사용한 셀프-추론적 디코딩

점점 더 많은 edge 장치에서 대규모 언어 모델이 장기 문맥 설정에 배포되고 있어서, 빠르고 효율적인 장기 문맥 추론이 점점 더 필요해지고 있다. 이 연구에서는 기존 방법들이 효율적인 KV 캐시 최적화 전략을 통해 중요한 속도 향상을 달성하는 데 어려움을 겪고 낮은 수락률을 유발하는 반면, 자가-추론 디코딩을 사용하여 이러한 쟁점을 해결하는 방법을 제시한다.

2025년 7월 11일 오전 12시 00분Apple

3D 장면 이해를 위한 토큰 구조의 영향 연구: 대규모 언어 모델과의 점-3D LLM

3D 장면을 효과적으로 나타내는 것은 중요하지만 어렵다. 이 연구는 비디오 및 포인트 기반 표현을 비교하고 시각적 토큰을 3D 포인트 클라우드 기능으로 보강하는 새로운 방법을 제안한다. 실험 결과는 명시적인 3D 정보를 통합하는 것이 3D 장면 이해에 도움이 된다는 것을 보여준다.

2025년 7월 11일 오전 12시 00분Apple

애플 머신러닝 연구, ICML 2025에서 소개

애플 연구원들이 인공지능과 머신러닝 분야의 기본 연구를 통해 진보하고 있으며, 이를 지원하기 위해 연구 내용을 게재하고 학회 참여를 통해 발전을 가속화하고 있다. 다음 주에 캐나다 밴쿠버에서 열리는 국제 머신러닝 학회(ICML)에 애플이 참가할 예정이며, 산업 후원사로 참여할 예정이다.

2025년 7월 11일 오전 12시 00분Apple

시네스카우트: 시각 장애인을 위한 AI 에이전트 주도의 거리뷰 이미지 접근을 향하여

시각 장애인이 낯선 환경에서 독립적으로 여행하기 어려운 이유 중 하나는 물리적 지형에 대한 불확실성 때문이다. 이 연구에서는 시각 장애인을 위한 AI 에이전트 시네스카우트를 소개한다. 이는 거리뷰 이미지를 활용하여 환경적 세부 사항을 제공함으로써 시각 장애인들에게 풍부한 시각 정보를 제공한다.

2025년 7월 7일 오전 12시 00분Apple

확신 토큰을 이용한 학습 루팅 LLMs

대형 언어 모델(Large language models, LLMs)은 다양한 작업에서 탁월한 성능을 보여주며 현재 실제 응용 프로그램에서 증가하고 있습니다. 하지만 특히 고위험 상황에서는 LLM의 출력이 신뢰할 수 없을 때를 알아내는 것이 중요합니다. 이 연구에서는 LLM이 답변에 대한 확신을 신뢰할 수 있는지, 이 신뢰의 개념이 하류 정확도로 어떻게 전환되는지 조사합니다.

2025년 7월 7일 오전 12시 00분Apple

매개변수 대 FLOPs: 최적 희소성에 대한 스케일링 법칙 – 전문가 혼합 언어 모델을 위한

언어 모델 용량 확장은 성능 향상과 새로운 기능 발견에 신뢰할만한 방법이다. 모델 매개변수 및 예제 당 연산량으로 주로 정의되며, 이 두 가지 요소 간의 상호 작용과 전체 용량에 대한 복합 기여는 아직 완전히 이해되지 않았다. 본 논문에서는…

2025년 7월 7일 오전 12시 00분Apple

과업별로 직교하는 진실의 기하학

대형 언어 모델은 다양한 작업에서 탁월한 일반화 능력을 보여주지만, 그 신뢰성에 대한 우려로 여전히 실용적인 중요성을 주장하고 있다. 최근 연구들은 언어 모델의 활성화를 검토하여 질문에 대한 답변이 올바른지 평가하는 것을 제안했다. 몇몇 연구는 예시에서 “진실의 기하학”이 학습될 수 있다고 주장한다.

2025년 7월 7일 오전 12시 00분Apple

최고 전문가를 개인 정보 보호하에 추적하기

동적 후회를 가진 전문가 의견 예측 문제에 대한 차별적 개인 알고리즘을 설계합니다. 변화하는 분포에 대한 확률론적 적대자, 맹목적 적대자 및 적응적 적대자 세 가지 유형의 적대자에 대응하고, 모든 경우에 대해 하위 선형 후회를 갖는 알고리즘을 설계합니다. 특히, 분포가 S번 변할 수있는 시간에 대해 ε-차별적 개인 알고리즘을 제공하며, 예상 동적 후회는 O(STlog(NT)+Slog(NT)ε)입니다.

2025년 7월 7일 오전 12시 00분Apple

Mamba에서의 입력 선택성 이해

최근 State-Space Models (SSMs) 중 하나인 Mamba는 Transformers에 유망한 대안으로 부상했다. Mamba는 입력 선택성을 도입하여 SSM 레이어(S6)에 소성과 게이팅을 통합시킨다. 이러한 수정은 Mamba의 성능을 향상시키지만, 입력 선택성이 추가 기능과 상호작용하는 방식은 여전히 명확하지 않다. 본 연구에서는 Mamba에서의 입력 선택성 역할을 명확히하고, 이것이 Mamba 아키텍처의 다른 작업들과 상호작용하는 방식을 조사했다.

2025년 7월 4일 오전 12시 00분Apple

LLMs를 위한 불확실성 인식 공정성 평가

대형 언어 모델(LLMs)의 급속한 채택은 그들의 공정성을 벤치마킹하는 중요성을 강조합니다. 이에 따라 모델의 불확실성을 고려한 새로운 공정성 측정 기준 UCerF를 제안하였습니다. 이는 모델의 내부 편향을 더 잘 반영하여 모델의 공정성을 세밀하게 평가할 수 있습니다.

2025년 7월 4일 오전 12시 00분Apple

전문가 모델 사전 학습을 통한 전문가 모델의 평균

다양한 데이터 소스의 혼합물로 대규모 모델이 교육되고, 다양한 데이터 혼합물은 매우 다른 하류 성능을 얻는다. 이에 따라 모델을 다시 교육할 필요 없이 각 데이터 혼합물에 대한 모델을 생성할 수 있는 새로운 아키텍처를 제안한다. 이 아키텍처는 전문가 가중치 은행으로 구성되어 있으며, 입력 히스토그램의 함수로 선형 결합 계수를 학습한다. 이 아키텍처를 교육하기 위해 무작위 히스토그램을 샘플링하고 해당 모델을 생성한 후 데이터 배치를 통해 역전파한다.

2025년 7월 4일 오전 12시 00분Apple

대형 언어 모델의 슈퍼 가중치

대형 언어 모델의 일부 파라미터가 모델의 품질에 지대한 영향을 미친다는 연구 결과가 나왔다. 작은 비율의 파라미터가 모델의 품질에 중요하며, 하나의 파라미터도 제거하면 모델의 텍스트 생성 능력이 파괴될 수 있다. 이를 식별하기 위한 데이터 없는 방법을 제안한다.

2025년 7월 2일 오전 12시 00분Apple

대규모 에고센트릭 비디오로부터 솜씨있는 조작 학습하기

데이터 부족 문제를 해결하기 위해 에고센트릭 인간 비디오를 활용한 솜씨있는 조작 학습. EgoDex라는 최대 규모와 다양성을 갖춘 데이터셋 구축.

2025년 7월 1일 오전 12시 00분Apple

상호작용에서 영향으로: 이해와 평가를 통해 안전한 AI 에이전트로

AI 에이전트가 사용자 인터페이스를 조작하여 일상 업무를 관리하는 데 집중한 최근 연구. 이 연구는 AI 에이전트의 행동이 미치는 영향과 결과를 조사하고, 특히 위험하거나 되돌릴 수 없는 행동에 대해 탐구함. 모바일 UI 조작의 영향에 대한 분류체계 개발을 통해 연구 시작.

2025년 6월 30일 오전 12시 00분Apple

대조적 지역화 언어-이미지 사전 훈련

CLIP는 이미지/텍스트 표현을 생성하는 비전 인코더를 훈련하는 데 사용되는 인기 있는 방법이며, 최근에는 다양한 응용 프로그램을 용이하게 하는 다중 언어 모델의 비전 백본으로 널리 채택되었습니다. 그러나 CLIP의 성공은 이미지 수준에서의 웹 크롤링된 노이즈 텍스트 주석을 정렬하는 데 의존하는데, 이러한 기준은 특히 세부 비전 표현이 필요한 하위 작업에 대해 충분하지 않을 수 있습니다.

2025년 6월 30일 오전 12시 00분Apple

다모달 대형 언어 모델을 활용한 자아중심 비디오 질문 응답 발전

이 연구는 자아중심 비디오 질문 응답에 다모달 대형 언어 모델이 어떻게 적용되는지 평가하고 있다. 긴 시간 범위의 시간적 추론, 일인칭 시점, 자주 발생하는 카메라 움직임과 같은 과제를 처리해야 한다. QaEgo4Dv2 데이터셋에서 4가지 인기 MLLM을 평가하며 주석 노이즈를 줄이기 위해 QaEgo4Dv2를 소개한다.

2025년 6월 30일 오전 12시 00분Apple

코드 생성 LLMs에서의 장거리 의존성 처리 평가

언어 모델이 더 많은 문맥을 지원할수록 그 문맥을 효과적으로 활용하는 능력을 평가하는 것이 점점 중요해진다. 여러 코드 생성 모델이 장거리 종속성을 처리하는 능력을 분석했으며, 8k 토큰 길이의 컨텍스트 창에서 다중 단계 키 검색 작업을 사용하여 모델 능력을 평가했다. 성능이 많은 모델에서 크게 감소하는 것으로 나타났다.

2025년 6월 30일 오전 12시 00분Apple

텍스트 대비 비디오 정렬의 평가: 미세한 질문 생성 및 답변을 통해

텍스트 대비 생성된 비디오의 의미적 정렬을 정확히 평가하는 것은 여전히 도전적이다. 기존의 텍스트 대비 비디오 정렬 메트릭인 CLIPScore는 미세한 정렬 세부사항을 생성하지 못하여 인간의 선호와 일치하지 못한다. 이 한계를 극복하기 위해 우리는 ETVA라는 새로운 텍스트 대비 비디오 정렬 평가 방법을 제안한다. 이 방법은 미세한 질문 생성과 답변을 통해 텍스트 대비 비디오의 정렬을 평가한다.

2025년 6월 30일 오전 12시 00분Apple

Cavia: 카메라 제어 가능한 멀티뷰 비디오 확산과 뷰 통합 주의

Cavia는 카메라 제어가 가능한 멀티뷰 비디오 생성을 위한 혁신적인 프레임워크로, 입력 이미지를 다양한 카메라 경로로 일관된 비디오로 변환할 수 있다.

2025년 6월 30일 오전 12시 00분Apple

대형 언어 모델을 위한 명령 따르기 가지치기

대형 언어 모델의 신속한 확장으로 구조화된 가지치기가 보다 효율적이고 우수한 성능을 제공하는 작은 모델을 학습하는 데 널리 사용되고 있다. 이 논문에서는 모델에 대한 고정된 가지치기 마스크를 결정하는 전통적인 정적 가지치기 접근법을 넘어서 사용자 지시에 설명된 정보를 기반으로 가지치기 마스크를 동적으로 조정하는 방법을 제안한다.

2025년 6월 30일 오전 12시 00분Apple

언어 모델에서 불확실성 측정 재방문: 응답 길이 편향 결과와의 잘못된 상호작용

언어 모델의 불확실성 측정은 안전성과 신뢰성 향상에 중요하다. AUROC와 같은 메트릭을 사용하여 UQ 방법이 작업 정확성 함수와 얼마나 잘 상관하는지를 평가하는데, 상호 편향은 평가를 왜곡시킬 수 있다. 상호 편향이 AUROC 순위를 왜곡시키는 것을 공식적으로 증명하고, 7가지 방법을 테스트하여 이를 확인했다.

2025년 6월 20일 오전 4시 35분Apple

변분 정정 흐름 매칭

본 연구는 다중 모달 속도 벡터 필드를 모델링하여 클래식한 정정 흐름 매칭을 향상시키는 변분 정정 흐름 매칭을 탐구합니다. 추론 시간에는 소스 분포에서 대상 분포로 샘플을 ‘이동’시키는 과정으로 속도 벡터 필드를 통해 보통 미분 방정식을 해결합니다. 훈련 시간에는 속도 벡터 필드를 소스와 대상 분포에서 무작위로 추출된 결합된 샘플 사이를 선형 보간하여 학습합니다.

2025년 6월 20일 오전 12시 00분Apple

주변 공간에서 INRs을 위한 Flow Matching

Flow matching 모델은 이미지나 비디오와 같은 도메인뿐만 아니라 3D 포인트 클라우드나 단백질 구조와 같은 불규칙하거나 구조화되지 않은 데이터에 대한 생성 모델링에 강력한 방법으로 등장했습니다. 이 두 단계 패러다임은 서로 다른 데이터 도메인에 대해 손수 제작된 압축기 아키텍처가 사용되기 때문에 모델의 통합을 방해합니다.

2025년 6월 20일 오전 12시 00분Apple

데이터 처리 불평등을 통한 데이터 기억의 트레이드오프

대형 언어 모델을 훈련하는 것은 상당 부분의 데이터 기억을 포함한다는 최근 연구 결과가 있다. 이 기억은 민감한 사용자 데이터를 기반으로 훈련할 때 개인 정보 침해로 이어질 수 있으며, 이는 데이터 기억이 학습에서 어떤 역할을 하는지에 대한 연구를 촉발한다. 이 연구에서는 강력한 데이터 처리 불평등과 데이터 기억 사이의 새로운 연결을 통해 초과 데이터 기억에 대한 하한선을 증명하기 위한 일반적인 방법을 개발한다.

2025년 6월 20일 오전 12시 00분Apple

LLMs의 비지도 미세조정을 위한 스케일링 법칙

특정 도메인에서 잘 작동하는 언어 모델을 얻기 위한 보편적인 전략은 해당 도메인의 데이터를 사용하여 비지도 다음 토큰 예측을 훈련시키는 것이다. 하지만 미세조정은 목표 데이터의 양이 제한적인 경우 빠르게 과적합될 수 있고, 원래 모델에서 벗어나 사전 훈련 분포를 잊을 수 있다. 이 논문은 이러한 두 현상을 몇 가지 목표 도메인, 사용 가능한 목표 데이터 및 모델 스케일에 대해 정량화한다.

2025년 6월 20일 오전 12시 00분Apple

정규화 흐름은 강력한 생성 모델이다

정규화 흐름(NFs)은 연속적인 입력에 대한 우도 기반 모델로, 밀도 추정과 생성 모델링 작업에서 유망한 결과를 보여주었으며, 이번 연구에서 NFs가 예상보다 강력함을 입증하고 있다. TarFlow는 NF 모델의 성능을 높일 수 있는 간단하고 확장 가능한 아키텍처로, 이미지 패치 위에 자기회귀 Transformer 블록의 스택으로 이루어진 MAFs의 변형으로 볼 수 있다.

2025년 6월 20일 오전 12시 00분Apple

음성 검색 오류 수정을 위한 음운론적 보강 판별 재점수화

높은 품질의 데이터를 확보하는 것이 비용이 많이 드는 End-to-end (E2E) 자동 음성 인식 (ASR) 모델을 훈련시킬 때 어려움을 겪는다. 이 논문에서는 E2E ASR 시스템의 훈련 데이터에 충분히 표현되지 않는 최근이나 드문 영화 제목과 같은 쿼리들에 대한 음운론적 보정 시스템을 제안한다.

2025년 6월 20일 오전 12시 00분Apple

다국어 모델에서 형태와 의미를 차별하는 미니멀 페어 ABX 태스크

이 연구는 다국어 언어 모델이 언어 식별(형태)과 의미 내용(의미)을 어떻게 표현하는지를 평가하기 위한 훈련이 필요 없는 ABX 스타일의 차별화 작업을 소개한다. XLM-R에 적용된 결과, 언어 차별이 훈련 과정에서 감소하고 하위 레이어에 집중됨을 발견했다.

2025년 6월 13일 오전 12시 00분Apple

애플 머신러닝 연구팀, CVPR 2025에서 연구 발표

애플 연구원들이 기본 연구를 통해 AI 및 머신러닝을 발전시키고 있으며, CVPR 학회에 참여하여 새로운 연구를 발표할 예정이다. 애플은 컴퓨터 비전 및 패턴 인식 학회에 참여하여 연구 결과를 공유하고 있다.

2025년 6월 10일 오전 12시 00분Apple

Apple의 기기 내 및 서버 기반 언어 모델 업데이트

Apple은 개인정보 보호를 유지하면서 강력한 생성형 AI를 앱과 경험에 통합하고 있습니다. 2025 Worldwide Developers Conference에서 최신 소프트웨어에서 Apple Intelligence 기능을 향상시키기 위해 특별히 개발된 새로운 세대의 언어 기반 모델을 소개했습니다. 또한 앱 개발자들이 Apple Intelligence 핵심인 기기 내 기반 언어 모델에 직접 액세스할 수 있는 새로운 Foundation Models framework도 소개했습니다.

2025년 6월 9일 오전 12시 00분Apple

Proxy-FDA: Proxy를 활용한 시각 기반 모델 세부 조정을 위한 특징 분포 맞춤

대량 데이터로 사전 훈련된 시각 기반 모델은 현실 세계 개념의 풍부한 표현을 인코딩하며, 세부 작업에 맞게 조정될 수 있다. 그러나 하나의 작업에 모델을 세밀 조정하는 것은 종종 다른 작업에서 개념을 잊어버리는 문제를 야기한다. 최근 견고한 세부 조정 방법은 사전 지식을 잊지 않으면서 세부 조정 성능을 향상시키는 것을 목표로 한다.

2025년 6월 5일 오전 12시 00분Apple

이상적이지 않은 말과 감정을 위한 해석 가능한 기본 요소로서의 음성 품질 차원

이상적이지 않은 말과 다른 말 조절의 주요 특성을 설명하는 지각적 음성 품질 차원을 개발하고 평가했습니다. 434명의 화자로부터 11,184개 샘플을 사용하여 퍼블릭 스피치 접근성(SAP) 프로젝트 데이터셋에서 음성 품질 모델을 개발하고 평가했습니다. 우리는 우리의 조사가 강력한 성능과 강력한 일반화를 보여주었음을 발견했습니다.

2025년 6월 5일 오전 12시 00분Apple

사고의 환상: 문제 복잡성의 렌즈를 통해 추론 모델의 강점과 한계 이해하기

최근의 선두 언어 모델은 상세한 사고 과정을 생성하는 대규모 추론 모델(LRMs)을 소개했다. 이러한 모델은 추론 벤치마크에서 뛰어난 성능을 보이지만, 기본적인 능력, 확장 성질 및 한계에 대한 이해는 여전히 미흡하다. 현재의 평가는 주로 수학적 및 코딩 벤치마크에 초점을 맞추며, 최종 답변 정확도를 강조한다. 그러나 이러한 평가 패러다임은 종종 데이터 오염 문제를 겪으며 추론 추적에 대한 통찰을 제공하지 않는다.

2025년 6월 5일 오전 12시 00분Apple

시각 언어 모델 체인 오브 씨토트 추론 향상

시각 언어 모델의 씨토트 추론은 해석 가능성과 신뢰성을 향상시키는 데 중요하다. 현재의 훈련 방법은 짧은 주석으로 지배된 데이터셋에 의존하고 있는데, 이는 자세한 설명이 필요한 추론 작업에서 일반화가 부족하다는 한계가 있다. 이 한계를 극복하기 위해 짧은 답변 데이터를 확장한 두 단계의 후훈련 전략을 제안한다.

2025년 6월 5일 오전 12시 00분Apple

텍스트 압축을 넘어: 다양한 규모에서 토크나이저 평가하기

토크나이저 디자인은 언어 모델 성능에 상당한 영향을 미치지만, 토크나이저 품질을 평가하는 것은 여전히 어렵다. 최근 연구에서는 텍스트 압축이 일반적인 내재적 측도로 등장했지만, 신뢰성이 의문되고 있다. 저자들은 작은 모델(350M 매개변수)에서 토크나이저를 평가하는 것이 큰 규모(2.7B 매개변수)에서의 영향을 신뢰할 수 있는지 조사했다. 널리 사용되는 언어 모델의 토크나이저를 실험한 결과, 토크나이저 선택은 영어 작업에는 거의 영향을 주지 않지만, 중요한 차이를 보여준다.

2025년 6월 5일 오전 12시 00분Apple

2025년 IEEE/CVF 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스

2025년 6월 11일부터 15일까지 테네시 주 내슈빌에서 개최되는 IEEE/CVF 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스에 Apple이 후원사로 참여할 예정이다. 이 컨퍼런스는 주요 컨퍼런스와 여러 공동 워크샵 및 단기 과정으로 구성된 매년 열리는 컴퓨터 비전 행사이다.

2025년 6월 4일 오전 12시 00분Apple

다국어 간 전이에서 언어 유사성이 미치는 영향 분석: 작업과 입력 표현이 중요

다국어 간 전이는 NLP 작업의 훈련 데이터 양을 늘리는 인기있는 방법이지만, 어떤 다국어 데이터를 포함해야 하는지에 대한 최적 전략은 명확하지 않다. 본 연구에서는 263개 언어에 대한 다국어 간 전이를 분석하여 이 질문에 기여하고 있다. 세 가지 인기 NLP 작업을 포함한다.

2025년 6월 4일 오전 12시 00분Apple

개선된 원문 대본 전사와 엔드 투 엔드 미스큐 탐지를 위한 프롬프팅 휘스퍼

현재의 읽기 오류 주석 방법을 개선하기 위해 대상 독해 텍스트를 프롬프팅하여 원문 전사 및 직접 미스큐 탐지를 위해 훈련된 혁신적인 엔드 투 엔드 아키텍처를 제안합니다.

2025년 6월 3일 오전 12시 00분Apple

증류 스케일링 법칙

증류 스케일링 법칙은 학생과 선생님 간의 컴퓨팅 예산 및 할당을 기반으로 증류된 모델 성능을 예측하는 법칙이다. 컴퓨팅 최적 할당을 통해 학생 성능을 극대화하여 대규모 증류와 관련된 위험을 완화한다. 기존 선생님이 있는 경우와 선생님을 훈련해야 하는 경우에 대한 컴퓨팅 최적 증류 레시피를 제공한다.

2025년 6월 3일 오전 12시 00분Apple

SpeakStream: 인터리브된 데이터로 스트리밍 텍스트 음성 변환

말 앞단과 대형 언어 모델의 점점 더 통합되는 환경에서 이 모달리티를 통합하는 아키텍처를 탐구하는 필요성이 있다. 우리는 전통적인 텍스트 음성 변환 시스템을 사용하여 LLM 출력을 오디오로 변환하는 ‘스트리밍’ TTS를 제안한다.

2025년 5월 30일 오전 12시 00분Apple

« 이전 1 2 3 4 다음 »