앱 스토어의 평가와 리뷰는 사용자들이 앱을 탐색할 때 소중한 자원이다. iOS 18.4에서 리뷰 요약이 제공되면서 사용자들은 앱에 대한 다른 사용자들의 의견을 빠르게 파악할 수 있다. 이 기능은 새로운, 다단계 LLM 기반 시스템으로 구동되며 주기적으로 사용자 리뷰를 요약한다.
통계 분석이 과학, 산업 및 사회에서 중요해지면서 결과의 정확성을 보장해야 하는 필요성이 커지고 있다. 복제를 통해 근사 정확성을 확인할 수 있지만, 복제 없이도 확인할 수 있는 방법은 없을까? 최근 연구를 기반으로, 결과가 대략적으로 정확한지 확률적으로 확인할 수 있는 증명 시스템을 연구하고 있다.
애플 연구자들이 머신러닝과 인공지능을 발전시키며 세계의 기술 이해를 개선하고 그 가능성을 재정의하는 데 기여하고 있습니다. 이번 주에는 싱가포르에서 열리는 ICLR 2025에서 주요 딥러닝 전문가들이 모여 representation에 대한 응용을 논의할 예정입니다.
고해상도 이미지의 확장은 Vision Language Models (VLMs)의 성능을 향상시키는 데 중요하며, 이를 위해 FastVLM이 개발되었다. ViTs와 같은 인기 있는 비전 인코더는 고해상도에서 비효율적이지만 FastVLM은 인코딩 레이턴시를 줄이고 시각적 토큰 수를 최적화하여 전반적인 레이턴시를 낮춘다.
레이블이 없는 데이터로부터 분리된 표현을 학습하는 것은 기계 학습에서의 중요한 과제이다. 이를 해결함으로써 일반화, 해석 가능성 또는 공정성과 같은 다른 문제들을 해결할 수 있다. 이론적으로 해결하기 어렵지만, 실제로는 이전 일치를 통해 분리가 종종 이루어진다. 또한, 최근 연구들은 기하학적 고려사항을 활용하여 이전 일치 접근법을 개선할 수 있음을 보여주었다.
애플이 ACM 인간-컴퓨터 상호작용 학회 (CHI) 2025에서 새로운 연구를 발표할 예정이며, 이번 행사는 4월 26일부터 5월 1일까지 일본 요코하마에서 진행됩니다. 애플은 이 학회를 후원하며 상호작용 기술에 초점을 맞춘 과학 및 산업 연구 커뮤니티를 결집시키는데 자랑스러워합니다.
본 논문은 머신러닝을 위한 확산 모델 및 흐름 일치 수학에 대한 접근 가능한 초급 과정을 제시한다. 확산을 가능한 간단하게 가르치고 있으며, 수학적이고 머신러닝에 대한 선행 지식은 최소화했지만, 올바름에 대해 논의할만한 충분한 기술적 세부 정보를 제공한다. 대부분의 튜토리얼과는 달리, Variational Auto Encoder(VAE)나 Stochastic Differential Equations(SDE) 접근 방식을 취하지 않는다. 사실, 핵심 아이디어에는 SDE, ELBO, Langevin dynamics, 심지어 점수 개념이 필요하지 않다. 독자는 단순히…
DART는 Markov 프로세스 노이즈 제거를 통해 훈련되는 확산 모델의 한계를 극복하기 위해 제안된 transformer 기반 모델로, 비-Markovian 프레임워크 내에서 자기 회귀와 확산을 통합한다. 이미지 패치를 공간적, 스펙트럼적으로 반복적으로 노이즈 제거하며 텍스트에서 이미지를 생성한다.
현재의 다중 모달 모델은 사전 훈련된 구성 요소를 통합하는 방식을 사용하는데, 이에 대한 late-fusion 아키텍처의 우월성이 여전히 논란이다. 본 연구에서는 네이티브 다중 모달 모델(NMMs)의 구조적 설계를 재방문하고 모든 modalities에 대해 처음부터 훈련된 모델을 탐구한다.
2025년 4월 24일부터 28일까지 싱가포르에서 개최되는 국제학습표현학회(ICLR)를 애플이 후원할 예정이다. 깊은 학습의 발전에 헌신하는 전문가들이 모인다.
확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.
확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.
대규모 언어 모델의 선호도 조정을 위해 DPO가 널리 사용되고 있지만 토큰 간 중요도 차이를 무시하여 최적화 효율성에 영향을 줄 수 있음. 이에 TIS-DPO를 제안하여 토큰 간 중요도를 고려한 최적 데이터를 제시함.
디퓨전 트랜스포머를 스케일업하여 수십억 개의 파라미터로 확장하는 것이 유망하나, 현재 크기 이상으로 스케일링하는 효과는 여전히 탐구 중이며 어렵다. EC-DIT는 이미지 생성의 계산적 이질성을 명시적으로 이용하여 전문가 선택 라우팅을 사용하는 디퓨전 트랜스포머용 새로운 MoE 모델을 개발한다. EC-DIT는 입력 텍스트를 이해하고 해당 이미지 패치를 생성하기 위해 할당된 계산을 적응적으로 최적화하는 방법을 학습한다.
단일 단안 카메라 스트림으로부터 여러 사람의 자세를 감지하고 추적하는 방법 소개. 복잡한 자세와 가려진 장면에서 시간적으로 일관된 예측을 유지. 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적. 감지를 시간에 따라 매칭하는 대신, 자세는 새 입력 이미지에서 직접 업데이트되어 가려짐을 통해 온라인 추적 가능.
Apple은 민감한 프라이버시를 중요시하며, Differential Privacy와 같은 기술을 활용하여 제품 사용 통계를 분석하고 사용자 프라이버시를 보호합니다. 이러한 필요성은 Apple 인텔리전스에서도 중요하며, 사용자들의 데이터를 보호하면서 사용 트렌드를 이해하는 것이 목표입니다.
이 논문은 ICLR 2025의 Foundation Models in the Wild 워크샵에서 받아들여졌다. 이미지의 시각적 이해는 본질적으로 맥락에 의존적이며, 이미지에서 주목하는 대상은 주어진 작업에 따라 달라진다. 대부분의 기존 이미지 인코딩 패러다임은 이미지를 고정된 범용 특징 벡터로 표현하는데, 다양한 시각 정보를 우선순위에 따라 다르게 처리하는 잠재적 필요성을 간과한다.
이 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 철저히 탐구한다. 에고센트릭 비디오 이해를 위한 QA 데이터 부족 문제를 해결하기 위해 Ego4D에서 30초부터 1시간까지의 에고센트릭 비디오에 대한 7백만개의 고품질 QA 샘플을 자동으로 생성한다. 이는 가장 큰 에고센트릭 QA 데이터셋 중 하나이다. 또한 629개의 비디오와 7,026개의 질문으로 구성된 어려운 에고센트릭 QA 벤치마크를 제공하여 모델의 인식 능력을 평가한다.