Gemini 2.5 Flash는 개발자들이 사고를 켜거나 끌 수 있는 최초의 완전 혼합 추론 모델이다.
최신뉴스 전체보기

OpenAI가 ‘Reasoning’ 모델 o3와 o4-mini를 공개했으며, 컴퓨터 프로그래머가 코드를 작성할 때 챗봇을 사용할 수 있는 새로운 도구도 소개했다.
현재의 다중 모달 모델은 사전 훈련된 구성 요소를 통합하는 방식을 사용하는데, 이에 대한 late-fusion 아키텍처의 우월성이 여전히 논란이다. 본 연구에서는 네이티브 다중 모달 모델(NMMs)의 구조적 설계를 재방문하고 모든 modalities에 대해 처음부터 훈련된 모델을 탐구한다.

불필요한 계산을 제거함으로써, 새로운 데이터 기반 방법은 기차 일정, 배송기사 경로 지정, 항공사 승무원 배치 등의 프로세스를 최적화할 수 있습니다.
확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.
확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.
Waymo와 Uber가 핫랜타에서 로보택시 서비스를 시작한다. 워싱턴 DC에 이어 조지아 주 핫랜타에서 관심자 명단을 모으고 있다.
인공지능 챗봇이 첫 임상 시험에서 참가자들의 정신 건강 증상을 완화시켰다. 이 기술은 언젠가 의료 공급 부족 문제를 해결하는 데 도움이 될 수 있다.
단일 단안 카메라 스트림으로부터 여러 사람의 자세를 감지하고 추적하는 방법 소개. 복잡한 자세와 가려진 장면에서 시간적으로 일관된 예측을 유지. 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적. 감지를 시간에 따라 매칭하는 대신, 자세는 새 입력 이미지에서 직접 업데이트되어 가려짐을 통해 온라인 추적 가능.
디퓨전 트랜스포머를 스케일업하여 수십억 개의 파라미터로 확장하는 것이 유망하나, 현재 크기 이상으로 스케일링하는 효과는 여전히 탐구 중이며 어렵다. EC-DIT는 이미지 생성의 계산적 이질성을 명시적으로 이용하여 전문가 선택 라우팅을 사용하는 디퓨전 트랜스포머용 새로운 MoE 모델을 개발한다. EC-DIT는 입력 텍스트를 이해하고 해당 이미지 패치를 생성하기 위해 할당된 계산을 적응적으로 최적화하는 방법을 학습한다.

MIT-IBM 왓슨 AI 연구소의 새로운 방법은 대형 언어 모델이 안전하고 윤리적이며 가치에 부합하는 출력물로 자신의 응답을 조절할 수 있게 도와준다.

수천 명의 의사들이 ‘ambient listening’이라 불리는 의료용 인공지능을 사용하며 환자와 직원들에게 잠재적 이점이 있다고 밝히고 있다.
AWS LLM 리그는 참가자들이 데이터 과학 경험과 상관없이 LLM을 세밀하게 조정할 수 있는 경험을 제공하여 생성적 AI 모델 맞춤화에 대한 진입 장벽을 낮추기 위해 설계되었습니다. Amazon SageMaker JumpStart를 사용하여 참가자들은 실제 비즈니스 도전에 대응할 수 있는 LLM을 사용자 도메인에 적응할 수 있도록 안내받았습니다.
이 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 철저히 탐구한다. 에고센트릭 비디오 이해를 위한 QA 데이터 부족 문제를 해결하기 위해 Ego4D에서 30초부터 1시간까지의 에고센트릭 비디오에 대한 7백만개의 고품질 QA 샘플을 자동으로 생성한다. 이는 가장 큰 에고센트릭 QA 데이터셋 중 하나이다. 또한 629개의 비디오와 7,026개의 질문으로 구성된 어려운 에고센트릭 QA 벤치마크를 제공하여 모델의 인식 능력을 평가한다.

이 방법은 AI 모델의 정확도를 유지하면서 공격자가 비밀 정보를 추출하지 못하도록 보장한다.
아마존 세이지메이커 하이퍼팟은 대규모 모델 학습의 어려움과 하드웨어 장애에 초점을 맞추어 학습 비용을 줄이고 효율성을 향상시키는 솔루션에 대해 탐구한다.
이 포스트에서는 동영상 온디맨드 사례를 활용해 개별 사용자를 위한 맞춤형 아웃리치 이메일을 생성하는 방법을 Amazon Personalize 및 Amazon Bedrock을 사용하여 보여줍니다. 이 개념은 전자 상거래 및 디지털 마케팅 사례와 같은 다른 영역에도 적용할 수 있습니다.

사용자들이 특정한 특성을 가진 새로운 분자를 요청하면, 새로운 방법을 통해 그 분자를 합성하는 방법에 대한 상세한 설명을 받을 수 있는 기술이 개발되었습니다.
PLAID는 단백질 접힘 모델의 잠재 공간을 학습하여 새로운 단백질을 생성하는 방법을 개발했다. 이 모델은 단백질 1차원 서열과 3차원 구조를 동시에 생성하며, 이전의 다양한 제너레이티브 모델과 달리 다중 모달 공동 생성 문제를 해결한다.

2025년 MIT 에너지 컨퍼런스에서 전 세계 에너지 리더들이 녹색 기술을 화석 연료와 경쟁력 있게 만드는 방법에 대해 논의했습니다.

Vana는 MIT 수업 프로젝트에서 시작된 분산 네트워크에 100만 명 이상의 사람들이 데이터를 기여하고 있으며, 사용자들은 자신의 데이터로 훈련된 AI 모델의 일부를 소유할 수 있다.

연구진은 모델의 추론 능력을 활용하여 다단계 문제에 최적해를 찾는 “스마트 어시스턴트”를 만드는 새로운 프레임워크를 개발했다.

미디어 기술 교수가 인간-컴퓨터 상호작용 분야의 연구로 영향력과 중요성을 인정받아 평생 연구상을 받았습니다.

Ana Trišović은 인공지능의 민주화를 연구하는데, 세르비아에서 무료 MIT 자료를 다운로드하면서 시작된 커리어에 대해 고찰한다.

MIT 동문이 설립한 EduFi는 파키스탄 가족들에게 낮은 이자율의 학자금을 제공하여 더 많은 사람들이 대학에 진학할 수 있게 돕고 있다.

MIT와 해운 산업 리더들이 핵 추진 기술, 대체 연료, 데이터 기반 운영 전략 등을 개발하기 위해 국제적인 협력을 이끌고 있습니다.

연구진은 두 가지 인기 있는 방법을 결합하여 에너지를 적게 사용하고 노트북이나 스마트폰에서 로컬로 실행할 수 있는 이미지 생성기를 만들었다.

MIT의 BioMicro Center 소속인 Stuart Levine은 부서 연구원들을 시스템 생물학의 최전선에 두고 있습니다.

인공지능이 발전함에 따라 우리 자신과 사회에 대해 중요한 질문을 던져야 한다는 벤 빈슨 3세의 주장.

미국 공군 엔지니어이자 박사과정 학생 랜들 피터슨은 인공지능과 차세대 이미징 기술을 활용하여 포장 손상과 미해체 폭탄을 감지하고 있다.

새로운 연구로 사람이 로봇의 행동을 실시간으로 수정할 수 있게 되었는데, 이는 다른 사람에게 피드백을 주는 것과 유사하다.

Felice Frankel이 과학을 시각적으로 전달할 때 생성적 AI의 영향에 대해 논의합니다.
재료과학자 Markus Buehler는 공학과 자연 사이를 이어주는 학술 리더십과 혁신적인 연구로 영예를 받았다.

MIT의 Microsystems Technology Laboratories와 GlobalFoundries 사이의 협약은 데이터 센터의 전력 효율성과 에지 장치의 초저전력 소비에 대한 연구를 통해 발전시키려 함.

고대 RNA 안내 시스템은 조작 가능한 단백질로, 인간 세포의 DNA를 수정하는 데 사용될 수 있을 뿐 아니라, 간단하고 모듈식입니다.

MIT 생물학 연구자들이 개발한 FragFold는 생물학 연구 및 치료 응용 분야에 영향을 줄 수 있는 계산 방법입니다.

최근 연구에 따르면 대형 언어 모델은 기본 의미에 기반하여 다양한 데이터 유형을 표현하고 주요 언어로 데이터를 다루며 추론한다.

ReviveMed는 AI를 사용하여 지질, 콜레스테롤, 당 같은 분자인 대사물질에 대한 대규모 데이터를 수집하여 환자를 치료제와 매칭시킵니다.

MIT의 Whitehead Institute와 CSAIL 연구진이 단백질의 위치를 예측하고 생성하는 머신러닝 모델을 개발했으며, 이는 질병을 이해하고 개선하는 데 도움이 될 것으로 예상된다.
세바스찬 맨 졸업생이 MIT 스티븐 A. 슈바르츠먼 컴퓨팅 공학관 건물을 지원하는 첫 주요 기부자가 됐다. 슈바르츠먼의 기초 기부 이후 건물을 지원한 것이다.

MIT에서 EECS와 철학 교수들이 공동으로 진행하는 새로운 강좌에서 학생들은 디지털 시대의 도덕적 딜레마에 대해 다룹니다.
Accenture Fellow Shreyaa Raghavan은 기계 학습과 최적화 방법을 적용하여 교통 부문 배출량을 줄이는 방법을 탐구합니다.

CHAIS라는 딥 뉴럴 네트워크가 심장 건강 모니터링의 새로운 표준으로 인터벤션 절차인 카테터화 같은 치료를 대체할 수 있을 것으로 보인다.

Kaiming He 교수가 인공지능이 과학 분야 간 장벽을 낮추고 학문 분야 간 협력을 촉진하는 데 어떤 역할을 하는지에 대해 논의합니다.

MIT 연구진은 날씨 예측이나 대기 오염 지도 작성과 같은 공간적 요소를 갖는 예측을 평가하기 위한 새로운 접근 방식을 개발했다.

사라 비리 조교수는 인공지능을 활용하여 태평양 북서부의 이주하는 연어 모니터링을 개선하고 있다.

MIT의 학생인 Audrey Lorvo는 “우리는 인간이 AI의 혜택을 누리도록 보장하고, 기술을 통제하지 못하게 하는 데 노력해야 합니다.”라고 말했다.

MIT의 새로운 협회는 연구자와 산업을 연결하여 영향에 초점을 맞출 것이다.

두 가지 유형의 데이터 중복을 활용하는 코드를 자동으로 생성함으로써 대역폭, 메모리 및 계산을 절약하는 시스템.

MIT 화학자들이 생성 모델 인공지능을 사용해 특정 DNA 서열이 세포 핵 내에서 어떻게 배열될지를 몇 분만에 예측하는 새로운 방법을 개발했다.

MIT CSAIL 주요 연구원 Una-May O’Reilly는 해커들보다 먼저 AI 모델의 보안 취약점을 드러내는 에이전트를 개발하는 방법에 대해 논의합니다.

인간과 다른 환경에서 로봇을 훈련하는 것이 더 효율적일 수 있다.

교수 Luca Carlone은 로봇에게 인간과 유사한 환경 인식 능력을 부여하기 위해 노력하고 있습니다.

MIT 동문들이 설립한 Station A는 부동산 소유자들에게 청정 에너지 구매 과정을 간단하게 만드는 서비스를 제공하고 있다.

새로운 시스템이 생성적 AI를 사용하여 분자의 역학을 에뮬레이션하며, 정적인 분자 구조를 연결하고 흐릿한 이미지를 비디오로 발전시키는 과정.

데이터 센터에 전기를 공급하는 것은 전력 그리드에 스트레스를 주고, 소비자에게 가격을 인상시키며, 깨끗한 에너지로의 전환을 늦추고 있다.

강력한 generative AI 모델의 신속한 개발과 배포는 전력 수요와 수소 소비 증가와 같은 환경적 영향을 야기한다.

MIT 수업 프로젝트로 시작된 스타트업 NALA는 예술 구매자와 작가를 직접 연결시킨다.

MIT 연구진은 최근 개발한 신경망 구조를 사용하여 전자 구조 계산에서 더 많은 정보를 추출할 수 있게 되었다.

머신러닝 모델을 사용하여 신경과학자들이 청각 처리가 현실 세계 청력에 미치는 영향을 연구할 수 있게 되었습니다.

새로운 컴퓨테이션 모델을 사용해 연구자들은 다양한 감염성 질환을 대상으로 하는 항체 치료제를 식별할 수 있을 것으로 기대됩니다.

박사 Matteo Bucci 교수의 연구는 고대 과정에 새로운 시선을 제공하여 다양한 산업 시스템에서 열전달 효율을 향상시키고 있다.

GM은 로보택시 사업을 중단하고, Tesla는 자체 로보택시 사업을 만들고 있지만, 자율주행의 미래는 어떨지에 대한 이야기.
FACTS Grounding은 대규모 언어 모델이 응답을 제공된 소스 자료에 얼마나 정확하게 근거를 두고 환각을 피하는지를 측정하는 새로운 벤치마크와 온라인 리더보드를 제공합니다.
DeepMind이 발표한 Gemini 2.0은 최신의 멀티모달 AI 모델로, 에이전트 시대에 가장 적합하다.
Genie 2는 미래 일반 에이전트를 위해 무제한 다양한 훈련 환경을 생성한다.

NeuroTrALE 소프트웨어 도구는 대량의 뇌 이미징 데이터를 빠르고 효율적으로 반 자동으로 처리하는 데 도움을 준다.
AlphaProof와 AlphaGeometry 2라는 새로운 모델이 수학의 고급 추론 문제를 해결하는 데 성공하며, 국제 수학 올림피아드 문제를 은메달 수준으로 해결함.
인간은 거대한 비주얼 정보를 처리하는 뛰어난 능력을 가졌는데, 이는 인공 일반 지능(AGI)을 달성하는 데 중요하다. 하지만 현재까지의 시각 질문 응답(VQA) 시스템은 단일 이미지 내에서만 작동하여 다수의 이미지를 고려한 추론에 제한이 있다. VHs 벤치마크는 이러한 한계를 극복하기 위해 “멀티 이미지 질문 응답” 작업에 초점을 맞추고 있다. VHs 벤치마크는 단일 바늘 도전과 다중 바늘 도전으로 나뉘어 있으며, 현재의 대형 다중 모달 모델(LMMs)이 다수의 이미지를 처리하고 통합하는 능력에 대한 중요한 결점을 드러내고 있다.
ICML 2024에서 구글 딥마인드가 인공 일반 지능 탐구, 확장의 어려움, 그리고 다중 모달 생성 인공지능의 미래에 대해 논의했습니다.

글로벌 남쪽의 아웃소싱 센터에서 소셜 미디어 콘텐츠와 AI 훈련 데이터가 처리되는데, 장시간 근무, 낮은 임금, 불쾌한 자료에 노출되는 것이 일상이다. 메르시는 나이로비의 아웃소싱 사무실에서 메타 콘텐츠 모더레이터로 일하면서 각종 충격적인 이미지와 영상을 다루며 업무를 수행한다. 어느 날, 사고 현장 영상을 모니터링하던 중 사망한 사람이 자신의 할아버지임을 알게 된다.

McGovern 연구소, MIT 오픈 러닝 등이 주최한 심포지엄에서는 심리건강 및 신경 질환 이해를 발전시키는 신흥 기술이 강조되었다.
DeepMind는 고화질 비디오 생성을 위한 Veo 모델과 최고 품질의 텍스트-이미지 모델인 Imagen 3을 소개하며, Music AI Sandbox로 만들어진 새로운 데모 녹음을 공유했습니다.
구글 딥마인드와 이소모픽 랩이 개발한 새로운 AI 모델 소개.
SIMA는 3D 가상환경에서 확장 가능한 가르칠 수 있는 다세계적 에이전트로 소개됐다.
알파지오메트리는 수학적 추론에서 AI를 발전시키고 있습니다.
새로운 AI 도구는 7100만 개의 ‘미생성’ 돌연변이 효과를 분류합니다.
RT-2는 웹과 로봇 데이터에서 학습한 새로운 비전-언어-행동(VLA) 모델로, 이 지식을 일반화된 로봇 제어 명령으로 번역합니다.
구글 딥마인드는 ICML 2023에서 인공지능 안전성, 적응성, 효율성을 탐구했다.
인류 사회의 발전을 위해 소통과 협력은 중요했는데, 보드 게임은 상호작용과 소통을 모델링하고 조사하는 모래상자 역할을 한다. 최근 Nature Communications에 발표된 논문에서 인공 에이전트가 소통을 통해 보드 게임 Diplomacy에서 더 잘 협력할 수 있는 방법을 보여줌.
게임을 플레이하는 인공지능 시스템이 새로운 지평으로 발전했습니다.
NeurIPS는 인공지능 및 머신러닝 분야에서 세계 최대 규모의 학회로, 딥마인드는 다이아몬드 후원사로 참여하여 인공지능 및 머신러닝 커뮤니티에서의 연구 진전 교류를 돕고 있다. 딥마인드 팀은 35개의 외부 협업을 포함한 47편의 논문을 가상 패널과 포스터 세션을 통해 발표할 예정이다.
수십만 명의 생명을 구할 수 있는 백신 개발
DeepMind이 Nature에 발표한 논문에서는 행렬 곱셈과 같은 기본 작업을 위한 혁신적이고 효율적이며 증명 가능한 알고리즘을 발견하는 인공지능 시스템인 AlphaTensor를 소개합니다. 이는 50년간의 수학적 문제를 해결하는 데 가장 빠른 방법을 찾는 데 도움이 됩니다. AlphaTensor는 AlphaZero를 기반으로 구축되었으며, 이 작업은 AlphaZero의 게임에서 수학 문제를 해결하기까지의 여정을 나타냅니다.
골이 부러지기 전 질병의 조기 징후 감지
레이시마니아시스 치료법을 찾기 위한 노력을 가속화하고 있습니다.