2026년 6월 22일 월요일
오늘의 신문
2026년 6월 22일 월요일 오늘의 신문
세일즈포스 코드젠을 활용한 엔드 투 엔드 워크플로우를 구현하는 방법을 소개합니다. 함수 추출, 구문 검사, 정적 안전 점검, 유닛 테스트 검증 등을 포함합니다.
2026년 6월 18일 오후 10시 44분
퍼플렉시티가 자가 개선 메모리 시스템인 '브레인'을 출시했습니다. 이 시스템은 에이전트의 작업을 기억하며, 성과와 실패를 분석해 개선합니다.
2026년 6월 18일 오후 4시 26분
KV 캐시가 긴 컨텍스트에서 모델 가중치를 초과하는 상황에서 TurboQuant, OSCAR, EpiCache가 메모리 병목 현상을 해결하기 위해 각기 다른 접근 방식을 취하고 있습니다. 이들은 경쟁보다는 상호 보완적인 관계에 있습니다.
2026년 6월 18일 오전 5시 14분
OpenAI가 생명과학 연구를 평가하는 750개 작업으로 구성된 LifeSciBench를 발표했습니다. 이 벤치마크는 173명의 박사 과학자들이 작성한 기준을 바탕으로 AI 모델의 추론과 결정을 평가합니다.
2026년 6월 17일 오후 10시 28분
이 튜토리얼에서는 NVIDIA SkillSpector를 사용하여 배포 전 AI 기술의 보안 위험을 평가하는 방법을 소개합니다. 양호한 기술과 의도적으로 취약한 기술을 구축하고, SkillSpector의 LangGraph 워크플로우를 통해 스캔합니다.
2026년 6월 17일 오후 9시 35분
Vercel이 Apache-2.0 라이선스의 오픈소스 AI 에이전트 프레임워크 'Eve'를 공개했다. 각 에이전트는 기능에 맞춰 파일 디렉토리로 구성되어 있다.
2026년 6월 17일 오후 1시 22분
MiniMax가 새로운 희소 주의 메커니즘인 MSA를 발표했습니다. 이 기술은 쿼리당 상위 k 개의 키-값 블록을 선택하여 계산량을 28.4배 줄이는 데 성공했습니다.
2026년 6월 17일 오전 3시 44분
OpenAI가 2026년 6월 16일 배포 시뮬레이션을 도입했습니다. 이 방법은 새로운 모델 출시 전 과거 대화를 재생하여 배포 시 원치 않는 행동의 비율을 추정합니다.
2026년 6월 17일 오전 1시 49분
xFormers를 이용해 메모리 효율적인 트랜스포머 모델을 구축하는 방법을 소개합니다. GPU에서 빠르고 효율적인 모델을 구현하며, 다양한 기술적 요소를 검토합니다.
2026년 6월 16일 오후 8시 02분
Qwen 팀의 새로운 Qwen-RobotSuite는 조작, 비디오 세계 모델링, 내비게이션을 위한 세 가지 AI 모델을 포함합니다. 각 모델의 구조와 데이터 파이프라인, 벤치마크 결과를 살펴봅니다.
2026년 6월 16일 오후 12시 51분
헤르메스 에이전트가 비동기 서브 에이전트를 도입하여 위임된 작업이 부모 채팅을 차단하지 않도록 개선했습니다. 새로운 도구 세트를 통해 작업을 생성하고 관리하는 방법을 소개합니다.
2026년 6월 16일 오전 5시 21분
'Meet Atoms'는 개발자나 소프트웨어 엔지니어가 아니더라도 아이디어를 AI에게 설명하면 앱을 구축하고 배포할 수 있는 노코드 도구입니다.
2026년 6월 16일 오전 4시 50분
구글 클라우드가 AI 에이전트를 위한 개방형 지식 포맷(OKF)을 소개했습니다. 이 포맷은 마크다운 파일과 YAML 프론트매터로 구성된 디렉토리를 통해 AI에 필요한 맥락을 제공합니다.
2026년 6월 16일 오전 4시 18분
이 튜토리얼에서는 Docling Parse를 사용하여 PDF 문서를 구조적으로 분석하는 워크플로우를 구축하는 방법을 소개합니다. Python 환경 설정부터 PDF 생성, 데이터 추출까지의 과정을 다룹니다.
2026년 6월 16일 오전 3시 20분
사카나 AI의 첫 상용 제품인 사카나 마를린은 최대 8시간 동안 자율적으로 작동하며, AB-MCTS와 AI 과학자 워크플로우를 기반으로 다수의 페이지로 구성된 보고서와 슬라이드를 생성합니다.
2026년 6월 15일 오후 6시 32분
Flash-KMeans는 Triton GPU 커널을 활용한 오픈소스 IO 인식 K-평균 구현체로, 기존의 수학적 접근을 변경하지 않고도 FAISS보다 200배 빠른 성능을 자랑합니다.
2026년 6월 15일 오전 5시 16분

최신뉴스 전체보기

Meta AI가 MobileLLM-R1을 공개: 10억 개 이하의 파라미터를 가진 엣지 추론 모델이 다른 완전 오픈 소스 AI 모델보다 2배~5배의 성능 향상을 이룩

Meta가 MobileLLM-R1을 출시했습니다. 이는 Hugging Face에서 사용 가능한 가벼운 엣지 추론 모델로, 140M에서 950M의 파라미터를 가진 모델들이 포함되어 있습니다. 일반적인 챗봇 모델과는 달리 MobileLLM-R1은 엣지 배포용으로 설계되어 있어 최신 추론 정확도를 제공합니다.

2025년 9월 15일 오전 2시 34분
법의 구조 논리를 위한 설명 가능한 AI 설계

AI 설명과 법적 근거는 서로 다른 지식 평면에서 운영되는데, 이를 연결하는 것은 어려움이 있다. 표준 XAI 기술은 이 간극을 메우지 못한다. 주의 맵과 법적 계층은 이 문제를 해결할 수 있다.

2025년 9월 15일 오전 1시 15분
Hugging Face Trackio를 활용한 대화형 실험 대시보드 구축의 포괄적 코딩 가이드

본 튜토리얼에서는 Hugging Face Trackio를 사용하여 실험을 로컬에서 깔끔하고 직관적으로 추적하는 방법을 단계별로 안내합니다. Google Colab에 Trackio를 설치하고 데이터셋을 준비하며 서로 다른 하이퍼파라미터로 여러 훈련 실행을 설정하는 방법을 탐색합니다. 이 과정에서 메트릭을 로깅하고 혼동 행렬을 테이블로 시각화하며 […]

2025년 9월 15일 오전 12시 58분
AI 엔지니어/개발자를 위한 최고의 노코드 도구 5선

노코드 도구는 코딩 전문 지식이 없어도 누구나 빠르고 효율적으로 솔루션을 구축할 수 있게 해준다. 기업급 RAG 시스템을 개발하거나 멀티 에이전트 워크플로를 설계하거나 수백 개의 LLM을 세밀하게 조정하는 등의 작업이 가능하며, 개발 시간과 노력을 크게 줄여준다.

2025년 9월 14일 오후 3시 16분
AI에 최적화된 GPU용 소프트웨어 프레임워크: CUDA, ROCm, Triton, TensorRT – 컴파일러 경로 및 성능 영향

이 기사에서는 딥러닝 처리량이 어떻게 컴파일러 스택이 텐서 프로그램을 GPU 실행으로 매핑하는지에 달려있음을 설명하며, CUDA, ROCm, Triton, TensorRT과 같은 네 가지 주요 스택에 초점을 맞추고, 실제로 어떤 최적화가 실무에서 중요한지 설명합니다.

2025년 9월 14일 오전 4시 55분
UT Austin과 ServiceNow 연구팀, AU-Harness 발표: 오디오 LLMs의 종합평가를 위한 오픈소스 툴킷

음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.

2025년 9월 14일 오전 3시 11분
2025년 최고의 로보틱스 AI 블로그/뉴스 웹사이트 Top 12

인공지능과 로보틱스는 자동화, 인식 및 인간-기계 협업 분야에서 혁신을 이끌며 전례없는 속도로 융합되고 있습니다. 이러한 발전을 따라가기 위해서는 기술적 심도, 연구 업데이트 및 산업 통찰력을 제공하는 전문 소스를 따라야 합니다. 이 리스트는 2025년 추적해야 할 가장 권위있는 로보틱스 및 AI에 중점을 둔 블로그와 웹사이트 12곳을 강조합니다.

2025년 9월 13일 오후 5시 07분
고정 훈련, 적응 학습, 지능적 의사 결정을 갖춘 강력한 고급 신경 인공지능 에이전트 구축 방법?

고전 신경망 기술과 현대적 안정성 향상 기법을 결합한 고급 신경 에이전트의 설계와 구현을 탐구합니다. Xavier 초기화를 사용하여 균형있는 기울기 흐름을 갖는 네트워크를 구축하고, leaky ReLU, sigmoid, tanh와 같은 안정적 활성화를 추가하여 오버플로우를 피합니다. 훈련을 안정화하기 위해 클리핑을 사용합니다.

2025년 9월 13일 오후 3시 43분
Google AI가 디퍼렌셜 프라이버시로 완전히 훈련된 1B-파라미터로 구축된 최대 및 가장 능력있는 오픈 모델인 VaultGemma 공개

구글 AI 연구팀과 딥마인드가 디퍼렌셜 프라이버시(DP)로 완전히 훈련된 최대 규모의 오픈 가중치 대형 언어 모델인 VaultGemma 1B를 공개했다. 이는 강력하면서도 프라이버시 보호가 가능한 AI 모델 구축으로 나아가는 중요한 한걸음이다.

2025년 9월 13일 오전 3시 54분
IBM AI 연구팀, ModernBERT 아키텍처 기반 두 개의 영어 Granite 임베딩 모델 공개

IBM은 고성능 검색 및 RAG 시스템용으로 설계된 두 개의 새로운 임베딩 모델, granite-embedding-english-r2와 granite-embedding-small-english-r2를 소개했다. 이 모델들은 효율적이고 소형이며 Apache 2.0 라이선스로 제공된다.

2025년 9월 12일 오후 11시 50분
파이썬을 사용하여 EasyOCR과 OpenCV로 다국어 OCR AI 에이전트 구축하는 방법

본 튜토리얼에서는 EasyOCR, OpenCV, Pillow을 사용하여 Google Colab에서 고급 OCR AI 에이전트를 구축한다. GPU 가속을 사용하여 완전 오프라인으로 실행되며, 이미지 전처리 파이프라인을 포함하여 인식 정확도를 향상시킨다. OCR 이외에도 결과를 신뢰도에 따라 필터링하고 텍스트 통계를 생성한다.

2025년 9월 12일 오후 2시 06분
BentoML이 llm-optimizer를 발표: LLM 추론의 벤치마킹과 최적화를 위한 오픈 소스 AI 도구

BentoML은 llm-optimizer를 출시했는데, 이는 self-hosted large language models (LLMs)의 벤치마킹과 성능 튜닝을 간소화하기 위해 설계된 오픈 소스 프레임워크이다. 이 도구는 LLM 배포에서의 최적의 구성을 찾는 것과 같은 일반적인 도전에 대처하며, 수동 시행착오 없이 지연 시간, 처리량 및 비용에 대한 최적화된 구성을 찾는 데 도움을 준다.

2025년 9월 12일 오전 3시 23분
Deepdub, 실시간 AI 음성 모델 ‘Lightning 2.5’ 발표, 확장 가능한 AI 에이전트 및 기업 AI를 위한 2.8배 처리량 향상

이스라엘 음성 AI 스타트업인 Deepdub이 Lightning 2.5를 소개했다. 이 모델은 실시간으로 작동하는 기본 음성 모델로, 성능과 효율성 면에서 상당한 향상을 이뤘다. 이로써 AI 에이전트, 기업 AI 등 실시간 대화 시스템에서 사용할 수 있게 되었다.

2025년 9월 11일 오후 11시 37분
TwinMind, 새 음성 AI 모델 Ear-3 모델을 선보여 정확성, 화자 라벨링, 언어, 가격에서 산업 기록 경신

캘리포니아 소재 음성 AI 스타트업 TwinMind은 Ear-3 음성 인식 모델을 공개하며 탁월한 성능과 다국어 지원을 주장하고 있다. Ear-3은 Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics, OpenAI와 같은 기존 ASR 솔루션에 대항하는 경쟁력 있는 제품으로 소개되었다.

2025년 9월 11일 오후 5시 37분
광학 문자 인식(OCR) 모델이란? 최고의 오픈 소스 OCR 모델

OCR은 이미지 속 텍스트를 기계가 읽을 수 있는 텍스트로 변환하는 과정이다. 규칙 기반 시스템에서 출발해 신경 아키텍처와 언어-시각 모델로 발전하며 복잡하고 다국어, 필기체 문서를 읽을 수 있다.

2025년 9월 11일 오후 12시 54분
오픈AI, ChatGPT 개발자 모드에 전체 MCP 도구 지원 추가: 쓰기 동작, 워크플로 자동화, 기업 통합 가능

오픈AI가 ChatGPT의 개발자 모드에 MCP 도구의 전체 지원을 추가하여 쓰기 동작을 수행할 수 있게 했다. 이를 통해 개발자들은 시스템을 직접 업데이트하고 워크플로를 트리거하며 기업 통합을 할 수 있다.

2025년 9월 11일 오전 4시 28분
mmBERT 만나보기: 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용하는 인코더 전용 언어 모델, 이전 모델보다 2-4배 빠름

새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.

2025년 9월 11일 오전 2시 45분
MCP (Model Context Protocol) 에이전트를 다중 에이전트 조정, 컨텍스트 인식 및 Gemini 통합과 함께 구축하기

본 튜토리얼에서는 Jupyter 또는 Google Colab 내에서 원활히 작동하는 고급 MCP (Model Context Protocol) 에이전트를 구축하는 과정을 안내합니다. 다중 에이전트 조정, 컨텍스트 인식, 메모리 관리 및 동적 도구 사용에 중점을 두어 현실 세계의 실용성을 고려하고 있습니다.

2025년 9월 10일 오후 6시 25분
NVIDIA AI, 보급 가능하고 감사 가능한 딥 리서치 에이전트용 프로토타입 프레임워크 ‘UDR’ 출시

NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.

2025년 9월 10일 오후 4시 32분
바이두, ERNIE-4.5-21B-A3B-Thinking 발표: 딥 논리를 위한 소형 MoE 모델

바이두 AI 연구팀이 효율성, 장기적 논리 추론, 도구 통합을 중심으로 설계된 새로운 ERNIE-4.5-21B-A3B-Thinking을 발표했다. 이 모델은 21B 총 매개변수를 가지고 있지만 토큰 당 활성 매개변수는 3B뿐으로, 계산 효율성을 유지하면서 경쟁력 있는 논리 능력을 갖추고 있다.

2025년 9월 10일 오전 3시 43분
MCP 팀, 기업 AI를 위한 연합 검색 레이어 ‘MCP 레지스트리’ 미리보기 버전 출시

MCP 팀이 MCP 레지스트리의 미리보기 버전을 출시했다. 이는 기업 AI를 실제로 운영 가능하게 만드는 마지막 퍼즐 조각일 수 있다. MCP 레지스트리는 MCP 서버를 발견하기 위한 연합 아키텍처를 소개하여 인터넷이 주소 지정을 해결한 방식을 모방한다.

2025년 9월 10일 오전 12시 46분
Python을 사용하여 SpeechBrain을 활용한 음성 개선 및 자동 음성 인식 (ASR) 파이프라인 구축

이 튜토리얼에서는 SpeechBrain을 사용한 고급이면서도 실용적인 워크플로우를 안내합니다. gTTS로 자체 깨끗한 음성 샘플을 생성하고 실제 시나리오를 시뮬레이션하기 위해 음향을 의도적으로 추가한 다음 SpeechBrain의 MetricGAN+ 모델을 적용하여 오디오를 향상시킵니다. 오디오가 소음 제거되면 언어 모델-재점수화를 통해 자동 음성 인식을 실행합니다.

2025년 9월 9일 오후 11시 54분
MBZUAI 연구진, K2 Think 공개: 고급 AI 추론을 위한 32B 오픈소스 시스템 출시 및 20배 큰 추론 모델보다 우수한 성능 발휘

MBZUAI의 연구진이 고급 AI 추론을 위한 32B-파라미터 오픈 추론 시스템 K2 Think을 발표했다. 이 시스템은 강화 학습, 테스트 시 스케일링, 추론 최적화 등을 결합하여 선두적인 성능을 보여준다.

2025년 9월 9일 오후 3시 53분
알리바바 Qwen 팀, Qwen3-ASR 출시: Qwen3-Omni를 기반으로 한 새로운 음성 인식 모델 출시로 견고한 음성 인식 성능 달성

알리바바 클라우드의 Qwen 팀이 Qwen3-ASR Flash를 공개했다. 이는 Qwen3-Omni의 강력한 지능을 기반으로 한 올인원 자동 음성 인식(ASR) 모델로, 여러 시스템을 번갈아가며 사용하지 않고 다국어, 소음, 도메인별 전사를 간단하게 처리한다. 주요 기능은 edtech 플랫폼(강의 캡처, 다국어 지도), 미디어(자막, 성우), 고객 서비스(다국어 IVR) 등이다.

2025년 9월 9일 오전 5시 15분
Vibe 코딩을 위한 상위 7개의 Model Context Protocol (MCP) 서버

MCP는 AI 에이전트를 외부 도구, 데이터, 서비스에 연결하는 표준으로, 대형 언어 모델이 컨텍스트를 요청, 사용 및 유지할 수 있는 구조화된 방법을 제공한다. MCP 서버는 Vibe 코딩에 적합한 상위 7개를 소개한다.

2025년 9월 9일 오전 4시 39분
시퀀셜 추론에서 터널 비전 극복을 위해 원시 병렬 사고로 LLM 테스트 시간 계산 확장하는 ParaThinker

LLM의 시험 시간 계산 확장은 단일 추론 경로를 확장하는 데 의존했지만, 이는 한정된 범위에서는 추론을 개선하지만 성능이 빠르게 수렴한다. 32K 이상의 토큰 예산을 증가시켜도 무의미한 정확도 향상. 이 병목 현상은 초기 토큰에서 발생.

2025년 9월 8일 오후 11시 26분
Notte와 Gemini를 활용한 완전한 멀티도메인 AI 웹 에이전트 구축 방법

이 튜토리얼에서는 Notte AI 에이전트의 고급 구현을 보여줌. Gemini API를 통합하여 추론과 자동화를 구현하며, Notte의 브라우저 자동화 기능과 Pydantic 모델을 결합하여 제품 조사, 소셜 미디어 모니터링, 시장 분석, 취업 기회 스캔 등 다양한 작업을 수행하는 AI 웹 에이전트를 구현한다.

2025년 9월 8일 오후 9시 20분
GibsonAI가 Memori를 공개: AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진

메모리는 인간 지능을 생각할 때 먼저 떠오르는 중요한 부분이다. 경험으로부터 배우고 새로운 상황에 적응하며 시간이 흐름에 따라 더 나은 결정을 내릴 수 있게 해준다. 이와 유사하게 AI 에이전트도 메모리를 통해 더 똑똑해진다. GibsonAI가 AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진 Memori를 출시했다.

2025년 9월 8일 오후 3시 02분
MIT 연구: 감독된 미세 조정과 비교했을 때 강화 학습이 재앙적인 잊혀짐을 최소화하는 것을 보여줌

MIT의 연구는 강화 학습이 감독된 미세 조정보다 재앙적인 잊혀짐을 덜 일으킨다는 것을 밝혔다. 기존의 능력을 잃는 것을 의미하는 재앙적인 잊혀짐은 인공지능 에이전트를 오랫동안 유지하고 지속적으로 개선하는 데 장애물이 될 수 있다.

2025년 9월 8일 오전 5시 34분
Biopython을 사용하여 DNA 및 단백질 분석을 위한 생물정보학 AI 에이전트 만드는 방법

이 튜토리얼에서는 Biopython과 인기있는 Python 라이브러리를 사용하여 Google Colab에서 원활하게 실행되도록 설계된 고급이면서 접근성 있는 생물정보학 AI 에이전트를 구축하는 방법을 보여줍니다. 이 튜토리얼은 서열 검색, 분자 분석, 시각화, 다중 서열 정렬, 계통수 구축 및 모티프 검색을 하나의 간소화된 클래스로 결합하여 실습적인 방법을 제공합니다.

2025년 9월 7일 오후 9시 36분
메타 초지능 연구소, REFRAG 소개: 16배 더 긴 컨텍스트와 31배 더 빠른 디코딩으로 RAG 확장

메타 초지능 연구소, 싱가포르 국립대학교 및 라이스 대학의 연구진이 REFRAG (REpresentation For RAG)를 발표했다. 이는 RAG 효율성을 재고하는 디코딩 프레임워크로, LLM 컨텍스트 창을 16배로 확장하고 정확도를 저해하지 않으면서 첫 번째 토큰까지의 시간을 최대 30.85배 가속화시킨다.

2025년 9월 7일 오후 4시 49분
Tilde AI, TildeOpen LLM 공개: 300억개 이상의 파라미터를 가진 오픈 소스 대규모 언어 모델, 대부분의 유럽어 지원

Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.

2025년 9월 7일 오전 1시 34분
사전훈련부터 사후훈련까지: 언어 모델이 환각하는 이유와 평가 방법이 문제를 강화하는 방법

대형 언어 모델은 종종 “환각”을 생성하는데, 이는 올바르지만 잘못된 출력을 확신하며 가능성이 있는 것으로 보인다. OpenAI의 새로운 연구는 환각이 교사 지도 학습과 자기 지도 학습의 통계적 특성에서 비롯되며, 그 지속성은 평가 기준의 불일치로 강화된다는 엄밀한 설명을 제공한다.

2025년 9월 7일 오전 12시 56분
DeepSpeed를 활용한 확장 가능한 트랜스포머 구현: 그래디언트 체크포인팅과 병렬성을 이용한 고급 훈련

이 고급 DeepSpeed 튜토리얼에서 대형 언어 모델을 효율적으로 훈련하기 위한 최신 최적화 기술의 실용적인 안내를 제공합니다. ZeRO 최적화, 혼합 정밀도 훈련, 그래디언트 누적, 고급 DeepSpeed 구성을 결합하여 GPU 메모리 이용률을 극대화하고 트랜스포머 모델의 확장을 가능하게 하는 방법을 보여줍니다.

2025년 9월 6일 오후 7시 57분
ARGUS 만나보기: 10억 개의 매개변수로 대규모 추천 시스템을 학습하는 확장 가능한 AI 프레임워크

야н덱스가 10억 개의 매개변수까지 확장 가능한 대규모 트랜스포머 기반 프레임워크 ARGUS를 소개했다. 이는 야후, 넷플릭스, 메타와 같은 글로벌 기술 리더들이 극복하지 못했던 추천 시스템의 확장 기술적 장벽을 성공적으로 극복한 소수의 기업 중 하나로 야н덱스를 올렸다.

2025년 9월 6일 오전 4시 26분
Hugging Face, 새로운 비전-언어 모델 학습용 2천400만 샘플을 포함한 멀티모달 데이터셋 FineVision 오픈 소스화

Hugging Face가 FineVision을 공개했다. 이 데이터셋은 17.3백만 개의 이미지, 24.3백만 개의 샘플, 88.9백만 개의 질문-답변 쌍, 약 100억 개의 응답 토큰을 보유하며 비전-언어 모델(VLMs) 학습을 위한 최대 규모의 구조화된 데이터셋 중 하나로 손꼽힌다.

2025년 9월 6일 오전 4시 05분
알리바바 AI, Qwen3-Max 미리보기 발표: 초고속 및 품질을 갖춘 조수 모델

알리바바의 Qwen 팀이 1조 개 이상의 파라미터를 갖춘 새로운 플래그십 대형 언어 모델인 Qwen3-Max-Preview를 발표했다. 이 모델은 Qwen Chat, 알리바바 클라우드 API, OpenRouter에서 접근 가능하며 Hugging Face의 AnyCoder 도구에서 기본으로 제공된다. 이 모델은 현재의 대형 언어 모델 환경에 어떻게 맞는지 살펴보자.

2025년 9월 6일 오전 3시 16분
구글 AI가 개인 건강 에이전트(PHA)를 소개: 개인 건강 요구를 해결하기 위해 맞춤 상호작용을 가능하게 하는 멀티 에이전트 프레임워크

구글 AI가 개인 건강 에이전트(PHA)를 소개했다. 이는 맞춤 상호작용을 통해 개인 건강 요구를 해결하는 멀티 에이전트 프레임워크로, 임상 추론, 의사 결정 지원, 소비자 건강 애플리케이션 등 다양한 영역에서 강력한 성능을 보여주고 있다.

2025년 9월 5일 오후 7시 58분
Gensim로 완전한 엔드 투 엔드 NLP 파이프라인 구축하기: 토픽 모델링, 단어 임베딩, 의미 검색, 고급 텍스트 분석

본 튜토리얼은 Gensim과 관련 라이브러리를 사용하여 Google Colab에서 원활하게 실행되는 NLP 파이프라인을 소개한다. 전처리, Latent Dirichlet Allocation (LDA)을 사용한 토픽 모델링, Word2Vec을 이용한 단어 임베딩, TF-IDF 기반 유사도 분석, 의미 검색 등 현대 NLP의 핵심 기술들을 통합한다.

2025년 9월 5일 오후 1시 24분
Chatterbox Multilingual 만나보기: 감정 제어와 워터마킹이 가능한 오픈 소스 제로샷 텍스트 음성 변환(TTS) 다국어 모델

Resemble AI가 최근 23개 국어로 제로샷 음성 클로닝을 위한 프로덕션 급 오픈 소스 TTS 모델인 Chatterbox Multilingual을 출시했다. MIT 라이선스로 배포되어 통합 및 수정에 자유롭다. 이 모델은 Chatterbox 프레임워크를 기반으로 다국어 기능, 표현 제어, 내장형 기능을 추가했다.

2025년 9월 5일 오전 3시 07분
Biomni-R0: 의료 연구에서 전문 수준의 인공지능을 위해 다중 턴 강화 학습으로 끝까지 훈련된 새로운 에이전틱 LLMs

의료 인공지능 분야에서 AI의 역할이 증가하고 있으며, 생물학적 문제를 해결하고 환자 데이터를 해석하는 등 복잡한 작업을 수행할 수 있는 에이전트에 대한 수요가 급증하고 있다.

2025년 9월 5일 오전 12시 14분
구글 AI, EmbeddingGemma 공개: 308백만 파라미터 장치 내 임베딩 모델과 최신 MTEB 결과

구글의 EmbeddingGemma는 장치 내 AI용으로 최적화된 새로운 텍스트 임베딩 모델로, 효율성과 최신 검색 성능을 균형 있게 유지하도록 설계되었습니다. 308백만 파라미터로 구성된 이 모델은 경량화되어 모바일 기기 및 오프라인 환경에서 작동할 수 있습니다. 크기에도 불구하고 다른 훨씬 큰 모델들과 경쟁력 있는 성능을 보여줍니다.

2025년 9월 4일 오후 5시 39분
구글 딥마인드, RAG에서 규모에 한계를 발견

구글 딥마인드 팀의 최근 연구에서, RAG 시스템의 밀집 임베딩 모델이 규모에 한계를 가지고 있음을 설명했다. 이 한계는 더 큰 모델이나 더 나은 훈련만으로 해결할 수 없는 기본적인 구조적 한계이다.

2025년 9월 4일 오후 1시 34분
OLMoASR는 무엇이며 OpenAI의 Whisper와 어떻게 비교되는가?

AI2가 공개한 OLMoASR은 OpenAI의 Whisper와 경쟁하는 오픈 ASR 모델 스위트로, 모델 가중치 외에도 훈련 데이터 식별자, 필터링 단계, 훈련 레시피, 벤치마크 스크립트를 공개하여 ASR 분야에서 이례적으로 투명한 움직임을 보이고 있다.

2025년 9월 4일 오전 5시 34분
구글, Gemini CLI를 GitHub Actions로 가져와: 안전하고 무료, 기업용 AI 통합

구글이 Gemini CLI GitHub Actions를 통해 개발자들이 코딩 능력을 GitHub 저장소에 직접 통합하는 새로운 방법을 소개했다. 이 릴리스는 Gemini를 터미널 전용 코딩 도우미에서 GitHub의 워크플로 자동화 프레임워크 위에 구축되어 저장소에 AI 코딩 능력을 직접 통합할 수 있게 한다.

2025년 9월 3일 오후 7시 41분
AI와 뇌: DINOv3 모델이 인간 시각 처리에 대한 통찰을 드러내는 방법

인간 시각 세계에 대한 내부 표현을 뇌가 어떻게 구축하는지 이해하는 것은 뇌과학에서 가장 매혹적인 도전 중 하나다. 최근 10년간 딥러닝은 컴퓨터 비전을 혁신하여 인간 수준의 정확도로 작업을 수행할 뿐 아니라 정보를 처리하는 방식이 우리의 것과 닮았다는 것을 보여준다.

2025년 9월 3일 오후 6시 05분
텐센트 훈유안, 훈유안-MT-7B 및 훈유안-MT-Chimera-7B 공개: 최신 다국어 번역 모델

텐센트의 훈유안팀이 훈유안-MT-7B(번역 모델) 및 훈유안-MT-Chimera-7B(앙상블 모델)을 공개했다. 두 모델은 다국어 기계 번역을 위해 특별히 설계되었으며, WMT2025 General Machine Translation 대회에서 훈유안-MT-7B가 31개 언어 쌍 중 30개에서 1위를 차지했다.

2025년 9월 3일 오전 12시 44분
구글 AI가 대규모 언어 모델 평가를 위한 Stax 도구를 소개합니다

구글 AI가 대규모 언어 모델의 평가를 간편하게 하는 Stax를 출시했습니다. Stax는 구조화된 방법으로 모델을 평가하고 비교할 수 있어, 확률적 시스템인 언어 모델의 일관성 테스트를 간단하게 도와줍니다.

2025년 9월 2일 오후 7시 55분
Apple, 혁신적인 하이브리드 비전 인코더 FastVLM 발표: 비전 언어 모델(VLM)의 해상도, 지연 시간, 정확성 균형 달성

Apple은 FastVLM을 발표했다. 이는 비교 가능한 크기의 비전 언어 모델(VLM)보다 85배 빠르고 3.4배 작다. 고해상도 이미지를 처리하는 VLM의 성능에 중요한 역할을 하는데, 높은 해상도 이미지에 대한 사전 훈련된 비전 인코더의 비효율성과 추론 실행 시의 계산 비용 증가 등이 도전 요인이다.

2025년 9월 2일 오후 1시 47분
요약된 단기 및 벡터 기반 장기 메모리를 갖춘 고급 AI 에이전트 구축 방법

이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]

2025년 9월 2일 오후 1시 26분
Elysia 만나보기: 의사결정 트리와 더 똑똑한 데이터 처리로 Agentic RAG 시스템 재정의하는 새로운 오픈소스 파이썬 프레임워크

Elysia는 의사결정 트리와 더 똑똑한 데이터 처리를 통해 Agentic RAG 시스템을 새롭게 정의하는 오픈소스 파이썬 프레임워크입니다.

2025년 9월 1일 오후 11시 03분
MCP 서버용 Scalekit을 활용한 OAuth 2.1 구현: 단계별 코딩 튜토리얼

이 튜토리얼에서는 MCP 서버용으로 OAuth 2.1을 구현하는 방법을 단계별로 살펴볼 것이다. Scalekit을 사용하여 간단한 금융 감성 분석 서버를 구축하고 이를 안전하게 보호하는 방법을 알아볼 것이다.

2025년 9월 1일 오후 3시 56분
2025년 기업용 AI를 위한 가장 관련성 높은 운영 원칙 15가지

2025년 기업용 AI는 고립된 시범 프로젝트에서 생산 수준의 에이전트 중심 시스템으로 전환되고 있습니다. 분산 에이전트 아키텍처, 오픈 상호 운용성 등이 주요 요구사항과 트렌드로 부상하고 있습니다.

2025년 9월 1일 오후 3시 36분
StepFun AI가 Step-Audio 2 Mini를 공개: GPT-4o-Audio를 능가하는 오픈 소스 8B Speech-to-Speech AI 모델

StepFun AI 팀이 Apache 2.0 라이선스로 공개한 Step-Audio 2 Mini는 8B 파라미터의 음성 대 음성 대형 오디오 언어 모델로, 표현력이 풍부하고 현실적이며 실시간 오디오 상호 작용을 제공합니다. GPT-4o-Audio와 같은 상용 시스템을 능가하는 최첨단 성능을 달성했습니다.

2025년 9월 1일 오전 2시 55분
Microsoft Agent-Lightning를 활용한 AI 에이전트 개발 단계별 안내

본 튜토리얼에서는 Microsoft의 Agent-Lightning 프레임워크를 활용하여 고급 AI 에이전트를 설정하는 방법을 안내합니다. Google Colab 내에서 직접 모든 작업을 실행하므로 서버 및 클라이언트 구성 요소를 한 곳에서 실험할 수 있습니다. 작은 QA 에이전트를 정의하고 지역 Agent-Lightning 서버에 연결한 다음 학습하는 과정을 안내합니다.

2025년 8월 31일 오후 10시 02분
NVIDIA AI 팀, Jetson Thor 소개: 물리 AI 및 차세대 로보틱스를 위한 궁극적인 플랫폼

NVIDIA의 로봇학 팀이 최근 Jetson Thor를 발표했는데, Jetson AGX Thor 개발 키트와 Jetson T5000 모듈이 포함되어 현실 세계 AI 로보틱스 개발에 중요한 이정표를 세웠다. 물리 AI를 위한 슈퍼컴퓨터로 설계된 Jetson Thor는 생성적 추론과 멀티모달 센서 처리를 제공하여 엣지에서의 추론과 의사결정을 가능케 한다.

2025년 8월 31일 오후 4시 29분
MCP (Model Context Protocol) 서버를 위한 OAuth 2.1 이해: 발견, 인증 및 접근 단계

OAuth 2.1은 MCP 명세서에서 공식적으로 권장되는 인가 표준이다. 인가 서버는 OAuth 2.1을 적절한 보안 조치와 함께 구현해야 하며, MCP는 전송 수준에서 인가를 제공하여 클라이언트가 리소스 소유자를 대신해 제한된 서버에 안전하게 액세스할 수 있게 한다.

2025년 8월 31일 오후 3시 14분
AI 에이전트 관측성이란? 믿을 수 있는 AI를 위한 최고의 7가지 실천 방법

AI 에이전트 관측성은 AI 에이전트를 기획부터 메모리 쓰기와 최종 출력까지 추적하고 모니터링하여 팀이 오류를 디버깅하고 품질과 안전성을 측정하며 지연 시간과 비용을 제어하고 규제 요구 사항을 준수할 수 있도록 하는 학문이다. 이는 전통적인 텔레메트리(추적, 메트릭스 등)를 결합하여 실제로 작동한다.

2025년 8월 31일 오전 6시 16분
알리바바 큐엔 팀, GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크 Mobile-Agent-v3 및 GUI-Owl 공개

알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.

2025년 8월 31일 오전 5시 41분
LangGraph를 활용한 대화형 연구 AI 에이전트 구축 방법: 스텝 재생 및 타임 트래블 체크포인트

LangGraph를 사용하여 대화 흐름을 구조화하고 ‘타임 트래블’을 통해 체크포인트를 거슬러 올라갈 수 있는 방법을 이해하는 튜토리얼. 자유로운 Gemini 모델과 위키피디아 도구를 통합한 챗봇을 만들어 대화에 여러 단계를 추가하고 각 체크포인트를 기록하고 재생할 수 있음.

2025년 8월 31일 오전 4시 51분
Chunking vs. Tokenization: AI 텍스트 처리에서의 주요 차이점

토큰화와 청킹은 텍스트를 작은 조각으로 나누는 데 관련이 있지만, 서로 다른 목적과 규모에서 작동한다. AI 애플리케이션을 구축하는 경우 이러한 차이를 이해하는 것이 중요하다.

2025년 8월 30일 오후 5시 13분
허깅페이스 모델을 활용한 두뇌 영감을 받은 계층적 추론 AI 에이전트 구축 코딩 가이드

이 튜토리얼에서는 로컬에서 실행되는 무료 허깅페이스 모델을 사용하여 계층적 추론 모델(HRM)의 정신을 재현하고 가벼우면서도 구조화된 추론 에이전트의 설계를 안내합니다. 문제를 하위 목표로 분해하고 Python으로 해결함으로써 우리는 설계자이자 실험자 역할을 수행합니다.

2025년 8월 30일 오후 4시 11분
Microsoft AI, rStar2-Agent 소개: 14B 수학 추론 모델, 에이전틱 강화학습으로 학습하여 선도 수준 성능 달성

대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.

2025년 8월 30일 오전 2시 41분
액센쳐 연구팀, MCP-Bench 소개: MCP 서버를 통해 복잡한 현실 세계 과제에서 LLM 에이전트를 평가하는 대규모 벤치마크

최신 대형 언어 모델(Large Language Models, LLMs)은 단순한 텍스트 생성을 넘어섰다. 현실 세계 응용 프로그램들은 이제 이러한 모델이 API, 데이터베이스, 소프트웨어 라이브러리와 같은 외부 도구를 사용하여 복잡한 과제를 해결해야 한다. 그러나 AI 에이전트가 도구 간에 계획을 세우고 추론하며 조정할 수 있는지를 어떻게 정확히 알 수 있을까?

2025년 8월 30일 오전 2시 18분
2025년 최고의 음성 AI 블로그 및 뉴스 웹사이트: 궁극적인 자료 안내서

2025년 음성 AI 기술은 실시간 대화형 AI, 감정 지능, 음성 합성 등에서 혁명적인 발전을 이루었습니다. 기업들이 음성 에이전트를 점점 채택하고 소비자들이 차세대 AI 어시스턴트를 수용함에 따라 각 산업 전문가들에게 최신 소식에 대한 정보 파악이 중요해졌습니다. 글로벌 음성 AI 시장은 54억 달러에 이르렀습니다.

2025년 8월 29일 오후 8시 00분
Microsoft AI 연구소, 음성 AI용 새로운 인하우스 모델 MAI-Voice-1 및 MAI-1-Preview 발표

Microsoft AI 연구소가 MAI-Voice-1과 MAI-1-Preview를 공식 발표하며 인공지능 연구 및 개발 노력의 새로운 단계를 마련했다. MAI-Voice-1과 MAI-1-Preview 모델은 음성 합성과 일반적인 언어 이해에 각각 고유한 역할을 지원한다.

2025년 8월 29일 오후 6시 51분
TPOT를 활용한 지능적인 기계 학습 파이프라인 구축 및 최적화

TPOT를 활용하여 기계 학습 파이프라인을 자동화하고 최적화하는 방법을 실제로 시연하는 튜토리얼. Google Colab에서 작업하여 가벼우면서 재현 가능하고 접근성이 좋도록 설정. 데이터 로드, 사용자 정의 스코어러 정의, XGBoost와 같은 고급 모델로 검색 공간을 맞춤화하는 방법, 설정하는 과정을 안내.

2025년 8월 29일 오후 12시 30분
2025년 음성 AI 현황: 트렌드, 성과, 시장 선두주자들

2025년은 음성 AI 에이전트에 대한 전환점으로, 10년 전에는 상상도 못했던 자연스러움, 문맥 이해, 상용 채택 수준의 기술이 도래했다. 음성 인식, 자연어 이해, 다중 모달 통합 등의 큰 발전을 통해 음성 AI는 더 이상 명령 및 질의 시스템에 한정되지 않고 중심적 인터페이스로 신속히 발전하고 있다.

2025년 8월 29일 오전 6시 58분
AI 훈련 비용을 80% 줄이는 방법? 옥스퍼드의 새 옵티마이저가 모델 학습 최적화로 7.5배 빠른 훈련 제공

AI 모델 훈련은 GPU 비용이 막대한데, 이를 개선하기 위해 옥스퍼드 대학의 새 옵티마이저가 모델 학습을 최적화하여 7.5배 빠른 훈련을 제공한다. 이는 예산을 조절하고 실험을 제한하는 부담을 줄여주며 기업들의 발전을 가속화할 수 있다.

2025년 8월 29일 오전 5시 08분
OpenAI, MCP 서버 지원 및 이미지 입력, SIP 전화 통화 지원을 포함한 고급 Speech-to-Speech 모델 및 실시간 API 기능 발표

OpenAI가 gpt-realtime과 Realtime API를 공식적으로 출시했으며 엔터프라이즈를 위한 기능을 갖춘 신속한 API를 베타에서 벗어나 발표했다. 음성 AI 기술에서 혁신적인 발전을 이루고 있지만, 의미 있는 개선 사항과 지속적인 도전 과제가 있음을 보여준다.

2025년 8월 29일 오전 4시 09분
Memory-R1: 강화 학습이 LLM 메모리 에이전트에 어떻게 도움을 주는가

대형 언어 모델(LLM)은 AI의 다양한 분야에서 중요한 역할을 하고 있지만, 이들은 상태를 유지하지 못하는 한계가 있다. 쿼리마다 이전 정보를 기억하지 못하고 고정된 컨텍스트 창으로 장기 대화나 멀티세션 작업에서 계속된 지식을 축적할 수 없다. 이를 해결하기 위해 강화 학습이 LLM 메모리 에이전트를 어떻게 강화하는지 알아보자.

2025년 8월 28일 오후 11시 50분
의료 AI를 전문가가 라벨링한 데이터에 근거로: 방사선 보고서를 위한 최초의 다중 모달, 이중 언어, 문장 수준 데이터 집합에 대한 사례 연구

의료 AI의 최근 발전은 모델의 정교함뿐만 아니라 기반 데이터의 품질과 풍부함에 달려있다. Centaur.ai, Microsoft Research 및 University of Alicante의 협력으로 성과를 거둔 PadChest-GR은 최초의 다중 모달, 이중 언어, 문장 수준 데이터셋이다.

2025년 8월 28일 오후 4시 30분
Gemini, DuckDuckGo API 및 자동 보고서 작성 기능을 활용한 다단계 딥리서치 에이전트 구축 방법?

구글 콜랩에서 직접 실행되는 모듈식 딥리서치 시스템을 설계하고, 핵심 추론 엔진으로 Gemini를 구성하며, 가벼운 웹 검색을 위해 DuckDuckGo의 인스턴트 답변 API를 통합하고, 중복 처리 및 지연 처리가 있는 다단계 쿼링을 조율한다. API 호출 제한, 간결한 스니펫 구문 분석, […]

2025년 8월 28일 오후 3시 09분
호주의 대형 언어 모델 현황: 기술 평가

호주의 주요 노력인 카카룸 LLM은 호주 영어와 문화에 맞춘 주권 보장, 오픈소스 대형 언어 모델을 구축하기 위한 노력이다. 호주 특유의 유머, 속어, 법적/윤리적 규범을 이해하는 모델을 만들기 위한 목표를 가지고 있다.

2025년 8월 28일 오전 3시 09분
Nous 연구팀, 하이브리드 추론을 사용한 Hermes 4 공개

Nous 연구팀이 Hermes 4를 발표했다. 이 모델은 순수 사후 훈련 기술을 통해 선두 수준의 성능을 달성하는데, 복잡한 문제에 대한 심층 고찰이 필요할 때 모델이 표준 응답과 명시적 추론 사이를 전환할 수 있는 하이브리드 추론을 소개했다.

2025년 8월 28일 오전 1시 03분
QuTiP를 사용한 양자 상태 진화, 감쇠 및 얽힘 동역학의 코딩 구현

이 고급 QuTiP 튜토리얼에서는 Python과 QuTiP 프레임워크를 사용하여 양자 시스템의 풍부한 동역학을 탐구합니다. 기본적인 단일 및 이중큐빗 상태를 준비한 후, 벨 페어를 포함한 핵심 양자 연산인 폴리 행렬, 하다마드 게이트, CNOT을 구현합니다. 그리고 Rabi 진동을 시뮬레이션합니다.

2025년 8월 28일 오전 12시 02분
Agentic RAG란 무엇인가? 사용 사례 및 최고의 Agentic RAG 도구들 (2025)

Agentic RAG는 대규모 언어 모델이 외부 맥락에서 결과물을 검색하고 구체화하는 전통적인 RAG의 강점과, 의사 결정 및 도구 사용을 결합한 것이다. 정적 방법과 달리, Agentic RAG는 인공지능 에이전트가 검색, 생성, 쿼리 계획, 반복적 추론을 조율하는데 특징이 있다. 이 에이전트들은 데이터 소스를 자율적으로 선택하고 쿼리를 개선하며 API/도구를 실행한다.

2025년 8월 27일 오후 6시 28분
Meta AI, 딥러닝 OSS 모델 GPT-OSS-120B를 활용한 AIME 2025에서 99.9% 달성하는 첫 AI 방법인 DeepConf 공개

Meta AI와 UCSD 연구팀이 새로운 AI 방법인 Deep Think with Confidence (DeepConf)를 소개했다. 이 방법은 병렬 사고와 자아일관성 기법을 활용하여 AI 추론을 혁신하였고, AIME 2025에서 99.9%의 성과를 이루었다. 이는 오픈소스 모델 GPT-OSS-120B를 사용하는 첫 번째 사례이다.

2025년 8월 27일 오후 12시 40분
AI 프로토콜의 진화: 왜 모델 컨텍스트 프로토콜(MCP)이 AI를 위한 새로운 HTTP가 될 수 있을까

MCP는 에이전트와 AI 어시스턴트를 위해 HTTP가 웹을 위해 한 것처럼 AI 상호 운용성의 새 시대를 열어줄 준비가 되어 있습니다. MCP는 AI 시스템을 구축, 확장, 분석하는 경우 무시할 수 없는 오픈 표준으로, 도구를 발견하고 리소스를 가져오는 데 대한 범용 계약을 제공합니다.

2025년 8월 27일 오전 3시 39분
구글 AI의 새로운 회귀 언어 모델(RLM) 프레임워크, LLM이 원시 텍스트 데이터에서 산업 시스템 성능 예측 가능하게 함

구글의 새로운 회귀 언어 모델(RLM) 접근 방식은 복잡한 피쳐 엔지니어링이나 엄격한 테이블 형식에 의존하지 않고 대용량 언어 모델(LLMs)이 원시 텍스트 데이터에서 산업 시스템 성능을 예측할 수 있게 합니다.

2025년 8월 27일 오전 3시 04분
고급 도구 사용 AI 에이전트의 코딩 구현: Semantic Kernel과 Gemini 활용

이 튜토리얼에서는 Semantic Kernel을 활용한 고급 AI 에이전트를 구축하고 Google의 Gemini 무료 모델과 결합하여 Google Colab에서 원활하게 실행합니다. Semantic Kernel 플러그인을 웹 검색, 수학 평가, 파일 I/O, 메모 작성 등의 도구로 연결하고 Gemini를 통해 구조화된 JSON 출력을 조정합니다.

2025년 8월 26일 오후 11시 36분
NVIDIA AI가 공개한 Jet-Nemotron: 추론 규모에서 98% 비용 절감을 가능케 하는 53배 빠른 하이브리드 아키텍처 언어 모델 시리즈

NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.

2025년 8월 26일 오후 9시 03분
구글 AI가 Gemini 2.5 플래시 이미지를 소개: 이미지를 간단히 설명함으로써 생성하고 편집할 수 있는 새로운 모델

구글 AI는 Gemini 2.5 플래시 이미지를 공개했습니다. 이 모델은 사용자가 이미지를 설명함으로써 생성하고 편집할 수 있도록 설계되었는데, 정확하고 일관된 고품질 편집을 빠르고 광범위하게 제공하는 것이 혁신적입니다.

2025년 8월 26일 오후 3시 09분
MLSecOps(머신러닝을 위한 안전한 CI/CD)란?: 최고의 MLSecOps 도구(2025)

머신러닝이 산업을 변혁하고 금융 서비스, 의료, 자율 시스템 및 전자 상거래와 같은 다양한 분야에서 혁신을 주도하고 있지만, 조직이 ML 모델을 대규모로 운영화할 때 전통적인 소프트웨어 전달 방식인 CI/CD가 머신러닝 워크플로에 적용될 때 중요한 간극을 드러내고 있다.

2025년 8월 26일 오전 5시 02분
당신의 LLM은 이야말로 그것이 고쳐져야 하는 것보다 5배 더 느리다. 그 이유는? 비관주의 – 그리고 스탠포드 연구진이 방법을 보여주었다

AI의 빠른 세계에서 대형 언어 모델(LLMs)은 챗봇부터 코드 어시스턴트까지 모든 것을 구동한다. 그러나 당신의 LLM 추론은 응답 생성 과정이 최대 5배 더 느릴 수 있다. 이유는 출력 길이의 불확실성을 다루는 너무 조심스러운 방식 때문이다.

2025년 8월 26일 오전 3시 08분
MLE-Agent와 Ollama를 사용한 신뢰할 수 있는 엔드 투 엔드 머신러닝 파이프라인 구축하기

MLE-Agent와 Ollama를 결합하여 로컬에서 API 없이 머신러닝 워크플로우를 만드는 방법에 대한 튜토리얼. 구글 코랩에서 재현 가능한 환경을 설정하고, 합성 데이터셋을 생성한 후 에이전트를 이용해 훈련 스크립트를 작성하는 방법을 안내한다. 일반적인 실수를 방지하여 견고하게 만든다.

2025년 8월 26일 오전 12시 59분
Microsoft, VibeVoice-1.5B 공개: 4명의 다른 화자로 최대 90분 음성 합성 가능한 오픈소스 텍스트 음성 모델

Microsoft이 새로 공개한 VibeVoice-1.5B는 MIT 라이선스로 배포된 텍스트 음성(TTS) 기술의 한계를 재정의하며, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 유연하고 확장 가능한 모델이다.

2025년 8월 25일 오후 7시 28분
SEA-LION v4: 동남아시아를 위한 다중언어 모델링

AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.

2025년 8월 25일 오후 12시 16분
대규모 트랜스포머 모델 학습 시 GPU와 TPU의 차이는 무엇인가요? 벤치마크를 통한 최고의 GPU와 TPU

GPU와 TPU는 대규모 트랜스포머 모델 학습을 가속화하는 데 중요한 역할을 하지만, 핵심 아키텍처, 성능 프로필 및 생태계 호환성의 차이로 인해 사용 사례, 속도, 유연성에 중요한 영향을 미친다. TPUs는 구글이 고도로 효율적인 행렬 연산을 위해 특별히 제작한 사용자 정의 ASIC(특정 응용 프로그램 통합 회로)이며, 핵심 아키텍처와 하드웨어 기초가 다르다.

2025년 8월 25일 오전 4시 11분
구글 AI가 대화형 의료 AI에서 책임성을 강조하는 Guardrailed-AMIE (g-AMIE)를 소개했습니다

최근 대형 언어 모델 판단력을 갖춘 AI 에이전트의 발전으로, 임상 대화, 진단 및 치료 계획이 가능해졌습니다. 그러나 개별 진단과 치료 권고는 규제가 엄격하며, 중요한 환자와 직면한 결정에 대한 책임은 라이선스를 받은 임상 의사만이 가질 수 있습니다. 전통적인 의료는 종종 계층적 감독을 사용하며, 경험 많은 의사가 임상 의사의 의사결정을 검토합니다.

2025년 8월 25일 오전 3시 44분
LLM Arena-as-a-Judge 방법을 활용한 대규모 언어 모델 출력물 평가 방법 구현하기

LLM Arena-as-a-Judge 방법을 사용하여 대규모 언어 모델 출력물을 평가하는 방법을 살펴봅니다. 각 응답에 점수를 부여하는 대신, 이 방법은 도움이 되는지, 명확한지, 톤이 어떤지 등의 기준을 기반으로 출력물을 직접 비교하여 더 나은 쪽을 판단합니다.

2025년 8월 25일 오전 3시 03분
GluonTS에서 유연한 다중 모델 워크플로우 구축을 위한 코딩 가이드

GluonTS를 활용하여 복잡한 합성 데이터셋을 생성하고 다중 모델을 병렬로 적용하는 방법에 대해 다루는 튜토리얼. 다양한 추정기를 동일한 파이프라인에서 사용하고 누락된 종속성을 우아하게 처리하여 유용한 결과물을 생성하는 방법에 초점을 맞춘다. 평가 및 시각화 단계를 포함하여 결과를 분석한다.

2025년 8월 24일 오후 4시 35분
데이터베이스란? 현대 데이터베이스 유형, 예시 및 응용 (2025)

데이터 주도 세계에서 데이터베이스는 모바일 앱부터 기업 시스템에 이르기까지 현대 애플리케이션의 중추를 이룬다. 다양한 데이터베이스 유형과 그 응용을 이해하는 것은 특정한 요구 사항에 맞는 적절한 시스템을 선택하는 데 중요하며, 개인 프로젝트를 구축하거나 기업 수준의 솔루션을 설계하는 경우 필수적이다.

2025년 8월 24일 오전 5시 35분
2025년 기업용 AI 구축 vs 구매: AI 제품의 부사장을 위한 미국 시장 결정 프레임워크

미국의 기업용 AI는 실험 단계를 벗어나고 있습니다. CFO들은 명확한 투자대비효과(ROI)를 기대하고, 이사회는 리스크 감독의 증거를 요구하며, 규제기관들은 기존 리스크 관리 의무에 부합하는 통제를 기대합니다. 이 상황 속에서 모든 AI 제품의 부사장은 항상 고민해야 합니다: 이 능력을 자체 구축해야 할까요, 벤더로부터 구매해야 할까요, 아니면 두 가지를 혼합해야 할까요?

2025년 8월 24일 오전 4시 38분
Gemini를 활용한 작업 계획, 검색, 계산 및 자가 비판을 위한 그래프 구조 AI 에이전트 설계를 위한 완전한 코드 구현

이 튜토리얼에서는 GraphAgent 프레임워크와 Gemini 1.5 Flash 모델을 사용하여 고급 그래프 기반 AI 에이전트를 구현합니다. 각각 특정 기능을 담당하는 노드의 방향성 그래프를 정의하며, 작업 분해를 담당하는 계획자, 흐름 제어를 담당하는 라우터, 외부 증거 및 계산을 제공하는 연구 및 수학 노드가 있습니다.

2025년 8월 24일 오전 2시 07분
GPZ: 대규모 입자 데이터를 위한 차세대 GPU 가속 손실 압축기

입자 기반 시뮬레이션과 포인트 클라우드 응용 프로그램은 과학 및 상업 데이터 집합의 크기와 복잡성을 대규모로 확장시키고 있으며, 이를 효율적으로 축소, 저장 및 분석하는 것은 현대 GPU의 병목 현상을 방지하는 것이다. 이는 우주학, 지질학과 같은 분야에서 신흥 대규모 도전 과제 중 하나이다.

2025년 8월 24일 오전 1시 57분
Prefix-RFT: 지도 미세 조정(SFT)과 강화 학습 미세 조정(RFT)을 결합하는 통합 기계 학습 프레임워크

대형 언어 모델은 보통 사전 훈련 후 지도 미세 조정(SFT) 또는 강화 학습 미세 조정(RFT)을 사용해 개선된다. SFT는 예제 기반 학습을 통해 강의 따르기를 효과적으로 가르치지만, 엄격한 행동과 부족한 일반화로 이어질 수 있다. 반면 RFT는 보상 신호를 사용해 모델을 작업 성공을 위해 최적화하지만, […]

2025년 8월 23일 오후 8시 52분
LLMs를 위한 JSON 프롬프팅: Python 코딩 예제로 실용적 가이드

JSON 프롬프팅은 AI 모델에 명확하고 기계가 읽을 수 있는 프롬프트를 제공하는 기술이다. 기존의 텍스트 프롬프트와는 달리 JSON 프롬프트는 요구 사항을 키-값 쌍, 배열, 중첩된 객체로 구조화하여 모호함을 없애고 정확한 청사진으로 바꾼다.

2025년 8월 23일 오후 8시 34분
AI에서 음성 에이전트란 무엇인가? 알아야 할 최고의 9개 음성 에이전트 플랫폼 (2025)

음성 에이전트는 전화나 인터넷을 통해 실시간 대화를 나눌 수 있는 소프트웨어 시스템이다. 이전의 IVR 트리와 달리 음성 에이전트는 자유로운 형식의 음성을 처리하고, 중단을 다루며, 외부 도구 및 API(예: CRM, 예약 시스템, 결제 시스템)에 연결되어 작업을 완료할 수 있다.

2025년 8월 23일 오전 5시 48분
금융 기관을 위한 대형 언어 모델 LLM 대 소형 언어 모델 SLM: 2025년 실용적 기업 AI 안내서

2025년에는 대형 언어 모델(LLMs)과 소형 언어 모델(SLMs) 사이에 절대적인 승자가 없다. 은행, 보험사 및 자산 관리자들은 규제 리스크, 데이터 민감성, 대기 시간 및 비용 요구 사항, 사용 복잡성에 따라 선택해야 한다.

2025년 8월 23일 오전 5시 22분