Mark Tech Post – 페이지 2

Daytona SDK를 사용하여 안전한 샌드박스 환경에서 신뢰할 수 없거나 AI로 생성된 Python 코드를 Notebook 내에서 안전하게 실행하는 방법을 안내하는 튜토리얼. 샌드박스 생성, 코드 실행, 프로세스 격리, 종속성 설치, 간단한 스크립트 실행 등을 다룸.

2025년 6월 13일 오전 1시 15분

Apple 연구원들, 퍼즐 기반 평가를 통해 대규모 추론 모델의 구조적 결함 발표

Apple 연구원들은 대규모 추론 모델인 LRMs의 구조적 결함을 퍼즐 기반 평가를 통해 밝혔다. 최근 AI는 인간과 유사한 사고를 시뮬레이션하는데 초점을 맞춘 고급 모델로 발전하고 있다.

2025년 6월 13일 오전 12시 32분

구글 AI, 정확한 지역 기후 위험 예측을 위한 하이브리드 AI-물리 모델 발표

전통적인 기후 모델링의 한계를 극복하기 위해 구글 AI가 하이브리드 AI-물리 모델을 개발했다. 이 모델은 지역 기후 위험을 더 정확하게 예측하고 더 나은 불확실성 평가를 제공한다.

2025년 6월 12일 오후 11시 46분

VLM-R³: 시각-언어 작업에서 영역 인식, 추론 및 정제를 위한 다중 모달 프레임워크 소개

VLM-R³는 시각과 언어 정보를 통합하여 기계가 다이어그램 내의 수학 문제 해결, 사진에서의 표지판 해석, 과학적 차트 해석 등 다중 모달 추론 능력을 갖추도록 돕는 프레임워크이다. 이는 인간의 사고과정을 모방하는데 도움이 되며 시각적 해석과 논리적 진행이 필요한 작업에 적합하다.

2025년 6월 12일 오후 9시 17분

Meta AI, V-JEPA 2 공개: 이해, 예측, 계획을 위한 오픈 소스 자기 지도 세계 모델

Meta AI가 V-JEPA 2를 소개했다. 이는 인터넷 규모의 비디오에서 학습하고 강력한 시각적 이해, 미래 상태 예측, 제로샷 계획을 가능하게 하는 확장 가능한 오픈 소스 세계 모델이다.

2025년 6월 12일 오전 4시 09분

Dagger를 사용하여 컨테이너를 이용해 병렬로 여러 AI 코딩 에이전트 실행하기

AI 기반 개발에서 코딩 에이전트는 필수적인 협업자로 자리 잡았다. 이러한 독립적 또는 준자율적 도구는 코드를 작성, 테스트, 리팩토링하여 개발 주기를 현격히 가속화한다. 그러나 하나의 코드베이스에서 작업하는 에이전트 수가 증가함에 따라 의존성 충돌, 에이전트 간의 상태 누출, 각 에이전트의 작업 추적의 어려움도 커진다.

2025년 6월 12일 오전 3시 18분

CURE: LLM에서 코드 및 단위 테스트 생성을 위한 강화 학습 프레임워크

대형 언어 모델(Large Language Models, LLMs)은 강화 학습과 테스트 시간 스케일링 기술을 통해 추론과 정밀도에서 상당한 향상을 보여주고 있다. 이에 대해 기존 방법들보다 우수한 성능을 보이는 CURE라는 강화 학습 프레임워크가 소개되었는데, 이는 코드 및 단위 테스트 생성에 있어 ground-truth 코드로부터의 감독을 필요로 하지 않아 데이터 수집 비용을 줄이고 사용 가능한 훈련 데이터의 규모를 제한하지 않는다.

2025년 6월 11일 오후 10시 30분

Riza와 Gemini를 활용하여 안전한 Python 실행으로 다기능 AI 에이전트 개발하기

본 튜토리얼에서는 Riza의 안전한 Python 실행을 기반으로 강력한 다기능 AI 에이전트를 Google Colab에서 구축하는 방법을 안내합니다. Riza 자격 증명을 구성하여 검사 가능한 코드 실행을 가능하게하고, LangChain 에이전트에 Riza의 ExecPython 도구를 통합합니다.

2025년 6월 11일 오후 4시 48분

LLM이 실제로 어떻게 추론하는가? 지식과 논리를 분리하는 프레임워크

최근의 LLM 발전은 복잡한 작업에서 뚜렷한 개선을 이끌어내었지만, 이 모델들의 단계적 추론 과정은 여전히 불분명하다. 대부분의 평가는 최종 답변 정확도에 초점을 맞추어 추론 과정을 숨기고 모델이 지식을 어떻게 결합하는지를 나타내지 않는다.

2025년 6월 11일 오후 4시 12분

Mistral AI, 기업 및 오픈 소스 애플리케이션용 고급 Chain-of-Thought LLMs인 Magistral 시리즈 출시

Mistral AI가 최신 시리즈인 Magistral을 소개했다. 이는 추론에 최적화된 대형 언어 모델(Large Language Models)로 LLM 능력 발전의 중요한 한 걸음이다. Magistral 시리즈에는 Apache 2.0 라이선스 하에 공개된 24B-파라미터의 Magistral Small과 기업용 Magistral Medium이 포함되어 있다.

2025년 6월 11일 오전 5시 25분

NVIDIA 연구진, 트랜스포머 LLM에서 8배 KV 캐시 압축을 위한 다이나믹 메모리 희박화(DMS) 소개

NVIDIA와 대학 연구진이 최근 논문에서, 큰 언어 모델이 더 긴 시퀀스 또는 병렬 추론 체인을 생성하기를 요구함에 따라, 추론 시간 성능이 토큰 수뿐 아니라 키-값(KV) 캐시의 메모리 풋프린트에 의해 심각하게 제한되는 문제를 다루었다.

2025년 6월 11일 오전 4시 11분

언어 모델은 정말로 얼마나 많은 정보를 기억할까? 메타의 새로운 프레임워크가 비트 레벨에서 모델 용량을 정의합니다

최신 언어 모델은 훈련 데이터를 의미있게 기억하는지에 대한 논란이 있습니다. 메타의 새로운 프레임워크는 모델의 용량을 비트 수준에서 정의하여 이 문제를 다루고 있습니다.

2025년 6월 11일 오전 1시 56분

ether0: 24B LLM가 고급 화학 추론 작업을 위해 강화 학습 RL로 훈련됨

LLM은 사전 훈련 데이터와 컴퓨팅 리소스의 스케일링을 통해 정확성을 향상시키지만, 한정된 데이터로 인해 대체 스케일링으로의 관심이 이동되었다. 최근에는 강화 학습 (RL) 후 훈련이 사용되었다. 과학적 추론 모델은 CoT 프롬프팅을 통해 초기에 답변 이전에 사고 과정을 내보내는 방식으로 성능을 향상시킨다.

2025년 6월 10일 오후 3시 33분

Meta가 LlamaRL을 소개: 효율적인 규모 확장 LLM 훈련을 위한 PyTorch 기반 강화 학습 RL 프레임워크

강화 학습은 대형 언어 모델 (LLM)을 미세 조정하는 데 강력한 방법으로 등장했다. 이 모델은 이미 요약부터 코드 생성까지 다양한 작업을 수행할 수 있으며, RL은 구조화된 피드백을 기반으로 출력을 조정하여 지능적인 행동을 더욱 향상시킨다.

2025년 6월 10일 오후 2시 40분

2025년 AI 주도 소프트웨어 개발을 변화시키는 최고의 15가지 Vibe 코딩 도구

AI-주도 개발이 소프트웨어 제작을 재정의함에 따라, "vibe 코딩"이 개발자가 원하는 대로 말하면 에이전트가 구축하는 패러다임 전환적 방법으로 등장했다. Andrej Karpathy가 만든 용어는 코드 중심적 워크플로우에서 자연어 기반 소프트웨어 프로토타이핑으로의 전환을 반영한다. 신뢰할만한 vibe 코딩 도구 목록을 소개한다.

2025년 6월 10일 오전 4시 31분

Gemini를 활용한 Pandas와 LangChain으로 자연어 데이터 분석용 DataFrame 에이전트 만들기

Google의 Gemini 모델과 Pandas의 유연성을 결합하여 타이타닉 데이터셋을 분석하는 방법을 학습합니다. ChatGoogleGenerativeAI 클라이언트와 LangChain의 Pandas DataFrame 에이전트를 결합하여 자연어 쿼리를 해석하는 상호작용 가능한 "에이전트"를 설정합니다.

2025년 6월 10일 오전 3시 19분

텍스트에서 행동으로: 도구 보강 AI 에이전트가 추론, 기억 및 자율성으로 언어 모델을 재정의하는 방법

도구 보강 에이전트의 등장으로 언어 모델이 외부 API 및 서비스를 활용하여 정확한 작업(산술 계산 또는 실시간 데이터 조회)을 수행할 수 있게 되었으며, 이는 언어 이해의 폭과 기능을 효과적으로 결합하고 있다.

2025년 6월 10일 오전 12시 07분

VeBrain: 시각 추론과 현실 세계 로봇 제어를 위한 통합 멀티모달 AI 프레임워크

VeBrain은 로봇 팔과 다리로 등장하는 기계들이 주변 환경을 인식하고 상황을 해석하며 의미 있는 조치를 취할 수 있도록하는 ML 모델의 통합을 통해 로봇 공학 분야를 발전시키고 자율적인 기계로 나아가고 있다.

2025년 6월 9일 오후 11시 40분

알케미스트 출시: 텍스트-이미지 T2I 모델 품질 향상을 위한 소형 감독 미세 조정 데이터셋

알케미스트는 텍스트-이미지(T2I) 생성 분야에서 일관된 출력 품질을 달성하는데 도움을 주는 감독 미세 조정 데이터셋으로, 대규모 사전 훈련만으로는 높은 품질과 정렬을 달성하기 어렵다는 도전에 대응한다. DALL-E 3, Imagen 3, Stable Diffusion 3과 같은 모델의 발전에도 불구하고, 미학적 및 정렬 측면에서 일관된 출력 품질을 달성하는 것은 여전히 과제다.

2025년 6월 9일 오후 2시 42분

Mistral 에이전트 API의 핸드오프 기능을 활용한 스마트 멀티 에이전트 워크플로우 생성 방법

Mistral 에이전트 API의 핸드오프 기능을 활용하여 스마트하고 멀티 에이전트 워크플로우를 만드는 방법을 살펴본다. 이를 통해 다른 에이전트들이 서로 작업을 전달하면서 복잡한 문제를 모듈화되고 효율적인 방식으로 해결할 수 있다. 인플레이션 관련 질문에 답변하기 위해 협업하는 에이전트 시스템을 구축할 것이다.

2025년 6월 9일 오전 3시 22분

최신뉴스 전체보기

PARSCALE(병렬 스케일링)을 소개하는 이 인공지능 논문: 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법

언어 모델의 성능 향상을 위해 연구자들이 모델을 확장하는데 집중함에 따라, 계산 자원이 증가하고 언어 모델의 개발 및 배포가 상당한 컴퓨팅 자원과 메모리에 의존하게 되었다. PARSCALE은 효율적이고 확장 가능한 언어 모델 배포를 위한 병렬 계산 방법을 소개한다.

2025년 5월 21일 오후 7시 36분

메타 연구자가 소개한 J1: 이성적 일관성과 최소 데이터로 평가하는 강화 학습 프레임워크

대형 언어 모델은 이제 텍스트 생성 이상의 평가 및 심사 작업에 사용되며, 다른 언어 모델의 출력을 평가하는 “언어 모델로서의 판사”로 확장되었습니다. 이러한 평가는 강화 학습 파이프라인, 벤치마크 테스트 및 시스템 정렬에서 중요하며, 이러한 판사 모델은 내부적인 사고 과정 추론에 의존합니다.

2025년 5월 21일 오후 4시 31분

데이터 없이 샘플링이 이제 확장 가능해졌습니다: Meta AI, 보상 주도적 생성 모델링을 위한 역순 샘플링 출시

기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.

2025년 5월 21일 오전 3시 06분

Google ADK로 AI 에이전트 만드는 단계별 가이드

ADK는 개발자가 다중 에이전트 시스템을 구축, 관리, 배포하는 데 도움을 주는 오픈소스 파이썬 프레임워크이다. ADK를 사용하여 간단하거나 복잡한 에이전트 기반 애플리케이션을 쉽게 만들 수 있다. 이 튜토리얼에서는 ADK를 사용해 간단한 AI 에이전트를 만드는 방법을 안내한다.

2025년 5월 21일 오전 2시 20분

구글 AI가 발표한 MedGemma: 의료 텍스트 및 이미지 이해 성능을 위해 훈련된 오픈 스위트

구글이 개발한 MedGemma는 의료 텍스트와 이미지 이해를 위해 훈련된 모델 스위트로, Gemma 3 아키텍처 기반으로 구축되었다. 의료 이미지와 텍스트 데이터의 통합 분석을 필요로 하는 의료 애플리케이션 개발자들에게 견고한 기반을 제공한다.

2025년 5월 20일 오후 9시 31분

NVIDIA, 현실 환경에서 육체적 상식과 체험적 추론을 발전시키는 AI 모델 세트 ‘Cosmos-Reason1’ 출시

AI는 언어 처리, 수학, 코드 생성 분야에서 발전했지만 물리적 환경으로 확장하는 것은 여전히 어렵다. 물리 AI는 동적인 실제 환경에서 지각, 이해, 행동하는 시스템을 개발하여 이 간극을 줄이려고 한다. 텍스트나 기호를 처리하는 기존 AI와 달리 물리 AI는 주로 비디오와 같은 감각적 입력과 상호작용한다.

2025년 5월 20일 오후 8시 40분

언어 모델 일반화 향상: 인-컨텍스트 학습과 파인튜닝 간의 간극을 좁히다

언어 모델이 방대한 인터넷 텍스트 코퍼스로 사전 학습되면 몇 가지 작업 예시만으로도 효과적으로 일반화할 수 있지만, 하위 작업을 위해 이러한 모델을 파인튜닝하는 것은 중요한 도전을 제기한다. 파인튜닝은 수백 개에서 수천 개의 예시가 필요하지만, 결과적인 일반화 패턴에는 제약이 있다.

2025년 5월 20일 오후 1시 48분

렌민 대학과 화웨이 연구진, LLM 기반 에이전트의 메모리 맞춤화를 위한 통합 모듈형 AI 라이브러리 MemEngine 제안

LLM 기반 에이전트는 복잡한 작업을 처리하고 여러 역할을 수행하기 때문에 다양한 응용 분야에서 점점 더 사용되고 있습니다. 이러한 에이전트의 핵심 구성 요소 중 하나인 메모리는 정보를 저장하고 회상하며 과거 지식을 반영하고 신중한 결정을 내리는 데 중요한 역할을 합니다. 메모리는 장기간 상호 작용이나 역할 연기와 관련된 작업에서 과거 경험을 포착함으로써 핵심적인 역할을 합니다.

2025년 5월 20일 오후 1시 33분

Meta가 KernelLLM을 소개합니다: 효율적인 Triton GPU 커널로 PyTorch 모듈을 변환하는 8B LLM

Meta가 KernelLLM을 소개했습니다. 이는 PyTorch 모듈을 효율적인 Triton GPU 커널로 번역하는 8억 개의 파라미터를 가진 언어 모델로, GPU 프로그래밍의 장벽을 낮추기 위한 노력입니다.

2025년 5월 20일 오전 3시 36분

Unsloth AI를 사용하여 Google Colab에서 혼합 데이터셋과 LoRA 최적화로 효율적으로 Qwen3-14B를 세밀하게 조정하는 코딩 가이드 단계별 안내

Unsloth AI는 4비트 양자화와 LoRA 기술을 활용하여 최신 모델인 Qwen3-14B를 손쉽고 빠르게 세밀하게 조정할 수 있게 해준다. 본 튜토리얼에서는 이를 실제로 구현하는 방법을 안내한다.

2025년 5월 20일 오전 3시 16분

구글 AI, 오프라인 오디오 및 원활한 소스 통합을 갖춘 독립형 NotebookLM 모바일 앱 출시

구글이 NotebookLM 모바일 앱을 출시했다. 이 앱은 사용자의 포켓으로 맞춤 학습과 콘텐츠 통합을 제공하며 이동성, 문맥 인식 및 상호 작용 기능을 결합한 새로운 기능을 소개했다.

2025년 5월 20일 오전 3시 08분

Salesforce AI 연구자들, UAEval4RAG 소개: RAG 시스템이 답변할 수 없는 쿼리를 거부하는 능력을 평가하는 새로운 기준

RAG는 모델 재교육 없이 응답을 가능케 하지만, 현재의 평가 프레임워크는 답변 가능한 질문들에 대한 정확성과 관련성에 초점을 맞추고, 부적절하거나 답변할 수 없는 요청을 거부하는 중요한 능력을 간과한다. 이로 인해 실제 응용 프로그램에서 부적절한 응답은 오인 또는 피해로 이어질 수 있음.

2025년 5월 20일 오전 2시 05분

금융 서비스에서의 에이전틱 인공지능: IBM의 화이트페이퍼가 기회, 위험 및 책임 있는 통합 매핑

IBM 컨설팅의 최근 화이트페이퍼는 금융 서비스 부문에 미치는 자율적 인공지능 에이전트의 영향을 개요로 제시하며, 이러한 AI 시스템이 금융 기관의 운영 방식을 근본적으로 재구성할 수 있는 방법을 설명합니다.

2025년 5월 19일 오후 10시 50분

AI의 추론을 드러내주지 않을 수도 있는 Chain-of-Thought: Anthropics의 새 연구가 감춰진 결함을 밝혀냄

Chain-of-Thought (CoT) 프롬프팅은 대형 언어 모델의 추론 과정을 개선하고 해석하는 인기 있는 방법이 되었다. 그러나 최근 Anthropics의 연구에 따르면, 이 방법은 AI의 추론을 완전히 이해하는 데 한계가 있을 수 있다.

2025년 5월 19일 오후 10시 21분

Omni-R1: 텍스트 주도 강화 학습과 자동 생성 데이터를 활용한 오디오 질문 응답 발전

연구는 강화 학습이 LLM의 추론 능력을 향상시킬 수 있다는 최근 발전을 기반으로, 오디오 LLMs를 개선하는 것을 목표로 한다. MMAU 벤치마크는 소리, 음성에 관한 객관식 질문을 포함한 데이터셋으로 이 모델들을 평가하는 데 사용된다.

2025년 5월 19일 오후 8시 29분

마이크로소프트의 AI 논문, 디스크ANN 통합 시스템 소개: Azure Cosmos DB를 활용한 비용 효율적이고 저지연 벡터 검색

최신 데이터 시스템에 대한 핵심 요구 사항 중 하나는 고차원 벡터 표현을 검색하는 능력이 되었다. 이러한 벡터 표현은 딥러닝 모델에 의해 생성되며 데이터의 의미론적 및 문맥적 의미를 포착한다. 이를 통해 시스템은 정확한 일치가 아닌 관련성과 유사성에 기반한 결과를 검색할 수 있다.

2025년 5월 19일 오후 8시 22분

Model Context Protocol (MCP)의 중요한 보안 취약점: 악의적 도구와 속임수적 맥락이 AI 에이전트를 악용하는 방법

Model Context Protocol (MCP)는 대형 언어 모델이 도구, 서비스 및 외부 데이터 소스와 상호 작용하는 방식에 대한 강력한 패러다임 변화를 나타냅니다. MCP는 동적 도구 호출을 가능하게 하며, 모델이 함수를 지능적으로 선택하고 호출할 수 있는 표준화된 방법을 제공합니다. 그러나 새로운 프레임워크인만큼 보안 취약점도 존재합니다.

2025년 5월 19일 오전 1시 42분

강화 학습이 LLMs를 검색에 능숙하게 만듭니다: Ant Group 연구원들이 SEM을 도입하여 도구 사용과 추론 효율성 최적화

최근 LLMs의 발전으로 복잡한 추론 작업을 수행하고 검색 엔진과 같은 외부 도구를 효과적으로 사용하는 잠재력이 드러났다. 그러나 내부 지식 대신 검색을 언제 의존해야 하는지 모델에 스마트한 결정을 내릴 수 있도록 가르치는 것은 여전히 중요한 과제다. 단순한 프롬프트 기반 방법은 모델이 도구를 활용하도록 안내할 수 있지만, LLMs는 여전히 어려움을 겪고 있다.

2025년 5월 18일 오후 10시 52분

LLMs는 내지식에 대해 행동하는 데 어려움을 겪는다: Google DeepMind 연구원들이 강화 학습 세밀 조정을 사용하여 앎과 행동 간의 간극을 메꾸다

대규모 데이터셋으로 훈련된 언어 모델은 언어 이해 및 생성 도구로 두드러지며, 상호 작용 환경에서 의사 결정 요소로 작동할 수 있다. 그러나 행동 선택이 필요한 환경에 적용될 때 이러한 모델은 내부 지식과 추론을 활용하여 효과적으로 행동하기를 기대된다. 그러나 LLMs는 이를 실현하기 어렵다. Google DeepMind 연구원들은 강화 학습 세밀 조정을 사용하여 이러한 간극을 메우려고 한다.

2025년 5월 18일 오후 10시 24분

Tavily Search API, Chroma, Google Gemini LLMs, 그리고 LangChain 프레임워크를 활용하여 강력하고 지능적인 질의응답 시스템 구축하는 방법

이 튜토리얼에서는 Tavily Search API, Chroma, Google Gemini LLMs, 및 LangChain 프레임워크의 강점을 결합하여 강력하고 지능적인 질의응답 시스템을 구축하는 방법을 소개합니다. Tavily를 통한 실시간 웹 검색, Chroma 벡터 저장소를 활용한 의미론적 문서 캐싱, 그리고 Gemini 모델을 통한 문맥적 응답 생성이 포함됩니다.

2025년 5월 17일 오후 11시 19분

SWE-Bench 성능이 도구 사용 없이 50.8%로 달성: 단일 상태 내 문맥 에이전트에 대한 사례

LM 에이전트의 최근 발전은 복잡한 실제 과제 자동화에 유망한 잠재력을 보여주고 있음. 이러한 에이전트는 일반적으로 API를 통해 작업을 제안하고 실행하여 소프트웨어 공학, 로봇공학, 과학 실험 등의 응용 프로그램을 지원함. 이러한 과제가 더 복잡해지면 LM 에이전트 프레임워크는 다중 에이전트, 다단계 검색, 맞춤형 지원을 포함하도록 진화해왔음.

2025년 5월 17일 오후 11시 06분

AWS, AI 에이전트 개발을 간편화하기 위해 Strands Agents SDK 오픈 소스화

AWS가 Strands Agents SDK를 오픈 소스로 공개하여, AI 에이전트 개발을 다양한 분야에서 더 접근 가능하고 적응 가능하도록 만들었습니다. 모델 주도적 접근을 통해 복잡성을 추상화하여 지능적인 에이전트를 구축, 조정, 배포하는 작업을 쉽게 만들어줍니다.

2025년 5월 17일 오후 3시 40분

구글 연구자들이 LightLab을 소개: 단일 이미지에서 미세한 조명 제어를 위한 물리적으로 타당한 확산 기반 AI 방법

LightLab은 단일 이미지에서 미세한 빛 조절을 위한 새로운 AI 방법이다. 기존 방법은 여러 촬영으로부터 장면의 기하학과 속성을 재구성한 후 물리적 조명 모델을 사용하여 새로운 조명을 시뮬레이션하는 3D 그래픽 방법을 사용하는데, 이러한 기술은 빛 원본에 대한 명확한 제어를 제공하지만 단일 이미지로부터 정확한 3D 모델을 복원하는 것은 여전히 문제로 남아있다.

2025년 5월 17일 오후 2시 56분

DeepSeek-AI의 AI 논문, 하드웨어 오버헤드 최소화와 계산 효율 최대화로 고성능 언어 모델링 제공하는 방법 탐구

대규모 언어 모델(Large Language Model, LLM)의 개발 및 배포 증가는 구조적 혁신, 대규모 데이터셋, 하드웨어 개선과 밀접한 관련이 있다. DeepSeek-V3, GPT-4o, Claude 3.5 Sonnet, LLaMA-3 등의 모델들은 스케일링이 추론 및 대화 능력을 향상시킨다는 것을 입증했으나, 성능이 향상될수록 컴퓨팅, 메모리, 통신 대역폭 수요도 증가하고 있다.

2025년 5월 17일 오전 2시 29분

LLMs가 실제 대화에서 어려움을 겪는다: Microsoft와 Salesforce 연구자들이 멀티턴의 미정의 작업에서 39%의 성능 저하를 밝혀

대화형 인공지능은 사용자 요구가 점진적으로 드러나는 동적 상호작용을 가능하게 하는데 초점을 맞추고 있습니다. Microsoft와 Salesforce 연구자들이 발표한 연구에 따르면, 대화형 인공지능 모델인 LLMs는 실제 대화에서 어려움을 겪고 멀티턴의 미정의 작업에서 39%의 성능 저하가 있습니다.

2025년 5월 17일 오전 2시 23분

Windsurf가 SWE-1 출시: 소프트웨어 엔지니어링을 위한 최첨단 AI 모델 패밀리

Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.

2025년 5월 17일 오전 1시 55분

Salesforce AI, CLIP 임베딩 및 플로우 매칭으로 구축된 완전한 오픈 소스 통합 멀티모달 모델 BLIP3-o 발표

BLIP3-o는 CLIP 임베딩과 플로우 매칭을 활용한 멀티모달 모델로, 이미지 이해 및 생성에 사용됩니다. 시각과 언어를 연결하는 관심이 높아지면서, 이미지 인식과 생성 기능을 통합한 시스템에 대한 연구가 확대되고 있습니다.

2025년 5월 16일 오후 3시 31분

AI 에이전트들이 이제 병렬로 코드를 작성합니다: OpenAI가 ChatGPT 내부의 클라우드 기반 코딩 에이전트 Codex를 소개합니다

OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.

2025년 5월 16일 오후 2시 46분

LangGraph Multi-Agent Swarm 소개: LangGraph를 사용하여 스왐 형식의 다중 에이전트 시스템을 생성하는 Python 라이브러리

LangGraph Multi-Agent Swarm은 여러 AI 에이전트를 하나의 “스왐”으로 조율하는 Python 라이브러리이다. 다양한 특화를 갖는 에이전트들이 작업에 따라 동적으로 제어를 넘기며 특수화된 다중 에이전트 아키텍처를 구현한다.

2025년 5월 16일 오전 1시 46분

DanceGRPO: 시각 생성을 위한 강화 학습의 통합 프레임워크

DanceGRPO는 시각적 콘텐츠 생성을 위한 강화 학습에 대한 통합 프레임워크로, 여러 패러다임과 작업에 걸쳐 시각 생성을 혁신적으로 다룬다. 최근의 생성 모델 발전을 통해 시각적 콘텐츠 생성이 향상되었으며, 훈련 중 인간 피드백 통합이 중요하다.

2025년 5월 16일 오전 1시 28분

바이트댄스, Seed1.5-VL 소개: 일반 목적의 다중 모달 이해와 추론을 진화시키기 위한 비전-언어 기반 모델

VLM은 일반 목적의 AI 시스템 구축에 중요하며, 시각적 및 텍스트 데이터를 통합함으로써 다중 모달 추론, 이미지 편집, GUI 에이전트, 로봇공학 등을 발전시키고 있음. 그러나 인간의 능력에 아직 미치지 못하는 부분이 있음.

2025년 5월 15일 오후 6시 11분

Hugging Face, 무료 Model Context Protocol (MCP) 코스 소개: 컨텍스트 인식 AI 에이전트 및 애플리케이션 구축과 배포를 위한 개발자 안내서

Hugging Face가 Model Context Protocol (MCP)에 대한 무료 오픈 소스 코스를 출시했습니다. 이 코스는 대규모 언어 모델과 외부 데이터 소스 및 도구를 통합하는 데 도움이 되는 MCP를 개발자와 AI 전문가들에게 제공하여 더 맥락에 맞는 AI 에이전트 및 애플리케이션을 구축하는 데 필요한 지식과 기술을 제공합니다.

2025년 5월 15일 오후 3시 15분

Stability AI, Adversarial Relativistic-Contrastive (ARC) 후 훈련 및 안정적인 오디오 오픈 스몰 소개: 다양하고 효율적인 텍스트에서 오디오 생성을 위한 다양한 방법

텍스트에서 오디오 생성 기술이 음악 제작, 게임, 가상 경험 등에서 혁신적인 방법으로 부각되고 있으며, 이 기술은 일반적으로 확산 또는 정류된 플로우와 같은 가우시안 플로우 기반 기법을 활용하여 구조화된 오디오로의 점진적인 전환 단계를 모델링한다.

2025년 5월 15일 오후 2시 31분

NVIDIA의 Joey Conway와의 독점 인터뷰: Llama Nemotron Ultra 및 오픈 소스 모델에 대해

NVIDIA의 Joey Conway와의 인터뷰에서 오픈 소스 대형 언어 모델인 Llama Nemotron Ultra 및 Parakeet에 대한 흥미로운 작업에 대해 이야기했습니다.

2025년 5월 15일 오전 11시 15분

LangGraph와 NetworkX를 사용하여 자동화된 지식 그래프 파이프라인 구축하는 단계별 안내서

LangGraph와 NetworkX를 사용하여 자동화된 지식 그래프 파이프라인을 구축하는 방법에 대해 안내하는 튜토리얼. 지능적 에이전트들이 데이터 수집, 개체 추출, 관계 식별, 개체 해결, 그래프 유효성 검사 등의 작업을 협업적으로 수행하는 과정을 모의한다.

2025년 5월 15일 오전 3시 38분

조지아텍과 스탠포드 연구진, 자율 기계 학습 엔지니어링 (MLE) 에이전트를 훈련, 평가 및 벤치마킹하기 위해 설계된 체육관 스타일 프레임워크 ‘MLE-도장’을 소개

조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.

2025년 5월 15일 오전 3시 20분

Tsinghua 및 ModelBest 연구진, Ultra-FineWeb: 트리리언 토큰 데이터셋 발표, 벤치마크에서 LLM 정확도 향상

Tsinghua 대학 및 ModelBest 연구진이 Ultra-FineWeb이라는 트리리언 토큰 데이터셋을 발표했다. 이 데이터셋은 LLM의 정확도를 향상시켜주며, 모델 기반 필터링을 통해 고품질 샘플을 식별하는 방법을 사용한다.

2025년 5월 15일 오전 3시 11분

코딩 에이전트 75% 급증: SimilarWeb의 AI 사용 보고서, 2025년 생성 AI 붐에서 이기고 지는 섹터 강조

SimilarWeb의 ‘AI 글로벌 보고서: 생성 AI에서의 글로벌 섹터 트렌드’는 디지털 업무 방식을 재정의하는 생성 AI로 인해 사용자 참여 패턴이 변화하는 것을 종합적으로 보여줍니다. 코딩 에이전트의 현저한 성장, EdTech의 혁신적 영향, 그리고 법률 AI 플랫폼의 예상치 못한 하락을 강조합니다.

2025년 5월 14일 오후 7시 41분

구글 딥마인드, 알파이볼브 발표: 알고리즘 발견과 과학적 최적화를 위한 제미니 기반 코딩 AI 에이전트

구글 딥마인드는 알고리즘 설계와 과학적 발견을 위해 제미니 기술을 활용한 코딩 AI 에이전트 알파이볼브를 소개했다. 전통적인 방법으로는 전문가 직관과 수동 반복에 의존하는 이러한 과정이 대규모 언어 모델(LLMs)을 활용함으로써 가속화되고 있다.

2025년 5월 14일 오후 4시 35분

Rime, Arcana와 Rimecaster 공개: 현실 세계 음성에 기반한 실용적 음성 AI 도구

Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.

2025년 5월 14일 오후 3시 35분

메타 AI가 CATransformers를 소개합니다: 지속 가능한 엣지 배포를 위해 AI 모델과 하드웨어를 공동 최적화하는 탄소 인식 기계 학습 프레임워크

기계 학습 시스템이 추천 엔진부터 자율 시스템까지 다양한 응용 프로그램에서 중요해지면서, 이러한 시스템들의 환경 지속 가능성에 대한 필요성이 증가하고 있습니다. CATransformers는 AI 모델과 하드웨어를 지속 가능한 엣지 배포를 위해 공동 최적화하는 탄소 인식 기계 학습 프레임워크입니다.

2025년 5월 14일 오후 3시 10분

웹 스크래핑 데이터를 활용한 빠른 시맨틱 검색 및 RAG QA 엔진 구축 단계별 안내: Together AI Embeddings, FAISS 검색, LangChain 활용

이 튜토리얼에서는 Together AI의 확장 생태계를 활용하여 텍스트를 빠르게 구조화된 질의응답 서비스로 변환하는 방법을 보여줍니다. 라이브 웹 페이지를 스크래핑하고 응집된 청크로 나눈 후 함께컴퓨터/m2-bert-80M-8k-retrieval 임베딩 모델에 제공하는 과정을 다룹니다.

2025년 5월 14일 오전 3시 11분

소프트웨어 문제 정확하고 확장 가능한 위치 파악을 위한 Salesforce AI의 SWERank가 비용 효율적인 대안으로 등장

소프트웨어 문제의 정확한 위치를 식별하는 것은 개발 생애주기에서 가장 인력 집약적인 작업 중 하나이다. 자동화된 패치 생성과 코드 어시스턴트의 발전에도 불구하고, 코드베이스에서 변경이 필요한 위치를 파악하는 프로세스는 종종 수정 방법보다 더 많은 시간을 소비한다.

2025년 5월 14일 오전 2시 53분

영어 중심 RLM의 테스트 시간 스케일링을 통한 강화된 다국어 추론과 도메인 일반화 조사

이 논문은 RLM이 복잡한 문제를 단순하게 분해하고 논리적 단계를 구축하여 답변에 도달하는 것을 시뮬레이션하는 데 사용되며, 다국어 능력을 향상시킴으로써 출력 품질을 향상시키는 것을 조사합니다.

2025년 5월 14일 오전 12시 05분

LLM 사전 학습에서 유해 데이터 재고: 향상된 조절성과 해독을 위한 협업 설계 접근법

LLM 사전 학습에서 훈련 데이터의 품질은 모델 성능에 중요하며 유해 콘텐츠를 필터링하여 유해한 출력을 최소화하는 전략이 일반적이지만 이는 트레이드오프를 도입한다. 이 기사는 LLM 사전 학습에서 유해 데이터 다루는 새로운 접근 방식을 소개한다.

2025년 5월 13일 오후 11시 56분

PwC, 자율적 다중 에이전트 시스템을 기업에 배치하기 위한 전략 청사진에 대한 Agentic AI에 대한 집행부 안내서 발표

PwC는 “Agentic AI – GenAI의 새로운 지평”라는 최신 집행부 안내서에서, 자율적인 의사 결정과 문맥 인식 상호작용이 가능한 Agentic 인공지능에 대한 전략적 접근 방식을 제시한다. 이러한 시스템은 기관의 운영 방식을 재구성할 것으로 예상되며, 전통적인 소프트웨어 모델에서 조정된 모델로 전환될 것이다.

2025년 5월 13일 오후 8시 47분

강화 학습, 미세 조정이 아닌: Nemotron-Tool-N1가 최소 감독과 최대 일반화로 LLMs에게 도구 사용을 가르침

LLMs를 외부 도구나 기능으로 장착하는 것이 인기를 끌며, 최소 감독과 최대 일반화로 LLMs의 도구 호출 능력을 향상시키기 위해 고급 언어 모델과 SFT를 통해 대량의 도구 사용 궤적을 종합하는 기존 연구가 있다. 그러나 존재하는 연구의 중요한 한계는 합성 데이터셋이 명시적 추론 단계를 포착하지 못하고 표면적인 도구 사용만 가능하다는 점에 있다.

2025년 5월 13일 오후 4시 30분

클로드 데스크톱에 스미더리와 베리액스로 완전히 통합된 파이어크롤-파워드 MCP 서버 배포하기: 단계별 안내서

이 튜토리얼에서는 스미더리를 구성 프레임워크로 사용하여 모델 컨텍스트 프로토콜 (MCP) 서버를 배포하는 방법을 배우고, 런타임 오케스트레이터로 베리액스를 활용합니다. 스미더리를 설치하고 구성하여 MCP 엔드포인트를 정의한 다음, 베리액스를 활용하여 서버 프로세스를 구동하고 관리합니다.

2025년 5월 13일 오후 3시 52분

LLM 에이전트 구현하기: MCP-Use를 활용한 도구 접근

MCP-Use는 모든 LLM을 어떤 MCP 서버에 연결하여 웹 브라우징, 파일 작업 등의 도구 접근을 제공하는 오픈 소스 라이브러리다. 이 튜토리얼에서는 langchain-groq와 MCP-Use의 내장 대화 기억을 사용하여 도구와 상호 작용할 수 있는 간단한 챗봇을 구축한다.

2025년 5월 13일 오후 1시 34분

RL^V: 언어 모델에서 추론과 검증을 통합하는 Value-Free 강화 학습

최근 언어 모델들은 보상 기반 강화 학습을 통해 뛰어난 추론 능력을 갖추었다. 과거의 PPO 방식을 버리고 학습된 가치 함수 네트워크를 대신하여 경험적으로 추정된 반환값을 사용하는 현대 강화 학습 알고리즘들은 계산 요구와 GPU 메모리 소비를 줄여준다.

2025년 5월 13일 오전 2시 47분

OpenAI, 건강 관리에서 대형 언어 모델의 성능과 안전성 측정을 위한 오픈소스 벤치마크 ‘HealthBench’ 공개

OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.

2025년 5월 13일 오전 2시 18분

멀티모달 AI는 모달리티 지원 이상이 필요합니다: 연구자들이 일반 수준 및 일반 벤치를 제안하여 종합주의 모델에서 진정한 시너지를 평가합니다

인공지능은 언어 중심 시스템을 넘어서 여러 입력 유형(텍스트, 이미지, 오디오, 비디오)을 처리할 수 있는 모델로 발전했습니다. 멀티모달 학습은 다양한 감각 데이터를 통합하고 해석하는 인간의 능력을 모방하는 것을 목표로 합니다. 단일 모달리티를 다루는 전통적 AI 모델과 달리, 멀티모달 종합주의자들은…

2025년 5월 12일 오후 8시 44분

AI에 초점을 맞춘 러브러블.데브와 심리스한 GitHub 통합으로 AI 블로깅 웹사이트 구축, 사용자 정의, 게시하는 단계별 가이드

본 튜토리얼에서는 Lovable.dev를 사용하여 현대적이고 세련된 AI 블로깅 웹사이트를 만들고 게시하는 과정을 단계별로 안내합니다. Lovable.dev는 웹사이트 생성을 간단하게 만들어주며 사용자가 AI와 기술과 같은 특정 niche에 맞게 시각적으로 매력적이고 반응 형 웹 페이지를 손쉽게 개발할 수 있도록 돕습니다. 홈페이지를 빠르게 구축하는 방법, 대화형 구성 요소 통합 방법 등을 설명할 것입니다.

2025년 5월 12일 오후 8시 29분

오프라인 비디오-LLMs가 이제 실시간 스트림을 이해할 수 있습니다: 애플 연구원들이 멀티턴과 선제적 비디오 이해를 가능하게 하는 StreamBridge를 소개했습니다

영상-LLMs은 전체 사전 녹화된 비디오를 한꺼번에 처리합니다. 그러나 로보틱스 및 자율 주행과 같은 응용 프로그램은 시간적으로 이해와 응답이 중요한 스트리밍 시나리오에서 작동하도록 설계되지 않은 현재 비디오-LLMs의 한계를 보여줍니다. 애플 연구자들이 StreamBridge를 소개하여 오프라인에서 실시간 스트림으로의 전환을 가능하게 했습니다.

2025년 5월 12일 오후 8시 13분

PrimeIntellect가 INTELLECT-2를 발표: 분산 비동기 강화 학습을 통해 훈련된 32B 추론 모델

INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.

2025년 5월 12일 오후 1시 12분

AG-UI (에이전트-사용자 상호작용 프로토콜): AI 에이전트가 프론트엔드 애플리케이션에 연결하는 방식을 표준화하는 오픈, 가벼운, 이벤트 기반 프로토콜

AI 에이전트들은 주로 백엔드 작업을 자동화하는데 집중해왔지만, 상호작용적인 AI 애플리케이션이 늘어남에 따라 사용자와 상호작용하는 에이전트의 필요성이 대두되었다. AG-UI 프로토콜은 이러한 문제를 해결하기 위해 개발된 오픈, 가벼운, 이벤트 기반 프로토콜이다.

2025년 5월 12일 오후 12시 04분

NVIDIA AI, 오디오-SDS 소개: 특별한 데이터셋 없이 프롬프트 안내 오디오 합성 및 소스 분리를위한 통합 확산 기반 프레임워크

NVIDIA AI는 오디오 확산 모델을 도입하여 텍스트에서 3D 및 이미지 편집을 지원한 Score Distillation Sampling (SDS)을 활용해 오디오 합성 및 소스 분리 작업을 효율적으로 수행한다. 특별한 데이터셋이 필요하지 않고 명시적이고 해석 가능한 매개변수를 조정할 수 있는 모델이 필요한데, 이를 통해 음악, 효과음 등의 고품질 소리를 생성할 수 있다.

2025년 5월 12일 오전 2시 09분

AI 논문이 소개하는 효과적인 상태 크기(ESS): 성능 최적화를 위한 시퀀스 모델의 메모리 활용 측정 지표

시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.

2025년 5월 11일 오후 2시 29분

LightOn AI가 GTE-ModernColBERT-v1을 공개: 장문 문서 검색을 위한 확장 가능한 토큰 수준의 의미 검색 모델 및 최고 수준의 벤치마크 성능

LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.

2025년 5월 11일 오후 2시 08분

Adala와 Google Gemini를 활용한 빠른 활성 학습 주석의 코딩 구현

Adala 프레임워크를 사용하여 의료 증상 분류를 위한 모듈식 활성 학습 파이프라인을 구축하는 방법을 배우고, Google Gemini을 사용하여 증상을 사전 정의된 의료 도메인으로 분류하는 방법을 통해 간단한 세 단계의 활성 학습 루프를 실행합니다.

2025년 5월 11일 오전 2시 42분

텐센트가 PrimitiveAnything를 공개: 자동 회귀적 기본 생성을 사용하여 3D 형상 재구성하는 새 AI 프레임워크

이번 연구에서는 복잡한 3D 형상을 간단하고 해석 가능한 기하학적 단위로 분해하는 모양 기본 추상화가 소개되었습니다. 최근 3D 생성 방법들은 메쉬, 포인트 클라우드, 신경장 등의 표현을 사용하여 고품질 콘텐츠 생성을 가능케 했지만, 종종 의미적 깊이와 해석 가능성이 부족합니다.

2025년 5월 11일 오전 2시 26분

Anthropic Claude Bot를 위한 mem0 메모리 해제를 위한 코딩 가이드: 맥락 풍부한 대화 활성화

구글 Colab에서 Anthropic의 Claude 모델과 mem0를 활용한 완전히 기능적인 봇 설정을 안내하는 튜토리얼. LangGraph의 직관적인 상태 머신 조종과 mem0의 강력한 벡터 기반 메모리 저장소를 결합하여 과거 대화를 기억하고 필요 시 관련 세부 정보를 검색하며 자연스러운 연속성 유지 가능.

2025년 5월 10일 오후 8시 33분

화웨이, Pangu Ultra MoE 소개: 시뮬레이션 주도 아키텍처 및 시스템 수준 최적화를 사용하여 Ascend NPUs에서 효율적으로 훈련된 718B-파라미터 희소 언어 모델

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.

2025년 5월 10일 오후 8시 11분

알리바바의 ZeroSearch, 강화 학습과 시뮬레이션 문서 활용해 LLMs 검색을 실시간 검색 없이 가르침

알리바바의 ZeroSearch는 강화 학습과 시뮬레이션 문서를 활용하여 대형 언어 모델의 검색을 실시간 검색 없이 가르치는 방법을 제시하고 있다. 기존의 정적 데이터셋으로 훈련된 언어 모델은 시간이 지남에 따라 오래되어 문제가 발생하는데, ZeroSearch는 이를 극복하기 위해 새로운 방법론을 제시하고 있다.

2025년 5월 10일 오후 4시 49분

마이크로소프트 연구원들이 소개한 ARTIST: LLM에 적응적 추론과 동적 도구 사용 능력을 제공하는 강화 학습 프레임워크

강화 학습은 LLMs의 효율적인 추론 전략을 이끌기 위해 보상 신호를 사용하여 모델을 이끄는데, 이를 통해 복잡한 과제에 동적으로 적응하는 더 긴 고찰 과정을 가능하게 한다. 하지만 대부분의 강화 학습이 적용된 LLMs는 이러한 장점을 충분히 활용하지 못하고 있다.

2025년 5월 10일 오후 4시 37분

바이트댄스, 딥 연구 자동화를 위한 모듈화된 멀티 에이전트 프레임워크 DeerFlow 오픈소스화

바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.

2025년 5월 10일 오전 2시 02분

GPU를 사용하지 않는 기업용 AI: Salesforce의 xGen-small은 맥락, 비용 및 개인정보 보호를 최적화합니다

기업 환경에서의 언어 처리는 점점 다양한 소스에서 정보를 종합해야 하는 문제에 직면하고 있습니다. 최근 대형 언어 모델의 발전은 놀라운 능력을 제공하지만, 매우 높은 비용, 하드웨어 업그레이드 요구와 같은 부작용도 동반됩니다.

2025년 5월 10일 오전 12시 34분

다음 세대 상호 운용성 프로토콜에 대한 심층 기술적 탐구: 모델 컨텍스트 프로토콜 (MCP), 에이전트 통신 프로토콜 (ACP), 에이전트 간 프로토콜 (A2A) 및 에이전트 네트워크 프로토콜 (ANP)

자율 시스템이 점점 더 큰 언어 모델 (LLM)을 추론, 계획 및 실행에 활용함에 따라, 능력의 병목 현상이 아닌 의사 소통에서 병목 현상이 발생했습니다. LLM 에이전트는 지침을 구문 분석하고 도구를 호출할 수 있지만, 서로 확장 가능하고 안전하며 모듈식으로 상호 운용하는 능력은 심각하게 제한됩니다.

2025년 5월 10일 오전 12시 13분

자가 학습하는 AI: Tsinghua 대학의 ‘Absolute Zero’가 외부 데이터 없이 LLM을 훈련시킴

Tsinghua 대학의 ‘Absolute Zero’는 외부 데이터 없이 LLM을 훈련시키는데 성공하였다. 현재의 RLVR 작업은 규모 확장 문제에 직면하고 있지만, ‘Absolute Zero’는 중간 추론 단계를 모방하는 대신 결과 기반 피드백에 의존하여 추론 능력을 향상시켰다.

2025년 5월 9일 오후 6시 56분

구글, 혁신과 확장 가능한 엔지니어링을 결합한 하이브리드 연구 모델로 컴퓨터 과학 연구 재정의

컴퓨터 과학 연구는 논리, 엔지니어링 및 데이터 기반 실험을 포함한 다학제적 노력으로 진화했습니다. 컴퓨팅 시스템이 일상생활에 깊이 편입되면서 연구는 대규모이며 실시간 시스템에 초점을 맞추고 있습니다. 이러한 시스템은 대규모 데이터 세트에서 학습하고 다양한 사용자 요구에 적응해야 합니다.

2025년 5월 9일 오후 6시 37분

ServiceNow AI Released Apriel-Nemotron-15b-Thinker: 기업 규모의 배포와 효율성을 위해 최적화된 강력한 추론 모델

AI 모델은 수학 문제 해결, 논리적 문장 해석, 기업 의사 결정 지원과 같은 복잡한 작업을 처리해야 합니다. 이를 위해 수학적 추론, 과학적 이해, 고급 패턴 인식을 통합하는 것이 필요합니다. 실시간 응용 프로그램에서 지능형 에이전트에 대한 수요가 계속되는 가운데, 코딩 보조 도구와 비즈니스 자동화 도구가 포함됩니다.

2025년 5월 9일 오후 4시 39분

Ming-Lite-Uni: 텍스트와 비전을 통합하기 위해 설계된 오픈소스 AI 프레임워크

Ming-Lite-Uni는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 이해하고 생성하는 멀티모달 AI 시스템을 구축하는 데 사용되는 오픈소스 프레임워크이다. 이는 다양한 상호작용 형식을 통해 보다 원활한 인간-인공지능 커뮤니케이션을 가능하게 한다.

2025년 5월 9일 오전 2시 26분

OpenAI, o4-mini에 Reinforcement Fine-Tuning (RFT) 출시: 맞춤형 모델 최적화의 한 단계

OpenAI가 o4-mini 추론 모델에 Reinforcement Fine-Tuning (RFT)을 출시했는데, 이는 전문화된 작업에 맞게 기초 모델을 맞춤화하는 강력한 새로운 기술을 소개했다. RFT는 강화 학습의 원칙에 기반을 두고 있으며, 조직이 사용자 정의 목표와 보상 함수를 정의할 수 있어 모델이 향상되는 방식에 대해 상세한 제어를 제공한다.

2025년 5월 8일 오후 11시 58분

메타 AI, 안전한 AI 에이전트 구축을 돕는 보안 가드레일 도구 ‘LlamaFirewall’ 오픈 소스로 공개

Meta AI가 출시한 LlamaFirewall은 AI 에이전트의 보안 위험에 대응하기 위해 시스템 수준의 보안 계층을 제공하는 오픈 소스 가드레일 시스템이다.

2025년 5월 8일 오후 11시 30분

언어 모델에 시각 추가하는 ‘X-Fusion’ 소개하는 UCLA, UW-Madison, Adobe 연구진

UCLA, UW-Madison, Adobe 연구진이 ‘X-Fusion’을 소개하며 언어 모델에 시각 정보를 추가하는 연구를 발표. 텍스트 이해 능력을 잃지 않으면서 시각 정보를 통합하는 AI 모델의 중요성 강조.

2025년 5월 8일 오후 9시 13분

NVIDIA, 32B, 14B, 7B 크기의 오픈 코드 추론 모델 오픈 소스화

NVIDIA가 코드 추론과 문제 해결을 위해 고안된 고성능 대형 언어 모델 세트인 OCR 모델을 Apache 2.0 라이선스로 오픈 소스화했다. 32B, 14B, 7B 버전은 최고 성능을 자랑하며 OAI 모델을 능가하는 벤치마킹 결과를 보였다.

2025년 5월 8일 오전 3시 31분

Hugging Face, NanoVLM 출시: 750줄의 코드로 처음부터 비전-언어 모델 학습 가능한 순수 PyTorch 라이브러리

Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.

2025년 5월 8일 오전 3시 08분

구글, Gemini 2.5 Pro I/O 출시: 코딩에서 GPT-4 Turbo를 앞섬, 네이티브 비디오 이해 지원, 웹 개발 분야 주도

구글이 연례 I/O 개발자 컨퍼런스 직전에 플래그십 AI 모델인 Gemini 2.5 Pro (I/O 에디션)의 초기 미리보기를 공개했다. 이번 버전은 코딩 정확도, 웹 애플리케이션 생성, 비디오 이해 등에서 상당한 향상을 이루었으며, GPT-4 Turbo를 앞서는 성능을 보여주고 있다.

2025년 5월 7일 오후 6시 30분

후단 대학 연구진, 트랜스포머 중첩에 숨겨진 원자적 어텐션 유닛을 복구하는 희소 어텐션 메커니즘 ‘Lorsa’ 소개

후단 대학 연구진은 트랜스포머 모델의 개별 어텐션 헤드를 조사하면서, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이를 확인하는 실험으로 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다.

2025년 5월 7일 오후 2시 07분

Claude를 활용한 지능적인 요청 라우팅 구현 단계별 안내서

이 기사는 Anthropic의 Claude 모델로 구동되는 지능적 라우팅 시스템을 구축하는 방법을 보여줍니다. 이 시스템은 사용자 요청을 자동으로 분류하고 특화된 핸들러로 보내어 응답 효율과 품질을 향상시킵니다.

2025년 5월 7일 오전 12시 39분

웹씽커 소개: 대규모 추론 모델(LRMs)을 위한 자율 검색 및 보고서 생성을 돕는 심층 연구 에이전트

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론에서 놀라운 능력을 보여주지만, 내부 지식에만 의존할 때 복잡한 정보 연구 요구를 해결하는 데 제약이 있습니다. WebThinker는 이러한 한계를 극복하고 다단계 추론 과정을 통해 정확한 과학 보고서를 생성하는데 도움을 줍니다.

2025년 5월 7일 오전 12시 21분

LLMs에서 자동 환각 탐지가 가능할까? 이론적 및 경험적 조사

최근 LLMs의 발전으로 자연어 이해, 추론 및 생성이 크게 향상되었지만, 이 모델들은 종종 환각을 생성하는데, 이는 신뢰성을 저해함. 높은 위험도메인에서 특히 시급하게 대응이 필요함.

2025년 5월 7일 오전 12시 06분

LLMs 이제 최소 대기 시간으로 실시간 대화 가능: 중국 연구진이 확장 가능한 모듈식 음성 언어 모델인 LLaMA-Omni2 공개

중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.

2025년 5월 6일 오후 7시 13분

AgentQL 모델 컨텍스트 프로토콜(MCP) 서버 구현하기

AgentQL은 정확한 정보 형태를 정의함으로써 구조화되지 않은 데이터를 스크래핑할 수 있게 해줍니다. 이 튜토리얼에서는 Claude Desktop 내에 AgentQL MCP 서버를 구현하고, Claude의 내장 시각화 기능을 사용하여 탐색합니다.

2025년 5월 6일 오후 1시 45분

구글, AI 에이전트에 대한 76페이지 화이트페이퍼 발표: 에이전트 RAG, 평가 프레임워크, 현실 세계 아키텍처에 대한 심층 기술 탐구

구글이 AI 에이전트 시스템 개발 전문가를 위한 76페이지 화이트페이퍼를 발표했다. 에이전트 평가, 다중 에이전트 협업, RAG의 진화 등에 중점을 두고 에이전트를 대규모로 운영하는 데 초점을 맞췄다.

2025년 5월 6일 오후 1시 29분

NVIDIA, 파라킷 TDT 0.6B 공개: 음성인식에서 새로운 표준 세우며 오디오 1시간을 1초에 전사

NVIDIA가 파라킷 TDT 0.6B를 공개했다. 이는 6억 개의 파라미터, 상용 허용 라이센스, 놀라운 실시간 요소 (RTF) 3386을 가지고 있어 음성 AI의 성능과 접근성에서 새로운 기준을 세우고 있다.

2025년 5월 6일 오전 1시 47분

OpenAI, 기업 AI 도입을 위한 전략가이드 발표: 현장의 실용적인 교훈

OpenAI가 대규모 AI 배포의 복잡성을 탐색하는 기업을 위한 실용적인 프레임워크를 제시한 ‘AI in the Enterprise’ 24페이지 문서를 발표했다. 보고서는 추상적인 이론보다는 Morgan Stanley, Klarna, Lowe’s, Mercado Libre와의 협업을 통해 얻은 경험을 기반으로한 일곱 가지 실행 전략을 제시한다.

2025년 5월 5일 오후 11시 29분

구글 코랩을 사용하여 그라디오를 이용해 세 가지 안정성 AI 확산 모델(v1.5, v2-베이스 및 SD3-중급)의 확산 능력을 나란히 비교하는 코딩 가이드

구글 코랩과 그라디오 인터페이스를 활용해 안정성 AI의 세 가지 확산 모델을 비교하고 창의적인 이미지 생성하는 방법을 알아본다. 세 강력한 파이프라인을 비교하고 빠른 프롬프트 반복과 GPU 가속을 경험할 수 있다.

2025년 5월 5일 오후 7시 48분

AI 에이전트가 기억을 저장, 잊고, 검색하는 방법? 다음 세대 LLM을 위한 메모리 작업에 대한 새로운 시선

LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.

2025년 5월 5일 오후 7시 26분

8개의 포괄적인 오픈 소스 및 호스팅 솔루션으로 어떤 API든 AI-ready MCP 서버로 원활하게 변환하기

MCP는 AI 에이전트가 일관된 인터페이스를 통해 외부 서비스와 상호 작용할 수 있는 신흥 오픈 표준이다. API마다 사용자 정의 통합을 작성하는 대신, MCP 서버는 클라이언트 AI가 동적으로 발견하고 호출할 수 있는 일련의 도구를 노출한다. 이러한 분리는 API 제공업체가 진화할 수 있음을 의미한다.

2025년 5월 5일 오후 4시 11분

RWKV-X가 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 효율적인 1백만 토큰 디코딩 가능

Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.

2025년 5월 5일 오후 2시 09분

모델 컨텍스트 프로토콜 (MCP)이 AI 에이전트 도구 호출을 표준화, 간소화하고 미래를 대비하는 방법

MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.

2025년 5월 5일 오전 1시 56분

수학을 넘어 강화 학습 확장: NVIDIA AI 및 CMU 연구진, 다중 도메인 추론을 위한 Nemotron-CrossThink 제안

대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.

2025년 5월 5일 오전 1시 31분

다중 모달 쿼리에는 다중 모달 RAG가 필요합니다: KAIST와 DeepAuto.ai 연구원들이 정확하고 효율적인 검색 증강 생성을 위해 모달과 세분성을 동적으로 경로 지정하는 UniversalRAG라는 새로운 프레임워크를 제안합니다

KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.

2025년 5월 4일 오후 11시 33분

Agno의 다중 에이전트 팀 프레임워크를 활용한 종합 시장 분석 및 리스크 보고서용 AI 에이전트 구축

급변하는 금융 환경에서는 전문화된 AI 에이전트를 활용하여 분석의 각 부분을 처리하는 것이 중요하며, Agno의 가벼운 모델에 중립적인 프레임워크는 Finance Agent와 Risk Assessment Agent와 같은 특정 에이전트를 신속하게 구축할 수 있도록 개발자에게 권한을 부여합니다.

2025년 5월 4일 오후 4시 27분

구글 연구진, 진단 AI 발전: AMIE가 Gemini 2.0 Flash와의 다중모달 추론을 사용해 주치의를 능가

구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.

2025년 5월 4일 오후 4시 00분

Meta AI, Llama 모델용 프롬프트 최적화를 위한 Python 툴킷 ‘Llama Prompt Ops’ 출시

Meta AI가 Llama 모델에 맞게 프롬프트를 최적화하는 과정을 간편화하는 Python 패키지 ‘Llama Prompt Ops’를 출시했다. 이 오픈소스 도구는 다른 대형 언어 모델과 잘 작동하는 입력을 Llama에 최적화된 형태로 변환하여 개발자와 연구자가 프롬프트 효과를 향상시키는 데 도움을 준다.

2025년 5월 4일 오전 12시 20분

Claude 데스크톱을 Tavily AI 및 Smithery를 활용한 실시간 웹 검색 및 콘텐츠 추출에 연결하는 단계별 튜토리얼

Claude 데스크톱을 Tavily AI의 Model Context Protocol (MCP) 서버와 Smithery 클라이언트를 사용하여 실시간 웹 검색 및 콘텐츠 추출 기능에 연결하는 방법에 대한 실습 튜토리얼. Tavily 홈페이지 및 대시보드를 살펴보고 개발자 API 키를 생성한 후 Tavily MCP 서버를 탐색하는 과정 포함.

2025년 5월 3일 오후 11시 53분

IBM AI, 그랜ite 4.0 Tiny 미리보기 공개: 긴 문맥과 지시 작업에 최적화된 콤팩트 오픈 언어 모델

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

2025년 5월 3일 오후 9시 36분

Vision Foundation Models: 구현과 비즈니스 응용

이 튜토리얼에서는 비즈니스 응용을 위해 다양한 비전 기반 모델을 구현하는 방법을 탐색합니다. 이론적 측면보다는 실용적인 코드 구현, 기술적 세부사항, 비즈니스 사례에 중점을 둘 것입니다.

2025년 5월 3일 오후 3시 59분

« 이전 1 2 3 4 다음 »