미주투데이

세일즈포스 코드젠 튜토리얼: 유닛 테스트와 안전 점검을 통한 파이썬 함수 생성 및 검증

세일즈포스 코드젠을 활용한 엔드 투 엔드 워크플로우를 구현하는 방법을 소개합니다. 함수 추출, 구문 검사, 정적 안전 점검, 유닛 테스트 검증 등을 포함합니다.

2026년 6월 18일 오후 10시 44분

퍼플렉시티, 자가 개선 메모리 시스템 '브레인' 출시

퍼플렉시티가 자가 개선 메모리 시스템인 '브레인'을 출시했습니다. 이 시스템은 에이전트의 작업을 기억하며, 성과와 실패를 분석해 개선합니다.

2026년 6월 18일 오후 4시 26분

KV 캐시 압축 경쟁: TurboQuant, OSCAR, EpiCache의 대결

KV 캐시가 긴 컨텍스트에서 모델 가중치를 초과하는 상황에서 TurboQuant, OSCAR, EpiCache가 메모리 병목 현상을 해결하기 위해 각기 다른 접근 방식을 취하고 있습니다. 이들은 경쟁보다는 상호 보완적인 관계에 있습니다.

2026년 6월 18일 오전 5시 14분

OpenAI, 생명과학 연구 평가를 위한 750개 작업 벤치마크 LifeSciBench 발표

OpenAI가 생명과학 연구를 평가하는 750개 작업으로 구성된 LifeSciBench를 발표했습니다. 이 벤치마크는 173명의 박사 과학자들이 작성한 기준을 바탕으로 AI 모델의 추론과 결정을 평가합니다.

2026년 6월 17일 오후 10시 28분

NVIDIA SkillSpector 가이드: 정적 분석과 SARIF 보고서를 통한 AI 기술의 보안 위험 스캔

이 튜토리얼에서는 NVIDIA SkillSpector를 사용하여 배포 전 AI 기술의 보안 위험을 평가하는 방법을 소개합니다. 양호한 기술과 의도적으로 취약한 기술을 구축하고, SkillSpector의 LangGraph 워크플로우를 통해 스캔합니다.

2026년 6월 17일 오후 9시 35분

Vercel, 오픈소스 AI 에이전트 프레임워크 'Eve' 공개

Vercel이 Apache-2.0 라이선스의 오픈소스 AI 에이전트 프레임워크 'Eve'를 공개했다. 각 에이전트는 기능에 맞춰 파일 디렉토리로 구성되어 있다.

2026년 6월 17일 오후 1시 22분

MiniMax, 109B 매개변수 MoE 기반의 새로운 희소 주의 메커니즘 MSA 발표

MiniMax가 새로운 희소 주의 메커니즘인 MSA를 발표했습니다. 이 기술은 쿼리당 상위 k 개의 키-값 블록을 선택하여 계산량을 28.4배 줄이는 데 성공했습니다.

2026년 6월 17일 오전 3시 44분

OpenAI, 배포 시뮬레이션 도입으로 에이전틱 코딩의 위험 평가 확대

OpenAI가 2026년 6월 16일 배포 시뮬레이션을 도입했습니다. 이 방법은 새로운 모델 출시 전 과거 대화를 재생하여 배포 시 원치 않는 행동의 비율을 추정합니다.

2026년 6월 17일 오전 1시 49분

메모리 효율적인 트랜스포머 구축하기: xFormers 활용법

xFormers를 이용해 메모리 효율적인 트랜스포머 모델을 구축하는 방법을 소개합니다. GPU에서 빠르고 효율적인 모델을 구현하며, 다양한 기술적 요소를 검토합니다.

2026년 6월 16일 오후 8시 02분

Qwen-RobotSuite: VLA 조작 및 내비게이션을 위한 세 가지 AI 모델 소개

Qwen 팀의 새로운 Qwen-RobotSuite는 조작, 비디오 세계 모델링, 내비게이션을 위한 세 가지 AI 모델을 포함합니다. 각 모델의 구조와 데이터 파이프라인, 벤치마크 결과를 살펴봅니다.

2026년 6월 16일 오후 12시 51분

헤르메스 에이전트, 비동기 서브 에이전트 추가로 부모 채팅 차단 해제

헤르메스 에이전트가 비동기 서브 에이전트를 도입하여 위임된 작업이 부모 채팅을 차단하지 않도록 개선했습니다. 새로운 도구 세트를 통해 작업을 생성하고 관리하는 방법을 소개합니다.

2026년 6월 16일 오전 5시 21분

AI 에이전트를 활용한 노코드 앱 개발 도구, 'Meet Atoms' 소개

'Meet Atoms'는 개발자나 소프트웨어 엔지니어가 아니더라도 아이디어를 AI에게 설명하면 앱을 구축하고 배포할 수 있는 노코드 도구입니다.

2026년 6월 16일 오전 4시 50분

구글 클라우드, AI 에이전트를 위한 개방형 지식 포맷(OKF) 발표

구글 클라우드가 AI 에이전트를 위한 개방형 지식 포맷(OKF)을 소개했습니다. 이 포맷은 마크다운 파일과 YAML 프론트매터로 구성된 디렉토리를 통해 AI에 필요한 맥락을 제공합니다.

2026년 6월 16일 오전 4시 18분

Docling Parse를 활용한 레이아웃 인식 문서 지능 파싱 파이프라인 구축 방법

이 튜토리얼에서는 Docling Parse를 사용하여 PDF 문서를 구조적으로 분석하는 워크플로우를 구축하는 방법을 소개합니다. Python 환경 설정부터 PDF 생성, 데이터 추출까지의 과정을 다룹니다.

2026년 6월 16일 오전 3시 20분

사카나 AI, AB-MCTS 상용화로 100페이지 연구 보고서 생성하는 기업 에이전트 출시

사카나 AI의 첫 상용 제품인 사카나 마를린은 최대 8시간 동안 자율적으로 작동하며, AB-MCTS와 AI 과학자 워크플로우를 기반으로 다수의 페이지로 구성된 보고서와 슬라이드를 생성합니다.

2026년 6월 15일 오후 6시 32분

Flash-KMeans: FAISS보다 200배 빠른 IO 인식 K-평균 알고리즘

Flash-KMeans는 Triton GPU 커널을 활용한 오픈소스 IO 인식 K-평균 구현체로, 기존의 수학적 접근을 변경하지 않고도 FAISS보다 200배 빠른 성능을 자랑합니다.

2026년 6월 15일 오전 5시 16분

Z.ai, 100만 토큰 컨텍스트와 두 가지 사고 노력 수준을 갖춘 GLM-5.2 출시

Z.ai가 2026년 6월 13일 GLM-5.2를 출시했습니다. 이 모델은 100만 토큰의 컨텍스트 창을 제공하며, 높은 노력과 최대 노력 수준을 지원합니다. 출시 시점에는 벤치마크가 제공되지 않았습니다.

2026년 6월 15일 오전 2시 10분

클로드 코드 가이드 2026: 25가지 기능과 예제

클로드 코드는 단일 채팅 프롬프트가 아닌 계층적 에이전트 코딩 도구입니다. 이 가이드는 25가지 기능을 설명하며, 비교표와 코드 예제, 실제 사용 사례, 인터랙티브 데모를 포함하고 있습니다.

2026년 6월 14일 오후 9시 04분

FineWeb 데이터셋을 활용한 스트리밍 및 필터링 실습

이번 튜토리얼에서는 FineWeb 데이터셋을 활용한 고급 실습 과정을 소개합니다. 전체 데이터셋을 다운로드하지 않고도 샘플을 스트리밍하며, 주요 필드를 분석합니다.

2026년 6월 14일 오후 4시 45분

다트브릭스, AI 에이전트를 위한 메타 하네스 '옴니젠트' 오픈 소스 공개

다트브릭스가 코딩 에이전트인 클로드 코드, 코덱스, 파이 위에서 작동하는 메타 하네스 '옴니젠트'를 오픈 소스로 공개했습니다. 이 프로젝트는 구성, 정책 관리, 실시간 세션 공유 기능을 제공합니다.

2026년 6월 14일 오전 1시 01분

최신뉴스 전체보기

“솔루션 중심 AI 기업이 승리하는 이유: ‘그냥 래퍼’가 되는 것도 괜찮아”

AI 산업에서 성공적인 스타트업은 기반이 되는 기술을 처음부터 구축해야 한다는 고정관념에 대해 논의하며, 대규모 언어 모델(GPT 또는 Claude와 같은) 위에 기반을 둔 기업들의 중요성을 강조한다.

2025년 7월 29일 오전 4시 38분

AI 시스템 보호: NVIDIA의 오픈소스 안전 레시피

대형 언어 모델이 단순 텍스트 생성기에서 계획 수립, 추론, 자율 조치가 가능한 시스템으로 진화함에 따라 능력과 관련 위험이 증가하고 있다. 기업들이 자동화를 위해 AI를 채택하면서 목표 불일치, 프롬프트 주입, 의도치 않은 행동, 데이터 누출과 같은 새로운 도전에 직면하게 된다.

2025년 7월 29일 오전 1시 58분

2025년에 사용해야 할 9가지 오픈 소스 커서 대안

2025년에는 오픈 소스 대안이 상업용 솔루션과 견줄만한 기능, 유연성, 개인 정보 보호를 제공하여 AI 기반 코딩 도구에 대한 수요가 급증했다. Zed와 같은 강력하고 비용 효율적이며 오픈 소스 코드 어시스턴트를 찾는다면 이 추천 목록을 고려해보세요.

2025년 7월 29일 오전 12시 33분

아마존, 관련 뉴런만 활성화시켜 추론 시간 30% 단축하는 AI 아키텍처 개발

아마존 연구진이 뇌가 특정 작업을 위해 특수 영역을 사용하는 것과 유사하게 작업 관련 뉴런만 선택하여 추론 시간을 30% 단축하는 새로운 AI 아키텍처를 개발했다. 이 혁신적인 방법은 대규모 AI 모델이 직면한 가장 큰 문제 중 하나인 모든 요청마다 모든 뉴런을 활성화하는 데 필요한 계산 비용과 지연 시간을 해결한다.

2025년 7월 29일 오전 12시 03분

Microsoft Edge, AI 시대를 위한 코파일럿 모드 출시

Microsoft가 Edge에서 코파일럿 모드를 출시하면서 AI 네이티브 브라우저로 나아가며 웹 브라우징의 미래를 재정립했다. 브라우저의 새로운 가능성을 열었다.

2025년 7월 28일 오후 4시 26분

LLM을 활용한 지식 그래프 생성

이 튜토리얼에서는 LLM을 사용하여 비구조화된 문서에서 지식 그래프를 생성하는 방법을 보여줍니다. 기존의 NLP 방법론은 엔티티와 관계를 추출하는 데 사용되었지만, GPT-4o-mini와 같은 Large Language Models (LLMs)는 이 과정을 보다 정확하고 문맥에 맞게 만듭니다. LLMs는 난잡하고 비구조화된 데이터 작업 시 특히 유용합니다. 파이썬을 사용합니다.

2025년 7월 28일 오후 4시 07분

Zhipu AI, GLM-4.5 시리즈 공개: 하이브리드 추론으로 오픈소스 에이전틱 AI 재정의

Zhipu AI가 공개한 GLM-4.5 시리즈는 통합된 에이전틱 능력과 오픈 액세스에 높은 기준을 제시하여 추론과의 간극을 줄이고 있다. GLM-4.5 및 GLM-4.5-Air은 인공지능 기반 모델의 경관을 빠르게 변화시키고 있다.

2025년 7월 28일 오후 1시 17분

미국 백악관, 글로벌 AI 경쟁 주도를 위한 대담한 전략인 AI Playbook 발표

백악관이 미 AI 액션 플랜이라는 AI Playbook을 발표했는데, 이는 미국이 인공지능에 올인하고 있다는 것을 명확히 해준다. 실리콘밸리, 포춘 500 기업, 정부 기관을 이끄는 사람이든, 메시지는 명료하다: AI를 신속히 확장하고 발전시켜야 한다.

2025년 7월 27일 오후 7시 11분

Nomic 임베딩과 Gemini LLM을 활용한 맥락 인식 멀티 에이전트 AI 시스템 구축

이 튜토리얼에서는 Nomic 임베딩과 Google의 Gemini를 활용한 고급 AI 에이전트 시스템의 완전한 구현 과정을 안내합니다. 우리는 의미 기억, 맥락적 추론, 멀티 에이전트 조정을 하나의 지능적 프레임워크로 통합하는 아키텍처를 처음부터 설계합니다.

2025년 7월 27일 오후 5시 40분

VLM2Vec-V2: 이미지, 비디오 및 시각 문서 간의 다중 모달 임베딩 학습을 위한 통합 컴퓨터 비전 프레임워크

VLM2Vec-V2는 이미지, 비디오, 시각 문서 등 다양한 데이터 형식을 공유된 밀집 표현 공간으로 인코딩하여 다중 모달 정보를 전달하는 임베딩 모델이다. 최근 대규모 기초 모델의 발전으로 임베딩 모델이 발전해왔지만, 기존 다중 모달 임베딩 모델은 MMEB 및 M-BEIR과 같은 데이터셋에서 훈련되었고 대부분의 초점이 이미지나 동영상에만 집중되어왔다.

2025년 7월 27일 오후 5시 10분

성공적인 MCP 구현과 채택을 이끄는 주요 요소

MCP는 인공지능 에이전트가 백엔드 서비스, 응용 프로그램 및 데이터와 상호 작용하는 방식을 변화시키고 있다. 성공적인 MCP 구현 프로젝트는 프로토콜 준수 코드 작성 이상의 요소에 달려있다. 체계적인 채택은 아키텍처, 보안, 사용자 경험 및 운영 엄격성을 포함한다. MCP 프로젝트가 가치를 제공하고 제품 생산에서 탄력성을 보장하는 필수 구성 요소에 대한 데이터 기반 조망이 제시된다.

2025년 7월 27일 오전 5시 39분

NVIDIA AI 개발팀, Llama Nemotron Super v1.5 출시: 추론 및 에이전틱 AI에서 새 기준 설정

NVIDIA의 최신 릴리스인 Llama Nemotron Super v1.5은 추론 및 에이전틱 작업에 특히 뛰어난 성능과 사용성을 제공하여 모델이 어디까지 이끌 수 있는지에 대한 경계를 넘는 AI 발전을 이끌고 있다.

2025년 7월 27일 오전 4시 21분

복잡한 작업 자동화를 위한 다중 노드 그래프 기반 AI 에이전트 프레임워크 구축

구글 젬니 API를 활용한 고급 그래프 에이전트 프레임워크 개발 가이드. 각 노드는 입력 수행, 논리 처리, 결정 등을 나타내며 상호 연결된 구조로 작업을 실행하는 지능적인 다단계 에이전트를 구축하는 것이 목표.

2025년 7월 27일 오전 1시 35분

왜 맥락이 중요한가: 맥락화된 쿼리로 AI 모델 평가 변환

언어 모델 사용자들은 종종 자신이 원하는 것을 명확히 설명하지 않아 이해하기 어려워한다. 현재의 평가 방법은 종종 모델이 사용자의 백그라운드 지식에 따라 다르게 대답해야하는 질문에 대처하기 어렵다.

2025년 7월 27일 오전 1시 24분

GenSeg: Generative AI가 초저 데이터 환경에서 의료 이미지 세분화 변형

의료 이미지 세분화는 현대 의료 AI의 핵심이며 질병 감지, 진행 모니터링, 맞춤형 치료 계획 등 필수적인 작업을 가능케 한다. 그러나 특히 피부과, 영상의학, 심장병학과 같은 분야에서 정확한 세분화의 필요성이 절실하다. GenSeg는 초저 데이터 환경에서 의료 이미지 세분화를 혁신하는 연구이다.

2025년 7월 27일 오전 1시 07분

대규모 추론 모델의 다중 문제 추론을 평가하는 스트레스 테스트 프레임워크 REST

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론과 같은 다양한 영역에서 복잡한 문제 해결 작업에 강력한 성능을 보여주고 있지만, 현재의 평가 방법은 주로 단일 문제 테스트에 초점을 맞추어 한계를 드러냅니다. 이 기사는 LRMs를 격리된 문제 해결 영역을 넘어서게 하는 새로운 다중 문제 스트레스 테스트 프레임워크 REST를 소개합니다.

2025년 7월 26일 오후 5시 39분

URBAN-SIM: 스케일러블 도시 시뮬레이션을 통해 자율 미크로 모빌리티 발전

미크로 모빌리티 솔루션은 도시 내 짧은 거리 이동을 혁신하고 있으며, 인간의 제어에 의존하는 기기들의 효율성 및 안전성 문제를 해결하기 위해 스케일러블 도시 시뮬레이션을 활용한 자율 미크로 모빌리티 기술이 발전 중이다.

2025년 7월 26일 오후 5시 19분

2025년 AI 에이전트를 변화시키는 메모리: 통찰과 선도 솔루션

메모리의 중요성은 AI 에이전트에서 과소평가될 수 없다. 인공지능이 단순한 통계 모델에서 자율 에이전트로 성숙해갈수록 기억, 학습, 적응 능력이 기본적인 능력이 된다. 메모리는 기본 반응형 봇과 유연하고 인간과 유사한 상호작용과 의사결정을 지원할 수 있는 문맥을 인식하는 디지턀 개체를 구분짓는다.

2025년 7월 26일 오전 6시 54분

NVIDIA AI, 로봇공학을 위한 6-DOF 그라스핑을 위한 확산 기반 프레임워크인 GraspGen 발표

NVIDIA의 GraspGen은 새로운 확산 기반 그라스핑 프레임워크로, 강력하고 일반적인 6-DOF 그라스핑을 위한 SOTA 성능을 약속하며 산업 피킹부터 서비스 및 인간형 로봇까지 다양한 분야에 중요한 자동화 및 조작 작업을 제공한다.

2025년 7월 26일 오전 6시 11분

Google DeepMind, Aeneas 소개: 고대 라틴 문장의 AI 기반 맥락화 및 복원

에핑래피 디시플린은 고대 로마 세계를 이해하는 데 중요한 근거를 제공하는데, 구체나 금속과 같은 내구성 재료에 기록된 텍스트를 연구하는데 초점을 맞추고 있습니다. 그러나 단편적인 문장, 불확실한 연대, 다양한 지리적 유래, 약어의 널리 쓰임, 17만 6천개가 넘는 라틴 문장의 큰 말뭉치 등이라는 여러 어려움에 직면하고 있습니다.

2025년 7월 26일 오전 4시 28분

GPU 가속 Ollama LangChain 워크플로우 구축하기: RAG 에이전트, 멀티 세션 채팅 성능 모니터링

이 튜토리얼에서는 Ollama와 LangChain을 통합하는 GPU 지원 로컬 LLM 스택을 구축한다. 필요한 라이브러리를 설치하고 Ollama 서버를 실행하며 모델을 끌어와 커스텀 LangChain LLM으로 랩핑하여 온도, 토큰 제한, 컨텍스트를 제어할 수 있다. PDF 또는 텍스트를 소화하는 Retrieval-Augmented Generation 레이어를 추가한다.

2025년 7월 26일 오전 1시 58분

RoboBrain 2.0: 고급 로봇공학을 위한 신세대 비전-언어 모델

인공지능의 발전으로 현실 세계와 디지털 추론 간의 간극이 점점 좁아지고 있는 가운데, 신체적 AI는 로봇이 물리적 환경에서 효과적으로 지각, 추론 및 행동할 수 있도록 하는 분야다. 산업들이 가정부터 물류까지 복잡한 공간 및 시간 작업을 자동화하려는 가운데 AI 시스템을 보유하는 것이 중요하다.

2025년 7월 26일 오전 1시 43분

EraRAG: 동적 및 성장하는 말뭉치를 위한 확장 가능한 다층 그래프 기반 검색 시스템

대형 언어 모델은 자연어 처리의 여러 영역을 혁신적으로 바꿨지만 최신 사실, 도메인 특정 정보 또는 복잡한 다중 점프 추론과 관련된 한계에 직면한다. EraRAG는 외부 소스에서 정보를 검색하고 통합할 수 있도록 허용하여 이러한 공백을 해결하려는 노력이다.

2025년 7월 25일 오후 8시 57분

LLMs에서 효율적인 데모 선택을 위한 사전 선택 프레임워크 FEEDER

LLMs는 소량의 추론을 활용하여 여러 작업에서 우수한 성능을 보여주었지만, 대규모 훈련 데이터셋에서 대표적인 데모를 선택하는 것이 주요 문제다. FEEDER는 유사도 점수를 사용하여 관련성에 따라 데모를 선택하는 초기 방법과 추가적인 선택을 제안하는 현재 방법을 개선하였다.

2025년 7월 25일 오후 8시 04분

알리바바 Qwen, Qwen3-MT 소개: 강화학습으로 구동되는 차세대 다국어 기계 번역

알리바바가 Qwen API를 통해 Qwen3-MT(큐언 엠티터보)를 소개했다. 이는 언어 장벽을 뛰어넘는 놀랍도록 정확하고 빠르며 유연한 최신 기계 번역 모델로, 92개 이상의 언어를 지원하며 전 세계 인구의 95% 이상을 커버한다. 최신 아키텍처, 강화 학습, 풍부한 맞춤 옵션을 활용하여 뛰어난 성능을 보여준다.

2025년 7월 25일 오전 3시 09분

DualDistill 및 Agentic-R1: AI가 자연어와 도구 사용을 결합하여 우수한 수학 문제 해결 능력을 갖는 방법

최신의 장기 CoT 추론 모델은 반복적인 자가 확인과 정제를 통해 추론 궤적을 생성함으로써 수학적 추론에서 최첨단 성능을 달성했습니다. 그러나 오픈 소스 장기 CoT 모델은 자연어 추론 트레이스에만 의존하므로 계산 비용이 많이 들고 검증 메커니즘이 없어 오류가 발생할 수 있습니다. 도구 지원 추론은 대규모 숫자 계산에 대해 효율성과 신뢰성을 제공합니다.

2025년 7월 25일 오전 12시 05분

Unsupervised System 2 Thinking: 에너지 기반 트랜스포머를 활용한 기계 학습의 다음 진화

인공지능 연구는 패턴 인식을 넘어서 인간과 유사한 복잡한 추론이 가능한 시스템으로 진화하고 있다. Energy-Based Transformers (EBTs)는 도메인 특정 감독이나 제한적인 교육 신호에 의존하지 않고 기계에 “System 2 Thinking”을 가능하게 하는 신경 구조로, 기계 학습의 다음 단계로 손꼽힌다.

2025년 7월 24일 오후 11시 51분

Prolog 논리와 Gemini, LangGraph를 활용한 ReAct 에이전트 도구 구축 코딩 가이드

본 튜토리얼에서는 상징적 논리와 생성적 AI를 융합하는 방법을 안내합니다. PySwip를 설정하여 Prolog 지식베이스를 포함시키고, LangChain 도구로 묶은 후, 모든 것을 ReAct-스타일의 에이전트로 연결합니다. 이 과정에서 가족 관계 규칙, 팩토리얼과 같은 수학적 술어, 리스트 유틸리티를 만들어갑니다.

2025년 7월 24일 오후 7시 08분

GitHub가 Spark를 활용한 Vibe Coding을 소개: 지능형 앱 개발을 순식간에 혁신

GitHub의 새로운 도구인 Spark는 전체 스택 지능형 애플리케이션을 빌드하고 배포하는 방식을 혁신하고자 만들어졌다. Spark를 사용하면 Copilot Pro+ 구독자를 대상으로 한 공개 미리보기에서 아이디어부터 완전히 배포된 앱까지 몇 분만에 구현할 수 있으며, 자연어 프롬프트를 사용하여 전통적인 방식 없이 작업할 수 있다.

2025년 7월 24일 오후 3시 43분

LSM-2를 도입한 Google 연구자들: 불완전한 웨어러블 데이터로부터 직접 학습 가능하게 함

웨어러블 기기는 건강 모니터링을 변화시키고 있지만, 센서 고장, 장치 제거, 충전, 움직임 아티팩트 등으로 데이터 손실이 발생한다. LSM-2는 이러한 불완전한 데이터로부터 직접 학습할 수 있게 해준다.

2025년 7월 24일 오전 5시 02분

2025년 확장 가능한 AI 통합을 위한 7가지 MCP 서버 베스트 프랙티스

조직이 AI 기반 워크플로에 서비스를 노출시키면서 개발 경험, 성능, 보안을 유지하기 위해 MCP 서버가 중요해졌다. 견고한 MCP 서버를 구축, 테스트, 패키징하기 위한 7가지 데이터 기반 베스트 프랙티스 소개.

2025년 7월 24일 오전 2시 45분

AI 논문 소개: AI가 생각하는 대로 도구를 작성하는 Python 중심 프레임워크 PyVision

PyVision은 인식과 논리적 추론을 사용해 시각 정보를 해석하는 인공지능 모델을 도와주는 프레임워크로, 의료 진단, 시각 수학, 상징적 퍼즐 및 이미지 기반 질문 응답 등 여러 응용 분야에 활용될 수 있습니다. 객체 인식뿐만 아니라 동적 적응, 추상화 및 문맥 추론 능력을 요구합니다.

2025년 7월 24일 오전 2시 17분

GPT-4o는 텍스트를 이해하지만 명확하게 보일까요? 시각 작업에 대한 MFMs의 벤치마킹 연구

MFMs인 GPT-4o, Gemini, Claude와 같은 다중 모달 기반 모델들은 최근 빠른 발전을 보이고 있으나 시각 정보를 이해하는 능력은 여전히 불분명하다. 현재 사용되는 대부분의 벤치마크는 VQA나 분류와 같은 텍스트 중심 작업에 중점을 두고 있어 시각적 정보를 반영하지 못하는 한계가 있다.

2025년 7월 24일 오전 2시 07분

SYNCOGEN: 그래프 및 좌표 모델링을 통한 합성 가능한 3D 분자 생성을 위한 머신러닝 프레임워크

SYNCOGEN은 합성 가능한 분자 생성의 어려움을 해결하기 위한 머신러닝 프레임워크로, 신약 발견 분야에서 새로운 화합물을 빠르게 탐색하는 것을 돕는다. 하지만 많은 AI 생성 분자는 실험실에서 합성하기 어려워 실용적 가치를 제한하는데, SYNCOGEN은 이 문제를 극복하기 위해 그래프와 좌표 모델링을 결합한다.

2025년 7월 23일 오후 9시 20분

LangChain을 효율적으로 활용하는 코드 구현으로 PubMed 문헌 검색, 구문 분석, 트렌드 시각화 자동화

이 튜토리얼에서는 생명 과학 문헌을 쿼리하고 분석하는 간소화된 파이프라인을 구축하는 Advanced PubMed Research Assistant를 소개합니다. PubmedQueryRun 도구를 활용하여 “CRISPR 유전자 편집”과 같은 타겟 검색을 수행하고 결과를 구문 분석, 캐싱하여 탐색하는 방법에 초점을 맞춥니다.

2025년 7월 23일 오후 9시 02분

아마존 연구원들이 밝힌 Mitra: 합성 사전을 활용한 타블러 기계 학습 발전

아마존 연구원들이 Mitra를 발표했다. Mitra는 타블러 데이터용으로 특별히 설계된 첨단 기반 모델로, 각 데이터셋마다 특별한 모델을 맞춤 제작하는 전통적 방법과 달리, 인-컨텍스트 학습(ICL)과 합성 데이터 사전학습을 활용하여 타블러 기계 학습 벤치마크에서 최첨단 성능을 달성한다. Mitra는 AutoGluon 1.4에 통합되어 강력한 일반화를 제공하며 혁신적인 기능을 제공한다.

2025년 7월 23일 오후 6시 59분

AI 가드레일 및 신뢰할 수 있는 LLM 평가: 책임감 있는 AI 시스템 구축

대형 언어 모델(Large Language Models, LLMs)의 능력과 배포 규모가 증가함에 따라 의도하지 않은 행동, 환각, 해로운 결과물의 위험이 증가하고 있다. AI 통합이 증가하면서 강건한 안전 메커니즘이 필요한데, 이는 의료, 금융, 교육, 국방 분야에 확대되고 있다. 기술적 및 절차적인 통제를 보장하는 AI 가드레일이 그 역할을 한다.

2025년 7월 23일 오전 5시 07분

Qwen, 그들의 가장 강력한 오픈 에이전트 코드 모델인 Qwen3-Coder-480B-A35B-Instruct를 공개

Qwen은 새로운 Mixture-of-Experts 아키텍처와 포괄적인 에이전트 코딩 기능을 갖춘 Qwen3-Coder를 발표했다. 이 모델은 오픈 소스 코딩 모델의 새 기준을 제시하며 대규모 자율 개발자 지원의 가능성을 재정의한다.

2025년 7월 22일 오후 11시 52분

생산용 앱에 준비가 되었는가? 바이브 코딩을 통한 제작을 살펴보는 중, 레플릿 사건

바이브 코딩은 전통적인 코드 작성 대신 대화형 AI를 통해 애플리케이션을 구축하는 것으로, Replit과 같은 플랫폼이 이러한 트렌드를 적극적으로 선전하고 있습니다. 이 방식의 약속은 소프트웨어 제작의 민주화, 신속한 개발 주기, 코딩 경험이 거의 없는 사람들에게도 접근성을 제공하는 것입니다.

2025년 7월 22일 오후 6시 40분

가벼운 Hugging Face 모델을 활용한 다재다능한 멀티툴 AI 에이전트 구축

이 튜토리얼에서는 Hugging Face transformers를 활용하여 원활하게 작동하는 소형이지만 능력있는 AI 에이전트를 설정하는 방법을 설명합니다. 대화 생성, 질의응답, 감정 분석, 웹 검색 스텁, 날씨 조회, 안전한 계산기를 하나의 Python 클래스에 통합합니다. 중요한 라이브러리만 설치하고 가벼운 모델을 로드하며 진행합니다.

2025년 7월 22일 오후 5시 43분

AI 에이전트를 위한 컨텍스트 엔지니어링: 마누스로부터의 주요 교훈

Manus 프로젝트에서 밝혀낸 것처럼, 효과적인 AI 에이전트를 구축하는 것은 강력한 언어 모델을 선택하는 것 이상을 의미합니다. “컨텍스트 엔지니어링”은 AI가 결정을 내리기 위해 처리하는 정보인 컨텍스트를 설계하고 관리하는 방식이 중요합니다. 컨텍스트 엔지니어링은 에이전트의 속도, 비용, 신뢰성, 지능에 직접적인 영향을 미칩니다.

2025년 7월 22일 오후 3시 09분

2025년 최고 15+ 가장 저렴한 프록시 제공업체

2025년에 글로벌 프록시 시장이 급속히 확장되고 있으며, 산업은 2.5조 달러로 평가되며 주거용 프록시에 대한 폭발적인 수요, AI를 위한 실시간 데이터 수집, 클라우드 기반 프록시 서비스의 성장 등으로 18%의 견고한 연평균 성장률을 나타냅니다.

2025년 7월 22일 오전 3시 27분

바이브 코딩의 궁극적인 안내서: 혜택, 도구 및 미래 트렌드

2025년, 바이브 코딩은 인공지능을 활용해 코드 작성을 빠르고 직관적으로 만들어 거의 누구에게 접근 가능하게 하며 소프트웨어 환경을 재정의하고 있다. 이 트렌드는 기술적 노하우뿐만 아니라 창의력과 자연어, 즉 ‘바이브’에 의해 주도되는 새로운 시대를 열고 있다.

2025년 7월 22일 오전 2시 46분

WrenAI 만나보기: 자연어 데이터 분석을 위한 오픈 소스 AI 비즈니스 인텔리전스 에이전트

WrenAI는 Canner가 개발한 오픈 소스 Generative Business Intelligence (GenBI) 에이전트로, 구조화된 데이터와 자연어 상호작용을 가능케 하는 것을 목표로 한다. SQL 작성 없이 데이터 쿼리, 분석, 시각화를 위한 도구를 제공하며, 모든 기능과 통합은 공식 문서와 최신 릴리스에 대해 검증된다.

2025년 7월 21일 오후 6시 26분

알리바바의 AI 논문, Lumos-1 소개: MM-RoPE 및 AR-DF를 활용한 통합 자기 회귀 비디오 생성기

자기 회귀 비디오 생성은 영상 합성에 초점을 맞추며 공간 배열과 시간 역학의 학습된 패턴을 사용하여 프레임별로 비디오를 생성하는 것이다. 이 논문은 MM-RoPE 및 AR-DF를 활용한 Lumos-1이라는 통합 자기 회귀 비디오 생성기를 소개한다.

2025년 7월 21일 오후 3시 43분

TikTok 연구원들, 저장소 수준 코드 성능 최적화를 위한 최초의 벤치마크 ‘SWE-Perf’ 소개

TikTok과 협력 기관의 연구원들이 소프트웨어 엔지니어링 작업에서 대형 언어 모델(LLMs)이 성능 최적화를 어떻게 하는지를 평가하는 데 특히 저장소 수준에서 처음으로 설계된 벤치마크 ‘SWE-Perf’를 소개했다.

2025년 7월 21일 오전 4시 56분

Allen Institute for AI-Ai2가 AutoDS를 발표: 개방형 과학적 발견을 위한 베이지안 서프라이즈 주도 엔진

Allen Institute for AI가 AutoDS(자율적 발견을 통한 서프라이즈)를 소개했는데, 이는 인간이 정의한 목표나 질의에 의존하지 않고 베이지안 서프라이즈를 측정하고 찾아내는 가치 있는 가정을 자동으로 생성, 테스트 및 반복함.

2025년 7월 21일 오전 3시 38분

Gemini AI-Powered Validation 및 피드백으로 스마트 Python-to-R 코드 변환기 구축하기

이 튜토리얼에서는 Google의 무료 Gemini API를 활용하여 지능적인 Python-to-R 코드 변환기를 만드는 방법에 대해 탐구합니다. Python 함수, 라이브러리 및 구문 패턴을 가장 유사한 R로 매핑하고 Gemini AI를 활용하여 코드 품질을 평가합니다.

2025년 7월 21일 오전 12시 26분

MIRIX: LLM 기반 에이전트의 향상된 장기 추론과 개인화를 위한 모듈식 멀티 에이전트 메모리 시스템

LLM 기반 에이전트의 장기 추론 및 개인화를 강화하기 위해 모듈식 멀티 에이전트 메모리 시스템인 MIRIX가 소개되었다. 이 시스템은 사용자별 정보를 지속적으로 저장, 회상하고 추론하는 능력을 향상시켜 LLM 기반 에이전트들이 단일 프롬프트 이상의 컨텍스트를 구축할 수 있도록 도와준다.

2025년 7월 20일 오후 10시 00분

LLM 보상 모델을 신뢰할 수 있을까? 마스터-RM이 그들의 약점을 드러내고 해결한다

대규모 언어 모델(LLM)이 평가자로 작용하는 생성적 보상 모델은 검증 가능한 보상을 통한 강화 학습에서 주목받고 있다. 이 모델들은 열린 답변이나 복잡한 응답이 필요한 작업에 대해 엄격한 규칙 대신 후보 응답을 기준 답변과 비교하고 이진 피드백을 생성한다. 그러나 이러한 모델들은 일부 약점을 가지고 있는데, 이를 드러내고 해결하는 마스터-RM이 등장했다.

2025년 7월 20일 오후 7시 32분

기업을 위한 모델 컨텍스트 프로토콜 (MCP): AWS, Azure 및 Google Cloud와 안전한 통합 – 2025 업데이트

Anthropic이 2024년 11월 오픈 소스로 공개한 모델 컨텍스트 프로토콜 (MCP)은 기업 환경에서 AI 에이전트를 도구, 서비스 및 데이터에 연결하는 크로스 클라우드 표준으로 빠르게 자리매김했다. MCP는 AWS, Azure, Google Cloud와의 안전한 통합을 제공하며, 주요 클라우드 업체와 선두 AI 제공업체들이 MCP 통합을 출시하고 독립 플랫폼이 생태계를 빠르게 확장하고 있다.

2025년 7월 20일 오전 5시 29분

NVIDIA AI, OpenReasoning-Nemotron 출시: DeepSeek R1 0528에서 유래된 추론 강화 LLMs 스위트

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.

2025년 7월 20일 오전 12시 38분

물리학 기반 AI가 옳은 접근일지도: 인공지능의 기초 재방문

최근 10년간 딥러닝이 인공지능을 혁신시켰지만 데이터 효율성, 분포 변화에 대한 강건함, 고 에너지 수요, 물리 법칙에 대한 얕은 이해 등의 한계가 드러나고 있다. 기후 예측부터 의학에 이르기까지 중요한 분야로 AI 채택이 확대되면서 이러한 제약이 중요해지고 있다.

2025년 7월 20일 오전 12시 02분

형 안전성과 핫 리로딩을 갖춘 현대적인 비동기 구성 관리 시스템 구축

이 튜토리얼에서는 Python을 위한 현대적이고 비동기 중심의 구성 관리 라이브러리인 AsyncConfig의 설계와 기능에 대해 안내합니다. 데이터 클래스 기반 구성 로딩, 환경 변수, 파일, 사전과 같은 다양한 구성 소스 지원, 그리고 watchdog를 사용한 핫 리로딩을 포함한 강력한 기능을 지원하기 위해 처음부터 구축합니다.

2025년 7월 19일 오후 11시 43분

Deep Research Agents: LLM 기반 자율 연구 시스템의 체계적인 로드맵

리버풀 대학, 화웨이 노아아크 랩, 옥스포드 대학 및 런던 대학 연구진이 소개하는 Deep Research Agents(DR 에이전트)는 대형 언어 모델(LLM)을 기반으로 한 자율 연구 시스템으로, 동적 추론, 적응 등을 필요로 하는 복잡하고 장기적인 작업을 수행할 수 있도록 설계되었다.

2025년 7월 19일 오후 7시 20분

MemAgent: LLMs에서 장문 처리 재정의하는 강화 학습 프레임워크

MemAgent는 장문 처리를 위해 설계된 강화 학습 기반 메모리 에이전트로, LLMs에서 발생하는 성능 하락과 컴퓨팅 비용 문제를 해결하기 위해 ByteDance Seed와 Tsinghua University 연구진이 소개했다.

2025년 7월 19일 오후 6시 56분

2025년 AI 에이전트: 아키텍처, 프레임워크 및 실제 응용 프로그램에 대한 완전 가이드

AI 에이전트는 환경을 인식하고 데이터를 해석하며 목표를 달성하기 위해 행동을 실행하는 자율 소프트웨어 시스템이다. 전통적인 자동화와는 달리, AI 에이전트는 의사 결정, 학습, 메모리, 다단계 계획 능력을 통합하여 복잡한 실제 과제에 적합하다.

2025년 7월 19일 오전 3시 55분

LangGraph와 Gemini를 활용한 자동 보고를 위한 Multi-Agent AI 연구팀 구축

LangGraph와 Google의 Gemini API를 사용하여 Researcher, Analyst, Writer, Supervisor 역할을 하는 다중 에이전트 연구팀 시스템을 구축하였다. 이들 에이전트는 데이터 수집, 인사이트 분석, 보고서 요약 및 워크플로우 조정을 협업적으로 수행한다.

2025년 7월 19일 오전 3시 06분

AI 논문 소개: 컨텍스트 인식 및 맞춤형 추천을 위한 다중 에이전트 RAG 프레임워크 ARAG

사용자 선호에 부합하는 콘텐츠, 제품 또는 서비스를 제공하기 위해 과거 행위, 상호작용 및 패턴을 분석하여 사용자가 관련성을 느낄 것으로 예측하는 맞춤형 추천이 중요해졌다. ARAG는 컨텍스트 인식과 개인화된 추천을 위한 다중 에이전트 RAG 프레임워크로 소개된다.

2025년 7월 19일 오전 2시 58분

데이터를 공유할 필요 없이 언어 모델을 훈련시킬 수 있습니다 – FlexOlmo가 보여줍니다

FlexOlmo는 데이터를 공유하지 않고도 대규모 언어 모델을 개발할 수 있는 방법을 제시하며, 공개되지 않거나 제한이 있는 데이터셋에 대한 의존성을 줄입니다.

2025년 7월 18일 오후 8시 16분

Mirascope를 사용한 사고 연쇄 추론과 o1 스타일 사고

Mirascope 라이브러리와 Groq의 LLaMA 3 모델을 사용하여 Chain-of-Thought (CoT) 추론을 구현하는 방법을 살펴본다. 모델이 직접 답변으로 이동하는 대신, CoT 추론은 문제를 논리적인 단계로 분해하도록 유도하여 사람이 해결하는 방식과 유사하게 만든다. 이 접근법은 정확도, 투명성을 향상시킨다.

2025년 7월 18일 오후 7시 48분

EG-CFG: 실시간 실행 피드백으로 코드 생성 향상

LLMs는 코드를 생성하는 데 있어서 중요한 발전을 이루었지만, 주로 정적 코드 예제에서 패턴을 인식하는 데 의존하고 실행 중 코드의 동작 방식을 이해하는 데는 그렇지 않습니다. 이로 인해 종종 올바르게 보이지만 실행 시 실패하는 프로그램이 생성됩니다. 최근 방법은 반복적인 개선과 자체 디버깅을 소개하지만 일반적으로 […]

2025년 7월 18일 오후 7시 37분

AegisLLM: 추론 시간에 적응형 다중 에이전트 시스템을 통한 LLM 보안 확장

LLM은 빠르게 진화하는 공격의 주요 대상이며, 현재의 보안 기술은 정적인 방어 메커니즘에 의존하므로 취약하다. AegisLLM은 적응형 다중 에이전트 시스템을 활용하여 LLM 보안을 확장하고자 한다.

2025년 7월 18일 오후 6시 58분

OpenAI, 연구에서 현실 세계 자동화로 ChatGPT 에이전트 소개

2025년 7월 17일, OpenAI가 ChatGPT 에이전트를 출시하며 대화형 어시스턴트에서 웹 브라우징부터 코드 실행까지 가상 컴퓨터 환경에서 복잡한 다단계 작업을 자율적으로 수행할 수 있는 통합 AI 에이전트로 변모시켰다. ChatGPT 에이전트는 이전 두 도구를 기반으로 구축되었으며, 이전 기능들의 한계를 극복하고 있다.

2025년 7월 18일 오전 4시 00분

GLM-4.1V-Thinking: 일반 목적 다중 모달 이해와 추론 발전

시각-언어 모델(VLMs)은 시각 콘텐츠의 상세 이해를 가능하게 함으로써 오늘날의 지능 시스템에서 중요한 역할을 한다. 다중 모달 지능 작업의 복잡성이 증가함에 따라 VLM에 대한 요구도 갈수록 증가하고 있으며, 고급 추론에 대한 관심도 커지고 있다.

2025년 7월 17일 오후 10시 42분

Mirage: 이미지 렌더링 없이 VLMs에서의 멀티모달 추론

VLMs는 텍스트와 이미지를 이해하는 데 강하지만 추론 시 종종 텍스트에만 의존하여 공간 퍼즐과 같은 시각적 사고가 필요한 작업을 해결하는 능력이 제한된다. Mirage는 이미지를 렌더링하지 않고도 VLMs에서 멀티모달 추론을 가능하게 한다.

2025년 7월 17일 오후 10시 36분

NVIDIA AI, Canary-Qwen-2.5B 발표: OpenASR 리더보드에서 SOTA 성능을 자랑하는 ASR-LLM 하이브리드 모델

NVIDIA가 Canary-Qwen-2.5B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 언어 모델(LLM)의 혁신적인 하이브리드로, Hugging Face OpenASR 리더보드에서 기록적인 5.63%의 단어 오류율(WER)로 선두를 달리고 있다. 상업적으로 허용되며 오픈 소스인 이 모델은 사용 제한 없이 기업용 음성 AI를 발전시키고 있다.

2025년 7월 17일 오후 2시 17분

구글 검색이 대규모 AI 업그레이드를 받았다: Gemini 2.5 Pro, 딥 서치, 그리고 에이전틱 인텔리전스

구글은 Gemini 2.5 Pro, 딥 서치, 그리고 강력한 새로운 에이전틱 기능을 도입하며 검색과 상호작용하는 방식을 변화시키고, 검색 엔진을 보다 똑똑하고 맥락에 맞게 만들고 있다. 이러한 기능들은 현재 미국 사용자에게만 제한되어 있지만, 구글 검색 방식에 대대적인 변화를 암시한다.

2025년 7월 17일 오후 1시 27분

2025년 현재 최고의 에이전틱 인공지능 도구 및 에이전트 20가지

2025년 현재 가장 핫한 20가지 에이전틱 인공지능 도구와 에이전트 소개. 이 포스트는 MarkTechPost에 실렸으며, AI 개발자들에게 영향을 미치는 도구와 플랫폼을 살펴볼 수 있다.

2025년 7월 17일 오전 6시 11분

Mistral AI가 발표한 Voxtral: 세계 최고의 (그리고 오픈된) 음성 인식 모델

Mistral AI가 Voxtral을 발표했다. Voxtral은 오디오와 텍스트 입력을 처리하는 Voxtral-Small-24B 및 Voxtral-Mini-3B 모델로, 자동 음성 인식(ASR)과 자연어 이해 기능을 통합한다. Apache 2.0 라이선스로 공개된 Voxtral은 전사, 요약, 질문 응답 등에 실용적인 솔루션을 제공한다.

2025년 7월 17일 오전 4시 07분

Griffe를 활용한 AI 코드 분석 에이전트 구축의 코딩 안내서

이 튜토리얼에서는 Griffe에 대해 깊이 파고들어, 고급 AI 코드 분석기의 중심으로 위치시킵니다. Griffe의 풍부한 내재 검사 능력을 활용하여 Python 패키지 구조를 실시간으로 무리없이 로드, 탐색, 해부할 수 있습니다. 본 안내서는 Griffe를 NetworkX와 같은 보조 라이브러리와 통합하는 과정을 안내합니다.

2025년 7월 17일 오전 12시 59분

JarvisArt: 지역별 및 전역 사진 편집을 위한 인간 중심 다중 모달 에이전트

JarvisArt는 예술적 의도와 기술적 실행 사이의 간극을 줄이는데 도움을 주는 사진 편집 에이전트입니다. 사용자들은 이미지 톤, 노출 및 대조와 같은 요소들을 조작하여 시각적으로 매력적인 콘텐츠를 만들 수 있습니다.

2025년 7월 17일 오전 12시 49분

NeuralOS: 상호작용하는 운영 체제 인터페이스를 시뮬레이션하는 생성 프레임워크

최근 생성 모델의 발전은 컴퓨터와 상호작용하는 방식을 변화시켰으며, 사용자 경험을 더 자연스럽고 적응적이며 맞춤화된 것으로 만들고 있다. 초기 인터페이스와 명령줄 도구는 사용자가 기계에 적응해야 했지만, LLMs와 멀티모달 인공지능의 등장으로 사용자는 상호작용하고 있다.

2025년 7월 17일 오전 12시 37분

Mirascope로 시작하기: LLM을 사용하여 의미 중복 제거하기

Mirascope는 다양한 대형 언어 모델 제공업체와 함께 작업하는 통합 인터페이스를 제공하는 강력하고 사용자 친화적인 라이브러리입니다. 텍스트 생성부터 구조화된 데이터 추출, 복잡한 AI 기반 시스템 구축까지 모든 것을 간소화합니다.

2025년 7월 16일 오후 7시 14분

Apple, 코드 생성용 7B Diffusion LLM인 DiffuCoder 소개

Apple이 코드 생성을 위해 맞춤화된 7B Diffusion LLM인 DiffuCoder를 소개했다. LLMs는 대화부터 코드 생성까지 다양한 작업에서 놀라운 결과를 얻어내며 자연어 처리를 혁신시켰다.

2025년 7월 16일 오후 7시 02분

NVIDIA, 오디오 일반 지능 발전을 위한 오픈소스 모델 ‘Audio Flamingo 3’ 출시

NVIDIA의 Audio Flamingo 3 (AF3)은 기계가 소리를 이해하고 추론하는 방식에 큰 발전을 이끌어냈다. 이전 모델들은 음성을 전사하거나 오디오 클립을 분류할 수는 있었지만, AF3는 음성, 주변 소리 등을 인간과 유사한 맥락에서 해석하는 능력을 갖췄다.

2025년 7월 16일 오전 12시 10분

CrewAI와 Gemini로 다중 에이전트 연구 및 콘텐츠 파이프라인 구축하는 코딩 구현

본 튜토리얼에서는 CrewAI와 Google의 Gemini 모델을 사용하여 최적화된 다중 AI 에이전트 시스템을 구축하는 방법을 안내합니다. 연구, 데이터 분석, 콘텐츠 생성, 품질 보증을 위한 특화된 에이전트들을 순차적 협업에 최적화된 상태로 설치하고 구성합니다.

2025년 7월 15일 오후 5시 05분

AI 논문 소개: 다중 호합 질문 응답을 위한 하이브리드 SQL 및 텍스트 검색 프레임워크 TableRAG

다양한 데이터 유형이 혼합된 콘텐츠를 처리하는 더 지능적이고 유용한 AI 시스템 구축이 중요해지고 있다. 이 논문은 텍스트와 구조화된 테이블을 동시에 다루는 질문에 초점을 맞춘 프레임워크 TableRAG를 소개한다.

2025년 7월 15일 오후 4시 53분

효율적이고 유연한 음성 개선을 위한 사전 훈련된 생성 오디오인코더와 보코더

음성 개선 기술이 전통적인 마스크 또는 신호 예측 방법을 넘어서 사전 훈련된 오디오 모델을 활용하여 성능을 향상시키고 있습니다. 이러한 모델은 의미 있는 오디오 임베딩을 추출하여 음성 개선의 성능을 향상시킵니다.

2025년 7월 15일 오후 4시 30분

Amazon, 개발자들을 적극적인 자동화로 능력을 갖춘 AI IDE ‘Kiro’를 출시

아마존이 새롭고 혁신적인 AI 통합 개발 환경 ‘Kiro’를 발표했다. 오늘의 AI 코딩 어시스턴트의 능력을 훨씬 뛰어넘는 Kiro는 명세 주도 개발, 지능적 자동화, 적응형 사용자 인터페이스에 혁신을 제공한다.

2025년 7월 15일 오전 3시 33분

MetaStone-S1가 인공지능 추론을 위한 선도적인 반사 생성 모델로 만드는 이유는 무엇인가요?

MetaStone-S1은 새로운 반사 생성 형태를 통해 OpenAI o3-mini의 성능을 달성하는 반사 생성 모델로, 기존의 LLMs와는 다른 Test-Time Scaling (TTS) 방식을 사용하여 추론 성능을 향상시킵니다.

2025년 7월 15일 오전 3시 18분

Gemini Embedding-001 이제 사용 가능: Google API를 통한 다국어 AI 텍스트 임베딩

구글의 Gemini Embedding 텍스트 모델 gemini-embedding-001이 Gemini API와 Google AI Studio를 통해 개발자들에게 일반적으로 제공되었으며, 강력한 다국어 및 유연한 텍스트 표현 기능을 AI 생태계로 확대시켰다. 다국어 지원, 차원적 유연성 기술 명세 및 모델 성능 주요 기능 메트릭/작업 Gemini-embedding-001 레거시 구글 모델 Cohere v3.0 OpenAI-3-large MTEB (다국어) 평균 […]

2025년 7월 15일 오전 2시 55분

OpenAI 에이전트 응답 추적하기: MLFlow 활용

MLflow는 머신러닝 실험을 관리하고 추적하는 오픈소스 플랫폼이다. OpenAI Agents SDK와 함께 사용할 때 MLflow는 에이전트 응답 추적을 자동화한다. 에이전트 간의 협력이나 동적 함수 호출이 필요한 다중 에이전트 시스템을 구축할 때 유용하다.

2025년 7월 14일 오후 1시 50분

LLMs에서의 분수적 추론: 추론 깊이 제어하는 새로운 방법

이 기사에는 LLMs에서의 현재 테스트 시간 계산 전략의 한계, 훈련 무료 및 모델에 중립적인 프레임워크로서의 분수적 추론(FR)의 소개, 추론 프롬프트 및 조정 가능한 스케일링을 사용한 잠재 상태 조작 기술, GSM8K, MATH500 및 GPQA에서의 너비 및 깊이 기반 스케일링 이점 등이 포함되어 있습니다. FR의 우수성을 보여주는 평가 결과 및 분석이 제시됩니다.

2025년 7월 14일 오후 1시 29분

Liquid AI가 LFM2를 오픈소스로 공개: 새로운 세대의 엣지 LLMs

Liquid AI가 새로운 엣지 LLMs인 LFM2를 오픈소스로 공개했다. 이 모델은 2배 빠른 추론과 3배 빠른 학습 성능을 제공하며, 컨볼루션과 어텐션 블록을 혼합한 하이브리드 설계를 특징으로 한다. 350M, 700M, 1.2B 파라미터 크기의 세 가지 모델이 제공되며, 유사한 크기의 모델과 비교했을 때 우수한 성능을 보여준다.

2025년 7월 14일 오전 2시 48분

SDBench와 MAI-DxO: 실제 비용 고려 임상 추론을 AI로 진보

전문 의료 추론을 보다 접근하기 쉽게 만들어주는 AI의 잠재력이 있지만 현재의 평가는 간단화된 정적 시나리오에 의존하여 부족하다. 진짜 임상 실무는 훨씬 동적하며, 의사들은 진단 접근법을 단계별로 조정하며 목표로 하는 질문을 하고 새로운 정보를 해석한다. 이 반복적 과정은 그들이 가설을 정제하는 데 도움이 된다.

2025년 7월 14일 오전 2시 22분

AI 논문 소개: 효율적인 온디맨드 멀티모달 검색을 위한 강화 학습 프레임워크 MMSearch-R1

대규모 멀티모달 모델(LMMs)은 이미지 해석, 시각적 질문에 답변, 다중 모달을 결합하여 사실 정보를 검색하는 시스템을 가능하게 한다. 그러나 대량의 학습 데이터가 있더라도 LMMs는 종종 동적이거나 발전하는 정보를 간과하는데, 특히 학습 후에 나타나는 사실들을 놓칠 수 있다.

2025년 7월 14일 오전 12시 33분

구글 딥마인드가 GenAI 프로세서를 출시: 효율적이고 병렬 콘텐츠 처리를 가능하게 하는 가벼운 파이썬 라이브러리

구글 딥마인드가 최근 발표한 GenAI 프로세서는 가벼운 오픈소스 파이썬 라이브러리로, 실시간 다중 모달 콘텐츠를 포함한 생성 AI 워크플로우의 조율을 간소화하는 데 사용된다. 이 라이브러리는 고급 AI 파이프라인을 구축하기 위한 고청량, 비동기 스트림 프레임워크를 제공한다.

2025년 7월 13일 오전 4시 05분

Meta AI가 UMA (Universal Models for Atoms)를 소개합니다: 원자를 위한 범용 모델 패밀리

밀도 기능 이론(DFT)은 현대 계산 화학과 재료 과학의 기초 역할을 합니다. 그러나 높은 계산 비용으로 인해 사용이 제한됩니다. 기계 학습 상호 원자력(MLIP)은 DFT 정확도를 근접하게 흉내내며 계산 시간을 현저히 단축시키는 잠재력이 있습니다.

2025년 7월 13일 오전 12시 48분

Moonshot AI, 킬러 AI, 코드 추론 및 주체적 행동에 중점을 둔 1조 매개변수 MoE 모델인 Kimi K2 공개

2025년 7월 Moonshot AI가 발표한 Kimi K2는 1조개의 총 매개변수와 토큰당 32억개의 활성 매개변수를 갖춘 MoE 모델로, 1550억 토큰에 대해 훈련되었다. K2는 대규모 모델에서 흔히 볼 수 있는 불안정성 없이 전례 없는 규모에서 안정적인 훈련을 달성했다.

2025년 7월 12일 오전 12시 23분

인식부터 행동까지: 타인 AI 시스템에서 세계 모델의 역할

신체화된 AI 에이전트는 물리적 또는 가상 형태로 존재하며 주변 환경과 상호 작용할 수 있는 시스템이다. 이들은 세계를 지각하고 의미 있는 행동을 취한다. 최근의 발전은 신체화가 된 AI 에이전트의 물리적 상호작용, 인간 신뢰, 인간과 유사한 학습을 향상시킨다.

2025년 7월 11일 오후 4시 52분

AI 논문 소개: PEVA – 인간 동작으로부터 에고센트릭 비디오 예측을 위한 전체 몸 조건부 확산 모델

인간 시각 지각과 몸의 움직임 간의 연결을 이해하는 것은 지능형 시스템을 개발하는 데 중요하다. PEVA는 인간의 몸 운동을 기반으로 에고센트릭 시점에서 보이는 것을 예측하는 모델이다.

2025년 7월 11일 오후 3시 55분

Mistral AI, 코드 중심 언어 모델링을 위한 Devstral 2507 출시

Mistral AI가 All Hands AI와 협력하여 Devstral 2507 레이블 하에 개발자 중심 대형 언어 모델의 업데이트 버전을 출시했다. Devstral Small 1.1과 Devstral Medium 2507 두 모델은 대규모 소프트웨어 저장소에서 에이전트 기반 코드 추론, 프로그램 합성, 구조화된 작업 실행을 지원하기 위해 설계되었으며 성능에 최적화되어 있다.

2025년 7월 11일 오전 3시 06분

구글 AI가 버텍스 AI 메모리 뱅크 출시: 지속적인 에이전트 대화 가능

AI 에이전트를 시장에 내놓기 위해 개발자들이 노력하고 있지만, 지난 상호작용을 회상할 수 있는 능력의 부족이 큰 장애물이었습니다. 이로 인해 대화마다 처음으로 대하는 것처럼 취급되어 반복적인 질문, 사용자 선호도 기억 불가능, 일반적인 맞춤화 부재로 이어졌습니다.

2025년 7월 11일 오전 2시 36분

Microsoft, 효율적인 장기 문맥 추론을 위한 콤팩트 아키텍처를 갖춘 Phi-4-mini-Flash-Reasoning 출시

Microsoft의 Phi-4 모델 패밀리에 최신 추가인 Phi-4-mini-Flash-Reasoning은 장기 문맥 추론에 뛰어나면서 높은 추론 효율성을 유지하는 경량 언어 모델이다. 3.8B 파라미터 모델은 밀도 높은 추론 작업(수학 문제 해결, 다중 점프 질문 응답)에 적합하도록 Fine-tuned 되었다.

2025년 7월 10일 오후 11시 26분

NVIDIA AI가 DiffusionRenderer를 공개: 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 위한 AI 모델

AI 기반 비디오 생성 기술이 빠르게 발전하고 있으며, NVIDIA의 DiffusionRenderer는 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 생성하는 AI 모델을 소개했다. 이 모델은 놀라운 현실감을 가진 비디오를 생성하는 능력을 갖추고 있다. 그러나 이제는 전문적이고 현실적인 편집 기능이 추가되어 사용자가 비디오를 보다 전문적으로 수정할 수 있다.

2025년 7월 10일 오후 5시 25분

고급 Pandas 워크플로우 확장을 위한 Modin 코딩 가이드

이 튜토리얼에서는 병렬 컴퓨팅을 활용하여 데이터 워크플로우를 크게 가속화하는 강력한 Pandas 대체 도구인 Modin에 대해 알아본다. modin.pandas as pd로 가져와 Pandas 코드를 분산 처리 강자로 변환한다. Modin이 실제 데이터 작업에서 어떻게 수행되는지 이해하는 것이 목표다.

2025년 7월 10일 오전 6시 08분

구글 AI가 스켈러블 다중 모달 의학 추론을 위해 MedGemma 27B와 MedSigLIP를 오픈 소스로 공개

구글 DeepMind와 구글 연구가 MedGemma 우산 아래 두 가지 새로운 모델을 소개했습니다. MedGemma 27B는 대규모 비전-언어 기반 모델이며 MedSigLIP는 가벼운 의학 이미지-텍스트 인코더입니다. 이들은 건강 인공지능 분야에서 가장 능력있는 오픈 소스 모델입니다.

2025년 7월 10일 오전 3시 35분

Perplexity, 전통적인 브라우저에 대안이 되는 AI-First인 Comet을 소개합니다

Perplexity사가 AI 기반 검색을 통해 정보 상호작용을 재정의했는데, 이번에는 AI 네이티브 웹 브라우저인 Comet을 출시했다. Comet은 AI-First 아키텍처로 설계되어 사용자가 웹 콘텐츠를 탐색하고 상호작용하는 방식을 혁신적으로 변화시킬 예정이다.

2025년 7월 9일 오후 5시 47분

Salesforce AI, GTA1 출시: OpenAI의 CUA를 능가하는 테스트 시간 기반 GUI 에이전트

Salesforce AI가 새로운 GUI 에이전트인 GTA1을 소개했다. GTA1은 리눅스와 같은 OS 환경에서 자율적으로 작동하며, 모호한 작업 계획과 부정확한 행동 기반에 대한 두 가지 핵심 병목 현상을 해결한다. 45.2%의 작업 성공률을 보이며 OpenAI의 CUA를 능가한다.

2025년 7월 9일 오후 3시 43분

« 이전 1 … 10 11 12 13 14 … 17 다음 »