Tsinghua 및 ModelBest 연구진, Ultra-FineWeb: 트리리언 토큰 데이터셋 발표, 벤치마크에서 LLM 정확도 향상

LLM(대형 언어 모델)의 사전 훈련에 사용되는 데이터 품질은 점점 더 중요해지고 있다. 정보가 풍부한 말뭉치를 구축하기 위해, 연구진들은 규칙 기반의 노이즈 제거 및 중복 제거와 같은 휴리스틱 필터링 방법에서 신경망 분류기를 활용하는 모델 기반 필터링으로 전환했다. 이 방법은 이점이 있지만 여전히 중요한 문제에 직면하고 있는데, 효율적이지 않다는 것이다.
#AIPaperSummary #ArtificialIntelligence #EditorsPick #LanguageModel #Machinelearning #TechNews #Technology
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자