ai 데이터셋 종류1 Ch02-01. Resources (Data, Library) LLM(Large Language Model)의 성능을 결정하는 중요한 요소 중 하나는 데이터와 라이브러리입니다. 이번 글에서는 LLM이 학습하는 주요 데이터셋과, 모델 개발 및 최적화에 사용되는 필수 라이브러리를 정리하겠습니다.1. LLM 학습을 위한 데이터셋(1) 사전 학습 데이터 (Pre-training Data)BookCorpus: 10,000권 이상의 책으로 구성된 데이터셋.Project Gutenberg: 7만 권 이상의 문학 및 과학 관련 도서 포함.Common Crawl: 방대한 웹 크롤링 데이터셋.Reddit 기반 데이터: 인기 게시글을 포함한 웹텍스트.Wikipedia: GPT-3, LLaMA 등에서 널리 활용되는 데이터셋.한국어 Wikipedia: 한국어 LLM 학습에 활용되는 데이터.. 2025. 3. 13. 이전 1 다음