728x90
LLM(Large Language Model)의 성능을 결정하는 중요한 요소 중 하나는 데이터와 라이브러리입니다. 이번 글에서는 LLM이 학습하는 주요 데이터셋과, 모델 개발 및 최적화에 사용되는 필수 라이브러리를 정리하겠습니다.
1. LLM 학습을 위한 데이터셋
(1) 사전 학습 데이터 (Pre-training Data)
- BookCorpus: 10,000권 이상의 책으로 구성된 데이터셋.
- Project Gutenberg: 7만 권 이상의 문학 및 과학 관련 도서 포함.
- Common Crawl: 방대한 웹 크롤링 데이터셋.
- Reddit 기반 데이터: 인기 게시글을 포함한 웹텍스트.
- Wikipedia: GPT-3, LLaMA 등에서 널리 활용되는 데이터셋.
- 한국어 Wikipedia: 한국어 LLM 학습에 활용되는 데이터셋.
- 한국어 나무위키: 구어체 기반의 한국어 데이터셋.
(2) 파인튜닝 및 평가 데이터 (Fine-tuning & Evaluation Data)
- ShareGPT: ChatGPT와의 대화 데이터 42만 개 포함.
- Alpaca 데이터셋: OpenAI의 DaVinci 모델을 활용한 신테틱 데이터.
- open-korean-instructions: 한국어 LLM 학습용 인스트럭션 데이터.
- Korpora 사용법: 다양한 한국어 데이터셋 활용 방법.
2. LLM 개발을 위한 라이브러리 및 프레임워크
(1) 모델 구축 및 학습 라이브러리
- Hugging Face Transformers: 트랜스포머 모델을 쉽게 활용할 수 있는 라이브러리.
- DeepSpeed (Microsoft): 대규모 LLM을 위한 최적화 및 분산 학습 라이브러리.
- Megatron-LM (NVIDIA): 대규모 AI 학습을 위한 NVIDIA의 최적화 프레임워크.
- Megatron-Deepspeed: Megatron과 DeepSpeed의 통합 라이브러리.
- LoRA (Low-Rank Adaptation): 파인튜닝 효율을 높이는 경량화 기법.
(2) 데이터 처리 및 검색 라이브러리
- Hugging Face Datasets: 대규모 데이터셋을 효율적으로 관리하는 라이브러리.
- LangChain: AI 애플리케이션 구축을 위한 LLM 인터페이스.
- LLaMA-Index: PDF, 웹페이지 등 다양한 데이터를 구조화하여 LLM이 활용하도록 지원.
- RAG 시스템에서 Langchain과 LlamaIndex: RAG(검색 증강 생성) 기반 LLM 구축을 위한 필수 라이브러리.
반응형
'AI > AI 고객센터 서비스 구축' 카테고리의 다른 글
Ch02-03. Fine-tuning (0) | 2025.03.20 |
---|---|
Ch02-02. Pre-training (0) | 2025.03.14 |
Ch01-05. Google의 LLM 모델과 Gemini (0) | 2024.12.26 |
Ch01-04. Open Source LLM: 주요 모델과 동향 (0) | 2024.12.25 |
Ch01-03. LLaMA 모델: Meta의 오픈 소스 혁신 (0) | 2024.12.20 |