본문 바로가기

AI/AI 고객센터 서비스 구축

Ch02-01. Resources (Data, Library)

by upself 2025. 3. 13.

728x90

LLM(Large Language Model)의 성능을 결정하는 중요한 요소 중 하나는 데이터와 라이브러리입니다. 이번 글에서는 LLM이 학습하는 주요 데이터셋과, 모델 개발 및 최적화에 사용되는 필수 라이브러리를 정리하겠습니다.

1. LLM 학습을 위한 데이터셋

(1) 사전 학습 데이터 (Pre-training Data)

BookCorpus: 10,000권 이상의 책으로 구성된 데이터셋.
Project Gutenberg: 7만 권 이상의 문학 및 과학 관련 도서 포함.
Common Crawl: 방대한 웹 크롤링 데이터셋.
Reddit 기반 데이터: 인기 게시글을 포함한 웹텍스트.
Wikipedia: GPT-3, LLaMA 등에서 널리 활용되는 데이터셋.
한국어 Wikipedia: 한국어 LLM 학습에 활용되는 데이터셋.
한국어 나무위키: 구어체 기반의 한국어 데이터셋.

(2) 파인튜닝 및 평가 데이터 (Fine-tuning & Evaluation Data)

ShareGPT: ChatGPT와의 대화 데이터 42만 개 포함.
Alpaca 데이터셋: OpenAI의 DaVinci 모델을 활용한 신테틱 데이터.
open-korean-instructions: 한국어 LLM 학습용 인스트럭션 데이터.
Korpora 사용법: 다양한 한국어 데이터셋 활용 방법.

2. LLM 개발을 위한 라이브러리 및 프레임워크

(1) 모델 구축 및 학습 라이브러리

Hugging Face Transformers: 트랜스포머 모델을 쉽게 활용할 수 있는 라이브러리.
DeepSpeed (Microsoft): 대규모 LLM을 위한 최적화 및 분산 학습 라이브러리.
Megatron-LM (NVIDIA): 대규모 AI 학습을 위한 NVIDIA의 최적화 프레임워크.
Megatron-Deepspeed: Megatron과 DeepSpeed의 통합 라이브러리.
LoRA (Low-Rank Adaptation): 파인튜닝 효율을 높이는 경량화 기법.

(2) 데이터 처리 및 검색 라이브러리

Hugging Face Datasets: 대규모 데이터셋을 효율적으로 관리하는 라이브러리.
LangChain: AI 애플리케이션 구축을 위한 LLM 인터페이스.
LLaMA-Index: PDF, 웹페이지 등 다양한 데이터를 구조화하여 LLM이 활용하도록 지원.
RAG 시스템에서 Langchain과 LlamaIndex: RAG(검색 증강 생성) 기반 LLM 구축을 위한 필수 라이브러리.

저작자표시 비영리 변경금지 (새창열림)

'AI > AI 고객센터 서비스 구축' 카테고리의 다른 글

Ch02-03. Fine-tuning (0)	2025.03.20
Ch02-02. Pre-training (0)	2025.03.14
Ch01-05. Google의 LLM 모델과 Gemini (0)	2024.12.26
Ch01-04. Open Source LLM: 주요 모델과 동향 (0)	2024.12.25
Ch01-03. LLaMA 모델: Meta의 오픈 소스 혁신 (0)	2024.12.20

티스토리툴바