728x90
대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 자연어를 이해하고 생성하는 데 활용됩니다. 이번 글에서는 LLM이 사전 학습(Pre-training) 되는 과정과 핵심 개념을 정리하겠습니다.
1. LLM Pre-training 개요
LLM Pre-training 과정
- 데이터 수집 및 전처리
- 토크나이징(Tokenization)
- 모델 아키텍처 설계
- Pre-training 학습 목표 설정
- 디코딩 전략 선택
- 최적화 및 모델 압축
2. 데이터 수집 및 전처리
(1) 데이터 정제 과정
- HTML 태그, 하이퍼링크, 스팸 데이터 제거
- 중복 데이터 필터링
- 개인정보 보호 (이름, 전화번호 등 제거)
(2) 토크나이징 (Tokenization)
- BPE (Byte Pair Encoding): GPT 시리즈, LLaMA 사용
- WordPiece: BERT, T5 사용
- SentencePiece: 다국어 모델에 최적화
3. 모델 아키텍처 설계
(1) Transformer 아키텍처
- 인코더-디코더 (T5, BART)
- 카우젤 디코더 (GPT 시리즈, BLOOM)
- 프리딕션 디코더 (UL2, GLaM)
4. Pre-training 학습 목표(Training Objectives)
- Masked Language Modeling (MLM): 일부 단어를 마스킹 후 예측 (BERT, T5 사용)
- Causal Language Modeling (CLM): 다음 단어 예측 방식 (GPT 시리즈 사용)
- Next Sentence Prediction (NSP): 두 문장의 연결 여부 판단 (BERT 사용)
5. 디코딩 및 최적화 기법
(1) 디코딩 전략 (Decoding Strategies)
- Greedy Search: 확률이 가장 높은 단어를 순차 선택
- Beam Search: 여러 후보 문장을 생성 후 최적 문장 선택
- Top-K Sampling: 상위 K개의 단어 중 랜덤 선택
- Top-P (Nucleus) Sampling: 누적 확률이 P 이하인 단어 중 선택
(2) 모델 압축 및 최적화 기법
- LoRA (Low-Rank Adaptation): 경량화된 모델 튜닝 기법
- Quantization (양자화): 모델 크기를 줄이고 속도 향상
- Mixture of Experts (MoE): 특정 신경망만 활성화하여 연산량 감소
6. 결론
LLM의 Pre-training 과정은 데이터를 정제하고 모델을 최적화하는 중요한 단계입니다. 최근에는 데이터 필터링, 효율적인 학습 기법, 모델 압축 기법 등이 발전하며, 더욱 강력한 LLM이 등장하고 있습니다.
다음 글에서는 Pre-trained 모델을 활용한 Fine-tuning 과정을 다뤄보겠습니다.
반응형
'AI > AI 고객센터 서비스 구축' 카테고리의 다른 글
Ch02-04. Prompt Engineering (0) | 2025.03.20 |
---|---|
Ch02-03. Fine-tuning (0) | 2025.03.20 |
Ch02-01. Resources (Data, Library) (0) | 2025.03.13 |
Ch01-05. Google의 LLM 모델과 Gemini (0) | 2024.12.26 |
Ch01-04. Open Source LLM: 주요 모델과 동향 (0) | 2024.12.25 |