Ch02-02. Pre-training

728x90

대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 자연어를 이해하고 생성하는 데 활용됩니다. 이번 글에서는 LLM이 사전 학습(Pre-training) 되는 과정과 핵심 개념을 정리하겠습니다.

1. LLM Pre-training 개요

LLM Pre-training 과정

데이터 수집 및 전처리
토크나이징(Tokenization)
모델 아키텍처 설계
Pre-training 학습 목표 설정
디코딩 전략 선택
최적화 및 모델 압축

2. 데이터 수집 및 전처리

(1) 데이터 정제 과정

HTML 태그, 하이퍼링크, 스팸 데이터 제거
중복 데이터 필터링
개인정보 보호 (이름, 전화번호 등 제거)

(2) 토크나이징 (Tokenization)

BPE (Byte Pair Encoding): GPT 시리즈, LLaMA 사용
WordPiece: BERT, T5 사용
SentencePiece: 다국어 모델에 최적화

3. 모델 아키텍처 설계

(1) Transformer 아키텍처

인코더-디코더 (T5, BART)
카우젤 디코더 (GPT 시리즈, BLOOM)
프리딕션 디코더 (UL2, GLaM)

4. Pre-training 학습 목표(Training Objectives)

Masked Language Modeling (MLM): 일부 단어를 마스킹 후 예측 (BERT, T5 사용)
Causal Language Modeling (CLM): 다음 단어 예측 방식 (GPT 시리즈 사용)
Next Sentence Prediction (NSP): 두 문장의 연결 여부 판단 (BERT 사용)

5. 디코딩 및 최적화 기법

(1) 디코딩 전략 (Decoding Strategies)

Greedy Search: 확률이 가장 높은 단어를 순차 선택
Beam Search: 여러 후보 문장을 생성 후 최적 문장 선택
Top-K Sampling: 상위 K개의 단어 중 랜덤 선택
Top-P (Nucleus) Sampling: 누적 확률이 P 이하인 단어 중 선택

(2) 모델 압축 및 최적화 기법

LoRA (Low-Rank Adaptation): 경량화된 모델 튜닝 기법
Quantization (양자화): 모델 크기를 줄이고 속도 향상
Mixture of Experts (MoE): 특정 신경망만 활성화하여 연산량 감소

6. 결론

LLM의 Pre-training 과정은 데이터를 정제하고 모델을 최적화하는 중요한 단계입니다. 최근에는 데이터 필터링, 효율적인 학습 기법, 모델 압축 기법 등이 발전하며, 더욱 강력한 LLM이 등장하고 있습니다.

다음 글에서는 Pre-trained 모델을 활용한 Fine-tuning 과정을 다뤄보겠습니다.

저작자표시 비영리 변경금지 (새창열림)

'AI > AI 고객센터 서비스 구축' 카테고리의 다른 글

Ch02-04. Prompt Engineering (0)	2025.03.20
Ch02-03. Fine-tuning (0)	2025.03.20
Ch02-01. Resources (Data, Library) (0)	2025.03.13
Ch01-05. Google의 LLM 모델과 Gemini (0)	2024.12.26
Ch01-04. Open Source LLM: 주요 모델과 동향 (0)	2024.12.25

upself

Ch02-02. Pre-training

1. LLM Pre-training 개요

LLM Pre-training 과정

2. 데이터 수집 및 전처리

(1) 데이터 정제 과정

(2) 토크나이징 (Tokenization)

3. 모델 아키텍처 설계

(1) Transformer 아키텍처

4. Pre-training 학습 목표(Training Objectives)

5. 디코딩 및 최적화 기법

(1) 디코딩 전략 (Decoding Strategies)

(2) 모델 압축 및 최적화 기법

6. 결론

'AI > AI 고객센터 서비스 구축' 카테고리의 다른 글

티스토리툴바

Ch02-02. Pre-training

1. LLM Pre-training 개요

LLM Pre-training 과정

2. 데이터 수집 및 전처리

(1) 데이터 정제 과정

(2) 토크나이징 (Tokenization)

3. 모델 아키텍처 설계

(1) Transformer 아키텍처

4. Pre-training 학습 목표(Training Objectives)

5. 디코딩 및 최적화 기법

(1) 디코딩 전략 (Decoding Strategies)

(2) 모델 압축 및 최적화 기법

6. 결론

'AI > AI 고객센터 서비스 구축' 카테고리의 다른 글

관련글

티스토리툴바