본문 바로가기
AI/AI 고객센터 서비스 구축

Ch02-02. Pre-training

by upself 2025. 3. 14.
728x90


대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 자연어를 이해하고 생성하는 데 활용됩니다. 이번 글에서는 LLM이 사전 학습(Pre-training) 되는 과정과 핵심 개념을 정리하겠습니다.

1. LLM Pre-training 개요

LLM Pre-training 과정

  • 데이터 수집 및 전처리
  • 토크나이징(Tokenization)
  • 모델 아키텍처 설계
  • Pre-training 학습 목표 설정
  • 디코딩 전략 선택
  • 최적화 및 모델 압축

2. 데이터 수집 및 전처리

(1) 데이터 정제 과정

  • HTML 태그, 하이퍼링크, 스팸 데이터 제거
  • 중복 데이터 필터링
  • 개인정보 보호 (이름, 전화번호 등 제거)

(2) 토크나이징 (Tokenization)

  • BPE (Byte Pair Encoding): GPT 시리즈, LLaMA 사용
  • WordPiece: BERT, T5 사용
  • SentencePiece: 다국어 모델에 최적화

3. 모델 아키텍처 설계

(1) Transformer 아키텍처

  • 인코더-디코더 (T5, BART)
  • 카우젤 디코더 (GPT 시리즈, BLOOM)
  • 프리딕션 디코더 (UL2, GLaM)

4. Pre-training 학습 목표(Training Objectives)

  • Masked Language Modeling (MLM): 일부 단어를 마스킹 후 예측 (BERT, T5 사용)
  • Causal Language Modeling (CLM): 다음 단어 예측 방식 (GPT 시리즈 사용)
  • Next Sentence Prediction (NSP): 두 문장의 연결 여부 판단 (BERT 사용)

5. 디코딩 및 최적화 기법

(1) 디코딩 전략 (Decoding Strategies)

  • Greedy Search: 확률이 가장 높은 단어를 순차 선택
  • Beam Search: 여러 후보 문장을 생성 후 최적 문장 선택
  • Top-K Sampling: 상위 K개의 단어 중 랜덤 선택
  • Top-P (Nucleus) Sampling: 누적 확률이 P 이하인 단어 중 선택

(2) 모델 압축 및 최적화 기법

  • LoRA (Low-Rank Adaptation): 경량화된 모델 튜닝 기법
  • Quantization (양자화): 모델 크기를 줄이고 속도 향상
  • Mixture of Experts (MoE): 특정 신경망만 활성화하여 연산량 감소

6. 결론

LLM의 Pre-training 과정은 데이터를 정제하고 모델을 최적화하는 중요한 단계입니다. 최근에는 데이터 필터링, 효율적인 학습 기법, 모델 압축 기법 등이 발전하며, 더욱 강력한 LLM이 등장하고 있습니다.

다음 글에서는 Pre-trained 모델을 활용한 Fine-tuning 과정을 다뤄보겠습니다.

반응형