bpe vs wordpiece1 Ch02-02. Pre-training 대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 자연어를 이해하고 생성하는 데 활용됩니다. 이번 글에서는 LLM이 사전 학습(Pre-training) 되는 과정과 핵심 개념을 정리하겠습니다.1. LLM Pre-training 개요LLM Pre-training 과정데이터 수집 및 전처리토크나이징(Tokenization)모델 아키텍처 설계Pre-training 학습 목표 설정디코딩 전략 선택최적화 및 모델 압축2. 데이터 수집 및 전처리(1) 데이터 정제 과정HTML 태그, 하이퍼링크, 스팸 데이터 제거중복 데이터 필터링개인정보 보호 (이름, 전화번호 등 제거)(2) 토크나이징 (Tokenization)BPE (Byte Pair Encoding): GPT 시리즈, LLaMA 사용WordPiece: BE.. 2025. 3. 14. 이전 1 다음