본문 바로가기

전체 글128

Ch02-02. Pre-training 대규모 언어 모델(LLM)은 방대한 데이터를 학습하여 자연어를 이해하고 생성하는 데 활용됩니다. 이번 글에서는 LLM이 사전 학습(Pre-training) 되는 과정과 핵심 개념을 정리하겠습니다.1. LLM Pre-training 개요LLM Pre-training 과정데이터 수집 및 전처리토크나이징(Tokenization)모델 아키텍처 설계Pre-training 학습 목표 설정디코딩 전략 선택최적화 및 모델 압축2. 데이터 수집 및 전처리(1) 데이터 정제 과정HTML 태그, 하이퍼링크, 스팸 데이터 제거중복 데이터 필터링개인정보 보호 (이름, 전화번호 등 제거)(2) 토크나이징 (Tokenization)BPE (Byte Pair Encoding): GPT 시리즈, LLaMA 사용WordPiece: BE.. 2025. 3. 14.
Ch02-01. Resources (Data, Library) LLM(Large Language Model)의 성능을 결정하는 중요한 요소 중 하나는 데이터와 라이브러리입니다. 이번 글에서는 LLM이 학습하는 주요 데이터셋과, 모델 개발 및 최적화에 사용되는 필수 라이브러리를 정리하겠습니다.1. LLM 학습을 위한 데이터셋(1) 사전 학습 데이터 (Pre-training Data)BookCorpus: 10,000권 이상의 책으로 구성된 데이터셋.Project Gutenberg: 7만 권 이상의 문학 및 과학 관련 도서 포함.Common Crawl: 방대한 웹 크롤링 데이터셋.Reddit 기반 데이터: 인기 게시글을 포함한 웹텍스트.Wikipedia: GPT-3, LLaMA 등에서 널리 활용되는 데이터셋.한국어 Wikipedia: 한국어 LLM 학습에 활용되는 데이터.. 2025. 3. 13.
FileMaker ExecuteSQL() 오류 해결 과정 기록 FileMaker의 ExecuteSQL() 함수는 SQL을 이용해 데이터를 조회할 수 있는 강력한 기능이지만, 특정 필드명 처리 문제로 인해 예상치 못한 오류가 발생할 수 있습니다. 이번 포스팅에서는 직접 겪은 오류와 해결 과정을 공유합니다.🔍 문제 발생 다음과 같이 특정 _OrderPK 값과 productCode 값을 기준으로 totalPrice 필드를 조회하는 SQL 쿼리를 작성했습니다.Let ( [ sql = "SELECT totalPrice FROM OrderItems WHERE \"_OrderPK\" = ? AND \"productCode\" = ? ORDER BY totalPrice ASC" ; priceList = Exe.. 2025. 3. 4.
맥에서 우분투 서버로 파일 올리고 내려받기 📂 파일 업로드: 맥 → 우분투 서버맥에서 우분투 서버로 파일을 전송하려면 아래 명령어를 사용합니다.scp -P [포트번호] "/경로/파일명" [사용자]@[서버주소]:[저장할_경로]✅ 예제scp -P 52022 "/Users/사용자/Documents/파일이름.fmp12" 사용자@서버주소:/opt/경로/📥 파일 다운로드: 우분투 서버 → 맥우분투 서버에서 맥으로 파일을 내려받으려면 다음 명령어를 사용합니다.scp -P [포트번호] [사용자]@[서버주소]:"[서버의_파일경로]" "[맥의_저장경로]"✅ 예제scp -P 52022 사용자@서버주소:"/opt/경로/파일이름.fmp12" ~/Downloads/🔧 추가 옵션-P [포트번호]: 기본 포트(22번) 외에 특정 포트로 접속할 때 사용-r: 디렉터리 전.. 2025. 3. 4.