Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 책리뷰
- 제주도
- 혼자공부하는SQL
- 독후감
- 혼공S
- PRML
- PRIMARY KEY
- 유럽여행
- 티스토리챌린지
- 보조인덱스
- 오블완
- Github
- digital marketing
- 에이바우트
- Jupyter notebook
- 클러스터형인덱스
- Linux
- 런던
- R
- 영국여행
- 스플라인
- 제주도여행
- SQL
- 스토어드 프로시저
- GenAI
- 김호연작가
- 제주2주살이
- RStudio
- 디지털마케팅
- 맛집
Archives
- Today
- Total
Soy Library
[GenAI] LLM 종류 본문
LLaMA
- 7B(70억 개)에서 65B(650억)까지의 파라미터를 가진 기초 언어 모델들로 구성
- 수조 개의 토큰에 대해 학습시킴. 공개적으로 이용 가능한 데이터셋만을 사용하여도 최첨단 모델을 훈련시킬 수 있다는 것
- Introduction
- 가장 큰 모델이 아니라 더 많은 데이터로 훈련된 작은 모델
- Pretraining
- 공개적으로 오픈된 데이터만을 사용
- CCNet 파이프라인, Ngram, Linear classifier, fastText 등을 이용하여 data cleansing
- Tokeniner : BPE(Byte Piece Encoding)
- Architecture: Transformer
- AdamW Optimizer
BPE(Byte-Pair Encoding) 알고리즘
- 문자 단위 구성
- 단어 단위 구성: 데이터 효율성 측면에서는 단어 단위로 하는 게 효율적
LLaMA2
- Abstract
- LLaMA2 & LLaMa2-Chat (오픈 소스 채팅 모델)
- Introduction
- 연구 및 상업적 용도로 공개
- corpus 크기를 40% 늘리고, 문맥 길이를 두 배로 늘리고, GOA와 같은 추가 테크닉
- Pretraining
- 큰 transformer
- 공개적으로 이용 가능한 출처로부터 새로운 데이터 믹스를 포함, 개인 정보가 많이 담겨있는 알려진 사이트로부터 데이터를 제거하기 위한 클렌징. 2조 개의 토큰 사용
- 가장 사실적인 출처 업샘플링 하여 지식을 높이고 환상(hallucinations)을 줄이려고 노력
- 더 많은 토큰을 사용하여 학습시키면 성능이 더 좋아질 것이라고 기대
- BPE, SentencePiece 에서 구현된 걸 사용
- Fine Tuning
- pretrained-model
- SFT: 질문(prompt)-답변(reponse)의 형태로 구성된 데이터로 supervised fine tuning
- RLHF: 사람이 개입하여 reward 를 측정을 한 후 reinforcement learning 진행
- Reward Modeling
- Ghost Attention Method: Multi-turn consistency, 일관성을 커버
- Safety
- 안전성 측정과 완화에 대한 주요한 주제
- 사전 훈련 데이터에 잘못이 없는지를 분석
- 인구 통계학적 대표성, 종교, 국적, 인종 등
- 데이터의 독성(Data Toxicity)
- TruthfulQA: 진실성, ToxiGen: 독성, BOLD: 편향성 을 사용해서 각각 평가함
Alpaca
- Llama 모델을 Instruction Tuning하여 Fine Tuning한 경량 LLM 모델, 깃헙에 공개
- 명령 수행 시연: Instruction following demonstrations
- self-instruct 스타일로 생성된 training data를 사용하여 학습
- Alpaca는 GPT에 비해 짧은 답을 함
- random seed = 42: 은하수를 여행하는 히치하이커를 위한 안내서
- Data Format 구성 예시
- input이 있는 경우: input으로 들어온 데이터를 분류하는 task 진행, 스펠링을 고쳐주는 task 등
Qwen2.5-72B-Instruct
- 720억 개 parameter
- 130K토큰을 처리할 수 있음 (input으로 받을 수 있음)
- 8K 토큰을 생성 가능
- 29개 이상의 언어 지원
- Instruct- 일반적인 언어 패턴을 학습하여 모든 종류의 텍스트 생성에 적합한 범용 모델
- 참고
- https://news.hada.io/topic?id=16852
'Study > GenAI' 카테고리의 다른 글
[VectorDB] 벡터DB란 (0) | 2024.08.22 |
---|---|
[VectorDB] 특징벡터 (0) | 2024.08.22 |