일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 제주도여행
- 혼자공부하는SQL
- GenAI
- PRML
- 스토어드 프로시저
- 에이바우트
- Jupyter notebook
- PRIMARY KEY
- 독후감
- 제주도
- R
- digital marketing
- 티스토리챌린지
- SQL
- 클러스터형인덱스
- Github
- 책리뷰
- 오블완
- 런던
- Linux
- 김호연작가
- 스플라인
- 유럽여행
- 혼공S
- 맛집
- 보조인덱스
- RStudio
- 제주2주살이
- 디지털마케팅
- 영국여행
- Today
- Total
목록Study/GenAI (3)
Soy Library
LLaMA7B(70억 개)에서 65B(650억)까지의 파라미터를 가진 기초 언어 모델들로 구성수조 개의 토큰에 대해 학습시킴. 공개적으로 이용 가능한 데이터셋만을 사용하여도 최첨단 모델을 훈련시킬 수 있다는 것Introduction가장 큰 모델이 아니라 더 많은 데이터로 훈련된 작은 모델Pretraining공개적으로 오픈된 데이터만을 사용CCNet 파이프라인, Ngram, Linear classifier, fastText 등을 이용하여 data cleansingTokeniner : BPE(Byte Piece Encoding)Architecture: TransformerAdamW OptimizerBPE(Byte-Pair Encoding) 알고리즘문자 단위 구성단어 단위 구성: 데이터 효율성 측면에서는 단어..
VectorDB란벡터DB란?정보를 벡터로 저장하는 데이터베이스비정형 데이터와 반정형 데이터로 구성된 대규모 데이터 셋을 색인하고 검색벡터 임베딩은 주제, 단어, 이미지 또는 기타 데이터를 숫자로 표현임베딩 사이의 거리 또는 유사도를 통해 벡터 검색 엔진이 벡터 검색알고리즘을 사용하여 벡터 임베딩을 색인하고 쿼리최근접 유사 항목 검색(ANN) - 해싱, 양자화, 그래프 기반 검색벡터DB의 등장Oracle, MySQL과 같은 관계형 데이터베이스는 많은 기업 및 서비스에서 많이 사용되고 있는 데이터 저장 방식으로, 구조화된 정형 데이터를 처리하는 데 효과적그러나 RDBMS(관계형 데이터베이스)는 비정형 데이터 또는 다차원의 데이터를 저장하고 관리하는 데 한계가 있음텍스트, 이미지, 오디오 등은 테이블에 저장하..
특징 벡터의 유사도 & 거리벡터의 관계를 숫자로 수치화하여 비교L1 distancea = np.array([2, 5])b = np.array([4, 6])c = np.array([6, 2])# numpy를 이용한 계산distance = np.sum(np.abs(a - b))distance = np.linalg.norm(a - b, 1)# torch를 이용한 계산tensor_a = torch.from_numpy(a).float()tensor_b = torch.from_numpy(b).float()distance = torch.norm(tensor_a - tensor_b, 1)L2 distance# numpy를 이용한 계산distance = np.sqrt(np.sum(np.square(a - b)))dist..