'Study/GenAI' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록Study/GenAI (3)

Soy Library

[GenAI] LLM 종류

LLaMA7B(70억 개)에서 65B(650억)까지의 파라미터를 가진 기초 언어 모델들로 구성수조 개의 토큰에 대해 학습시킴. 공개적으로 이용 가능한 데이터셋만을 사용하여도 최첨단 모델을 훈련시킬 수 있다는 것Introduction가장 큰 모델이 아니라 더 많은 데이터로 훈련된 작은 모델Pretraining공개적으로 오픈된 데이터만을 사용CCNet 파이프라인, Ngram, Linear classifier, fastText 등을 이용하여 data cleansingTokeniner : BPE(Byte Piece Encoding)Architecture: TransformerAdamW OptimizerBPE(Byte-Pair Encoding) 알고리즘문자 단위 구성단어 단위 구성: 데이터 효율성 측면에서는 단어..

Study/GenAI 2024. 11. 13. 16:15

[VectorDB] 벡터DB란

VectorDB란벡터DB란?정보를 벡터로 저장하는 데이터베이스비정형 데이터와 반정형 데이터로 구성된 대규모 데이터 셋을 색인하고 검색벡터 임베딩은 주제, 단어, 이미지 또는 기타 데이터를 숫자로 표현임베딩 사이의 거리 또는 유사도를 통해 벡터 검색 엔진이 벡터 검색알고리즘을 사용하여 벡터 임베딩을 색인하고 쿼리최근접 유사 항목 검색(ANN) - 해싱, 양자화, 그래프 기반 검색벡터DB의 등장Oracle, MySQL과 같은 관계형 데이터베이스는 많은 기업 및 서비스에서 많이 사용되고 있는 데이터 저장 방식으로, 구조화된 정형 데이터를 처리하는 데 효과적그러나 RDBMS(관계형 데이터베이스)는 비정형 데이터 또는 다차원의 데이터를 저장하고 관리하는 데 한계가 있음텍스트, 이미지, 오디오 등은 테이블에 저장하..

Study/GenAI 2024. 8. 22. 18:12

[VectorDB] 특징벡터

특징 벡터의 유사도 & 거리벡터의 관계를 숫자로 수치화하여 비교L1 distancea = np.array([2, 5])b = np.array([4, 6])c = np.array([6, 2])# numpy를 이용한 계산distance = np.sum(np.abs(a - b))distance = np.linalg.norm(a - b, 1)# torch를 이용한 계산tensor_a = torch.from_numpy(a).float()tensor_b = torch.from_numpy(b).float()distance = torch.norm(tensor_a - tensor_b, 1)L2 distance# numpy를 이용한 계산distance = np.sqrt(np.sum(np.square(a - b)))dist..

Study/GenAI 2024. 8. 22. 18:10

이전 Prev 1 Next 다음

목록Study/GenAI (3)

Soy Library

티스토리툴바