일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 책리뷰
- 독후감
- 제주도
- SQL
- 오블완
- 유럽여행
- GenAI
- Github
- digital marketing
- 클러스터형인덱스
- 스토어드 프로시저
- 스플라인
- PRML
- Linux
- 제주도여행
- 혼공S
- 티스토리챌린지
- 런던
- 보조인덱스
- 혼자공부하는SQL
- 에이바우트
- R
- Jupyter notebook
- PRIMARY KEY
- 김호연작가
- 맛집
- 디지털마케팅
- 영국여행
- 제주2주살이
- RStudio
- Today
- Total
목록Study (49)
Soy Library
LLaMA7B(70억 개)에서 65B(650억)까지의 파라미터를 가진 기초 언어 모델들로 구성수조 개의 토큰에 대해 학습시킴. 공개적으로 이용 가능한 데이터셋만을 사용하여도 최첨단 모델을 훈련시킬 수 있다는 것Introduction가장 큰 모델이 아니라 더 많은 데이터로 훈련된 작은 모델Pretraining공개적으로 오픈된 데이터만을 사용CCNet 파이프라인, Ngram, Linear classifier, fastText 등을 이용하여 data cleansingTokeniner : BPE(Byte Piece Encoding)Architecture: TransformerAdamW OptimizerBPE(Byte-Pair Encoding) 알고리즘문자 단위 구성단어 단위 구성: 데이터 효율성 측면에서는 단어..

WSL(Windows Subsystem for Linux)윈도우의 가상화 기능을 활용해서 윈도우 위에서 리눅스를 사용할 수 있게 하는 기능윈도우10 업데이트가 되면서 WSL2도 정식 릴리즈 됨WSL 설치제어판 > 프로그램 > 프로그램 및 기능 > Windows 기능 켜기/끄기 > Linux용 Windows 하위 시스템 체크박스 활성화 Ubuntu 설치: Ubuntu 22.04.5 LTS계정 생성: username/new password 입력 WSL2 설치WSL을 설치한 후 업그레이드를 통해 설치할 수 있음제어판 > 프로그램 > 프로그램 및 기능 > Windows 기능 켜기/끄기 선택 > 가상머신 플랫폼 체크박스 활성화 리눅스 커널 업데이트 패키지 설치 링크: x64 머신용 최신 WSL2 Linux 커..

VectorDB란벡터DB란?정보를 벡터로 저장하는 데이터베이스비정형 데이터와 반정형 데이터로 구성된 대규모 데이터 셋을 색인하고 검색벡터 임베딩은 주제, 단어, 이미지 또는 기타 데이터를 숫자로 표현임베딩 사이의 거리 또는 유사도를 통해 벡터 검색 엔진이 벡터 검색알고리즘을 사용하여 벡터 임베딩을 색인하고 쿼리최근접 유사 항목 검색(ANN) - 해싱, 양자화, 그래프 기반 검색벡터DB의 등장Oracle, MySQL과 같은 관계형 데이터베이스는 많은 기업 및 서비스에서 많이 사용되고 있는 데이터 저장 방식으로, 구조화된 정형 데이터를 처리하는 데 효과적그러나 RDBMS(관계형 데이터베이스)는 비정형 데이터 또는 다차원의 데이터를 저장하고 관리하는 데 한계가 있음텍스트, 이미지, 오디오 등은 테이블에 저장하..

특징 벡터의 유사도 & 거리벡터의 관계를 숫자로 수치화하여 비교L1 distancea = np.array([2, 5])b = np.array([4, 6])c = np.array([6, 2])# numpy를 이용한 계산distance = np.sum(np.abs(a - b))distance = np.linalg.norm(a - b, 1)# torch를 이용한 계산tensor_a = torch.from_numpy(a).float()tensor_b = torch.from_numpy(b).float()distance = torch.norm(tensor_a - tensor_b, 1)L2 distance# numpy를 이용한 계산distance = np.sqrt(np.sum(np.square(a - b)))dist..
구글 Colab 내에서 작업하고 Github에 코드 버전 관리하기 (Git pull, commit, push) 기본적으로 파일 구조는 아래와 같이 생성한다. folder1 data folder data1.csv .. file folder notebook1.ipynb .. .. git.ipynb .gitignore colab에서 notebook1.ipynb으로 작업하다가 해당 노트북을 github으로 push 하고자 한다. 깃헙에 연동할 때는 개인 git token이 필요한데, 해당 token이 노출되어있는 notebook은 git에 push를 하면 안되므로, git.ipynb에서 push 작업을 하고 .gitignore에 git.ipynb 파일 이름을 적어주면 된다. from google.colab im..
Github 내 폴더 및 파일 Google Drive로 Clone하기 from google.colab import drive drive.mount('/content/drive') import os from os.path import join # 구글 드라이브 PATH GDRIVE_PATH = '/content/drive/MyDrive/Github/Code-Up' # 깃허브 USERNAME GIT_USERNAME = {'깃허브아이디'} GIT_EMAIL = {'깃허브주소'} # 깃허브 TOKEN GIT_TOKEN = {'발급받은토큰'} # 깃허브에서 CLONE할 REPO 이름 GIT_REPOSITORY = "Code-Up" GDRIVE_FILE_PATH = join(GDRIVE_PATH) # 아래 경로로 ..
정규표현식의 기초, 메타문자: [], Dot(.), 반복(*, +, {m,n}) , ? - [abc] : 대괄호 안 문자들과 매치. 하이픈(-)을 이용하여 from-to도 가능. - Dot(.) : 줄바꿈(\n)을 제외한 모든 문자와 매치. 또한 하나는 있어야 매치됨. - 반복(*) : 0번 이상 반복되면 매치. - 반복(+) : 1번 이상 반복되면 매치. - 반복({m,n}) : m이상 n이하 반복되는 부분과 매치. - ? : 0회 또는 1회 == {m, n} 정규식을 이용한 문자열 검색 1. match # match: p = re.compile('[a-z]+') # a-z까지 어떠한 문자열이 한 번 이상 반복. m = p.match('python') ; print(m) m = p.match('3 py..
In [53]:from IPython.core.display import display, HTMLdisplay(HTML("")) In [2]:!pip install networkx Requirement already satisfied: networkx in c:\users\thdus\anaconda3\lib\site-packages (2.5)Requirement already satisfied: decorator>=4.3.0 in c:\users\thdus\anaconda3\lib\site-packages (from networkx) (4.4.2)In [5]:!pip install plotly Collecting plotly Downloading plotly-5.11.0-py2.py3-none-any..