일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 제주2주살이
- 영국여행
- 혼공S
- 런던
- digital marketing
- 오블완
- R
- Github
- 독후감
- 맛집
- 디지털마케팅
- 김호연작가
- PRML
- 스토어드 프로시저
- RStudio
- 스플라인
- 유럽여행
- 에이바우트
- 클러스터형인덱스
- Jupyter notebook
- GenAI
- 제주도여행
- 제주도
- PRIMARY KEY
- 보조인덱스
- 티스토리챌린지
- Linux
- 책리뷰
- 혼자공부하는SQL
- SQL
- Today
- Total
목록Study (49)
Soy Library

이때까지 많은 smoothing spline기법이 많이 개발되어왔지만, monotonicity(단조성)나 convexity/concavity, periodicity 등과 같은 제약조건을 젹용하는데에는 어려움이 있었다. 해당 논문에서는 이러한 제약조건을 만족하는 smoothing spline 기법을 소개한다. COBS 모형은 Xuming He 와 Peide Shi에 의해 맨 처음으로 고안되었고 그 이후 다른 연구자들에 의해 추가 연구가 진행되었다. COBS 모형은 몇몇 데이터에 대해 flexible한 옵션들을 통해 이점을 갖는다고 말한다. COBS에서 fit에 대해 smoother를 제공하는 두 가지 옵션이 있는데 이를 (1) smoothing splines (with a roughness penalty)..

평소에 R studio를 이용해서 R 코드를 돌렸었다. 근데 이번 SK C&C 하반기 공채에서 데이터 분석 필기를 R이나 Python 둘 중 하나를 선택하고 Jupyer notebook 환경에서 진행한다고 하였다. 따라서 Jupyter notebook에 R 커널 설치하는 법을 써보고자 한돳. 1. anaconda prompt를 킨다. 2. 다음의 코드를 치고 엔터를 누른다. conda install -c r r-essentials 3. proceed yes or no 가 나오면 y를 입력한다. 4. 완료 후에 jupyter notebook을 켜본닷. 5. 우측 상단의 New에서 R이 생성된 거 확인! R을 누르면 R 코드를 쓸 수 있는 주피터 노트북이 만들어진다! 연습하러 가야쥉

통계상담 수업에서 들어온 의뢰가 SPSS로 분석하는 것이어서 학교 계정을 통해 SPSS를 깔았다. 근데 SPSS를 까니까 R 3.3.3버전도 같이 깔려버려서....... 얘 때문에 문제가 발생해서 증말 좌증났다. 깔린 거 자체는 문제가 되지 않는데, Rcpp 파일을 R에서 빌드시킬 때도 이 R 3.3.3때문에 빌드가 안 되기도 하고, R markdown에서 pdf로 knit시킬 때도 요상한 warning이 뜨기도 했다. 일단 R project를 열면, .RData를 불러들일 수 없다는 warning이 뜨고, 빌드하려고 하자 " .RData has magic number 'RDX3' " 라고 하면서 에러가 나고 빌드가 안 되었다.... (그 부분은 캡쳐하는 거 까먹음) 내 생각에 이건 버전이 3.3.3으로..

이 예시는 회귀 문제를 다룬다. 여기서는 $sin(2\pi x)$에 약간의 noise를 추가해 데이터를 생성하였다. $$ \mathbf{t} = sin(2\pi \mathbf{x}) + \varepsilon $$ 이때 $\mathbf{t} = (t_1, t_2, ...., t_N)^T$, $\mathbf{x} = (x_1, x_2, ..., x_N)^T$이다. 오차는 가우시안 분포를 따른다. 즉, N개의 input vector $\mathbf{x}$에 대해서 N개의 output vector $\mathbf{t}$가 있는 것이다. 이제 우리는 이 데이터를 이용해서 곡선을 fitting 시키고, 이 함수를 통해 어떠한 input $\hat{x}$이 주어졌을 때 타켓 변수 $\hat{t}$를 예측한다. 해당 ..
기본 용어 패턴인식(pattern recognition)은 컴퓨터 알고리즘을 활용하여 데이터의 규칙성을 자동적으로 찾아내고, 이 규칙성을 이용하여 데이터를 각각의 카테고리로 분류하는 등의 일을 하는 분야이다. 손글씨로 쓰인 숫자를 각각 해당되는 숫자로 분류하는 것과 같은 것이 하나의 예시가 될 수 있겠다. 머신러닝은 이러한 분석에 좀 더 효과적인 결과를 가져다준다. 머신러닝에서 우리는 훈련집합(training set)을 이용하여 변경 가능한 모델의 매개변수들을 조절하는 등의 훈련단계(학습단계)를 거쳐 적절한 모델을 선택하게 된다. 그 후에 시험집합(testing set)에 그 모델을 적용시켜 보아 모델의 성능을 파악한다. 이때 훈련단계에서 사용되지 않았던 새로운 예시들을 올바르게 분류하는 능력을 일반화(..

예전에 공부했던 Text Mining 관련 r파일을 다시 열어보았다. 노트북을 새로 샀기 때문에 그때 필요했던 패키지들을 새로 설치 해야했다. 근데 'rJava'라는 패키지를 보자 어렴풋이 과거에 이 패키지 설치로 인해 고통받던 내 모습이 떠올랐다.. JAVA_HOME 관련 path설정에서 엄청 찾아보고 해결했던 기억이 있다. 아래 사진에서 보이는 에러메세지 또한 그거에 관련된 내용이다. 하지만 먼저 저 콘솔창의 한글 깨짐 현상부터 해결해야겠다 싶었다. 이건 간단하게 아래와 같이 statement만 적어주면 해결된다. Sys.setlocale("LC_ALL", "English_United States.1252") 그리고 나서 다시 돌려보면 영어로 출력됨을 볼 수 있다. 이제 JAVA_HOME path 관..

통계 전공자들은 수십 개의 통계 과목을 이수하면서 그에 따른 분석방법을 배운다. 이러한 통계적 방법들이 의학연구를 비롯한 다양한 연구에서 많이 사용된다. 따라서 통계 전공자들은 연구 분석을 하기 위해 연구에 사용되는 자료의 특성을 파악하고 어떤 분석 방법이 필요가 되는지 알아야 할 것이다. 가설검정의 원리 가설검정(hypothesis testing)은 모수(parameter)에 대한 가설의 옳고 그름을 판단하는 절차이다. 이때 모수(parameter)란 실험 대상이 되는 모집단(population)에서 우리가 관심 있어하는 값으로 모집단의 특성을 나타낸다. 대표적으로 모평균, 모 분산, 모비율 등이 있다. 현실적으로 모집단의 대상 전체를 조사하기가 불가능하기 때문에 우리는 랜덤 표본을 뽑아 모집단에 대한..

Inverse Computing 우리는 $Ax = b$ 라는 선형 모형에서의 solution을 얘기할 때, 행렬 A는 non-singularity의 성질을 가지고 있어야 하며 그때의 solution은 $A^{-1}b$으로 구한다. 하지만 computing에 있어서 A의 inverse를 구하는 것은 너무 복잡하고 많은 시간이 소요된다. 예를 들자면, $n \times n$ 의 행렬 A는 computing 시 $O(n^2)$ 의 flop이 필요하다. 이때 행렬 A를 $I + uv^T$의 형태로 만들어줌으로써 계산에 필요한 flop은 $O(n)$로 줄어든다. 따라서 행렬의 structure를 잘 이용하면 computation의 속도를 빨리할 수 있다. R 프로그램에서는 solve() 함수를 이용하여 inver..