๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก์ „์ฒด ๊ธ€ (100)

Soy Library

[R] ์ฝ˜์†” ์ฐฝ์—์„œ ํ•œ๊ธ€ ๊นจ์ง ํ˜„์ƒ ํ•ด๊ฒฐํ•˜๊ธฐ

์˜ˆ์ „์— ๊ณต๋ถ€ํ–ˆ๋˜ Text Mining ๊ด€๋ จ rํŒŒ์ผ์„ ๋‹ค์‹œ ์—ด์–ด๋ณด์•˜๋‹ค. ๋…ธํŠธ๋ถ์„ ์ƒˆ๋กœ ์ƒ€๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋•Œ ํ•„์š”ํ–ˆ๋˜ ํŒจํ‚ค์ง€๋“ค์„ ์ƒˆ๋กœ ์„ค์น˜ ํ•ด์•ผํ–ˆ๋‹ค. ๊ทผ๋ฐ 'rJava'๋ผ๋Š” ํŒจํ‚ค์ง€๋ฅผ ๋ณด์ž ์–ด๋ ดํ’‹์ด ๊ณผ๊ฑฐ์— ์ด ํŒจํ‚ค์ง€ ์„ค์น˜๋กœ ์ธํ•ด ๊ณ ํ†ต๋ฐ›๋˜ ๋‚ด ๋ชจ์Šต์ด ๋– ์˜ฌ๋ž๋‹ค.. JAVA_HOME ๊ด€๋ จ path์„ค์ •์—์„œ ์—„์ฒญ ์ฐพ์•„๋ณด๊ณ  ํ•ด๊ฒฐํ–ˆ๋˜ ๊ธฐ์–ต์ด ์žˆ๋‹ค. ์•„๋ž˜ ์‚ฌ์ง„์—์„œ ๋ณด์ด๋Š” ์—๋Ÿฌ๋ฉ”์„ธ์ง€ ๋˜ํ•œ ๊ทธ๊ฑฐ์— ๊ด€๋ จ๋œ ๋‚ด์šฉ์ด๋‹ค. ํ•˜์ง€๋งŒ ๋จผ์ € ์ € ์ฝ˜์†”์ฐฝ์˜ ํ•œ๊ธ€ ๊นจ์ง ํ˜„์ƒ๋ถ€ํ„ฐ ํ•ด๊ฒฐํ•ด์•ผ๊ฒ ๋‹ค ์‹ถ์—ˆ๋‹ค. ์ด๊ฑด ๊ฐ„๋‹จํ•˜๊ฒŒ ์•„๋ž˜์™€ ๊ฐ™์ด statement๋งŒ ์ ์–ด์ฃผ๋ฉด ํ•ด๊ฒฐ๋œ๋‹ค. Sys.setlocale("LC_ALL", "English_United States.1252") ๊ทธ๋ฆฌ๊ณ  ๋‚˜์„œ ๋‹ค์‹œ ๋Œ๋ ค๋ณด๋ฉด ์˜์–ด๋กœ ์ถœ๋ ฅ๋จ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ด์ œ JAVA_HOME path ๊ด€..

Study/R 2020. 9. 9. 23:10
[ํ†ต๊ณ„๋ถ„์„๋ฐฉ๋ฒ•๋ก ] ๊ธฐ์ดˆ ํ†ต๊ณ„ ์ง€์‹

ํ†ต๊ณ„ ์ „๊ณต์ž๋“ค์€ ์ˆ˜์‹ญ ๊ฐœ์˜ ํ†ต๊ณ„ ๊ณผ๋ชฉ์„ ์ด์ˆ˜ํ•˜๋ฉด์„œ ๊ทธ์— ๋”ฐ๋ฅธ ๋ถ„์„๋ฐฉ๋ฒ•์„ ๋ฐฐ์šด๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต๊ณ„์  ๋ฐฉ๋ฒ•๋“ค์ด ์˜ํ•™์—ฐ๊ตฌ๋ฅผ ๋น„๋กฏํ•œ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ํ†ต๊ณ„ ์ „๊ณต์ž๋“ค์€ ์—ฐ๊ตฌ ๋ถ„์„์„ ํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์— ์‚ฌ์šฉ๋˜๋Š” ์ž๋ฃŒ์˜ ํŠน์„ฑ์„ ํŒŒ์•…ํ•˜๊ณ  ์–ด๋–ค ๋ถ„์„ ๋ฐฉ๋ฒ•์ด ํ•„์š”๊ฐ€ ๋˜๋Š”์ง€ ์•Œ์•„์•ผ ํ•  ๊ฒƒ์ด๋‹ค. ๊ฐ€์„ค๊ฒ€์ •์˜ ์›๋ฆฌ ๊ฐ€์„ค๊ฒ€์ •(hypothesis testing)์€ ๋ชจ์ˆ˜(parameter)์— ๋Œ€ํ•œ ๊ฐ€์„ค์˜ ์˜ณ๊ณ  ๊ทธ๋ฆ„์„ ํŒ๋‹จํ•˜๋Š” ์ ˆ์ฐจ์ด๋‹ค. ์ด๋•Œ ๋ชจ์ˆ˜(parameter)๋ž€ ์‹คํ—˜ ๋Œ€์ƒ์ด ๋˜๋Š” ๋ชจ์ง‘๋‹จ(population)์—์„œ ์šฐ๋ฆฌ๊ฐ€ ๊ด€์‹ฌ ์žˆ์–ดํ•˜๋Š” ๊ฐ’์œผ๋กœ ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ ๋ชจํ‰๊ท , ๋ชจ ๋ถ„์‚ฐ, ๋ชจ๋น„์œจ ๋“ฑ์ด ์žˆ๋‹ค. ํ˜„์‹ค์ ์œผ๋กœ ๋ชจ์ง‘๋‹จ์˜ ๋Œ€์ƒ ์ „์ฒด๋ฅผ ์กฐ์‚ฌํ•˜๊ธฐ๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์šฐ๋ฆฌ๋Š” ๋žœ๋ค ํ‘œ๋ณธ์„ ๋ฝ‘์•„ ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ..

Study/Statistics 2020. 9. 7. 22:47
[ํ†ต๊ณ„๊ณ„์‚ฐ๋ฐฉ๋ฒ•๋ก ] Gaussian Elimination Algorithm๊ณผ Cholesky Algorithm

Inverse Computing ์šฐ๋ฆฌ๋Š” $Ax = b$ ๋ผ๋Š” ์„ ํ˜• ๋ชจํ˜•์—์„œ์˜ solution์„ ์–˜๊ธฐํ•  ๋•Œ, ํ–‰๋ ฌ A๋Š” non-singularity์˜ ์„ฑ์งˆ์„ ๊ฐ€์ง€๊ณ  ์žˆ์–ด์•ผ ํ•˜๋ฉฐ ๊ทธ๋•Œ์˜ solution์€ $A^{-1}b$์œผ๋กœ ๊ตฌํ•œ๋‹ค. ํ•˜์ง€๋งŒ computing์— ์žˆ์–ด์„œ A์˜ inverse๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์€ ๋„ˆ๋ฌด ๋ณต์žกํ•˜๊ณ  ๋งŽ์€ ์‹œ๊ฐ„์ด ์†Œ์š”๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์ž๋ฉด, $n \times n$ ์˜ ํ–‰๋ ฌ A๋Š” computing ์‹œ $O(n^2)$ ์˜ flop์ด ํ•„์š”ํ•˜๋‹ค. ์ด๋•Œ ํ–‰๋ ฌ A๋ฅผ $I + uv^T$์˜ ํ˜•ํƒœ๋กœ ๋งŒ๋“ค์–ด์คŒ์œผ๋กœ์จ ๊ณ„์‚ฐ์— ํ•„์š”ํ•œ flop์€ $O(n)$๋กœ ์ค„์–ด๋“ ๋‹ค. ๋”ฐ๋ผ์„œ ํ–‰๋ ฌ์˜ structure๋ฅผ ์ž˜ ์ด์šฉํ•˜๋ฉด computation์˜ ์†๋„๋ฅผ ๋นจ๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. R ํ”„๋กœ๊ทธ๋žจ์—์„œ๋Š” solve() ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ inver..

Study/Statistics 2020. 4. 30. 20:05
[ํ†ต๊ณ„๊ณ„์‚ฐ๋ฐฉ๋ฒ•๋ก ] RIDGE ์™€ LASSO

Stein's Paradox ํ†ต๊ณ„ํ•™์—์„œ์˜ ์ถ”์ •๋Ÿ‰์˜ Efficiency์˜ ์ •๋„๋Š” MSE๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ•œ๋‹ค. MSE(Mean Squared Error)๊ฐ€ ์ž‘์œผ๋ฉด ์ž‘์„์ˆ˜๋ก ๊ทธ ์ถ”์ •๋Ÿ‰์€ ์ข‹์€ ์ถ”์ •๋Ÿ‰์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ณดํ†ต bias๊ฐ€ 0์ธ ๋น„ํŽธํ–ฅ์ถ”์ •๋Ÿ‰์œผ๋กœ MLE์™€ UMVUE๊ฐ€ ์ข‹์€ ์ถ”์ •๋Ÿ‰์œผ๋กœ ์ƒ๊ฐ๋˜๋Š”๋ฐ Stein's Paradox๋Š” bias๊ฐ€ ์žˆ๋‹ค ํ•˜๋”๋ผ๋„ MSE๊ฐ€ ๋” ์ž‘๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๋” ์ข‹์€ ์ถ”์ •๋Ÿ‰์„ ์ƒ๊ฐํ•ด๋‚ธ๋‹ค. ๊ทธ ์ถ”์ •๋Ÿ‰์€ 'James-Stein Estimator'๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. JS estimator์˜ ํ˜•ํƒœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋ชจ์ˆ˜์˜ ๊ฐœ์ˆ˜ p๊ฐ€ 3๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” JS ์ถ”์ •๋Ÿ‰์˜ Risk๋Š” MLE๋‚˜ UMVUE์˜ ๊ฒƒ๋ณด๋‹ค ์ž‘์€ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. JS ์ถ”์ •๋Ÿ‰์€ ๊ฐ๊ฐ์˜ component๋“ค์„ origin์ชฝ..

Study/Statistics 2020. 4. 25. 01:18