일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- SQL
- 에이바우트
- 독후감
- 디지털마케팅
- 김호연작가
- 제주2주살이
- Linux
- 클러스터형인덱스
- 유럽여행
- 스토어드 프로시저
- 맛집
- 영국여행
- R
- 오블완
- Github
- Jupyter notebook
- 제주도
- 런던
- RStudio
- PRML
- 제주도여행
- 보조인덱스
- 티스토리챌린지
- 혼자공부하는SQL
- digital marketing
- 책리뷰
- PRIMARY KEY
- 스플라인
- GenAI
- 혼공S
- Today
- Total
목록Study/Hadoop (2)
Soy Library
하둡(Hadoop, High-Availability Distributed Object-Oriented Platform)이란? 일반 상용 서버로 구성된 클러스터에서 사용할 수 있는 분산 파일시스템과 대량의 자료를 처리하기 위한 분산 처리 시스템을 제공하는 아파치 소프트웨어 재단의 오픈 소스 프레임워크로, 자바언어로 개발되었다. 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다. 하둡v1 2011년에 정식 발표되어, 분산저장과 병렬처리를 목적으로 한다. 분산저장은 네임노드와 데이터노드가 처리한다. 네임노드는 블록정보를 가지고 있는 메타데이터를 관리하고..
하둡에 대해 알아보기 전에 빅데이터라는 것에 대한 정의가 필요할 것 같다. 빅데이터에 대한 정의는 각 분야의 전문가마다 다르다. 맥킨지는 데이터 규모에 초점을 맞춰, 빅데이터라는 것을 '기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터'라고 정의하였다. IDC(International Data Corporation)는 업무 수행 방식에 초점을 맞춰, 빅데이터를 '다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키덱쳐'라고 정의하였다. SNS나 스마트 기기의 확산으로 데이터 양이 기하급수적으로 증가하였고, 저장장치의 가격이 인하나 데이터의 처리 기술이 발달 등 여러 배경 덕분에 빅데이터가 출현했다고 볼 수 있다. ※ ..