DB/그 외

[Hadoop] 하둡이란?

HMHA 2023. 2. 15. 10:38

300x250

1-하둡이란?

하둡은 2006년 야후의 더그 커팅이 '넛치'라는 검색엔진을 개발하는 과정에서 대용량의 비정형 데이터를 기존의 RDB 기술로는 처리가 힘들다는 것을 깨닫고, 새로운 기술을 찾는 중 구글에서 발표한 GFS와 MapReduce 관련 논문을 참고하여 개발하였습니다. 이후 아파치 재단의 오픈 소스로 공개 되었습니다.

하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크라고 할 수 있습니다.

2020.06월 기준 최신 버전은 v3.2.1, v2.10 입니다.

하둡의 구성 요소

하둡은 4개의 주요 모듈로 구성됩니다.

Hadoop Common
- 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈
Hadoop HDFS
- 분산저장을 처리하기 위한 모듈
- 여러개의 서버를 하나의 서버처럼 묶어서 데이터를 저장
Hadoop YARN
- 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당
Hadoop Mapreduce
- 분산되어 저장된 데이터를 병렬 처리할 수 있게 해주는 분산 처리 모듈
Hadoop Ozone
- 하둡을 위한 오브젝트 저장소

하둡의 장단점

장점
- 오픈소스로 라이선스에 대한 비용 부담이 적음
- 시스템을 중단하지 않고, 장비의 추가가 용이(Scale Out)
- 일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영향이 적음(Fault tolerance)
- 저렴한 구축 비용과 비용대비 빠른 데이터 처리
- 오프라인 배치 프로세싱에 최적화
단점
- HDFS에 저장된 데이터를 변경 불가
- 실시간 데이터 분석 같이 신속하게 처리해야 하는 작업에는 부적합
- 너무 많은 버전과 부실한 서포트
- 설정의 어려움

출처 : https://wikidocs.net/22654

1-하둡이란?

하둡은 2006년 야후의 더그 커팅이 '넛치'라는 검색엔진을 개발하는 과정에서 대용량의 비정형 데이터를 기존의 RDB 기술로는 처리가 힘들다는 것을 깨닫고, 새로운 기술을 찾는 …

wikidocs.net

300x250

'DB > 그 외' 카테고리의 다른 글

[Oracle] 그룹 함수 (ROLLUP, CUBE, GROUPING 등) (0)	2023.03.21
[Hadoop] 하둡(Hadoop) 기초 정리 (1)	2023.02.15
검색엔진 비교_Solr vs ElasticSearch (0)	2023.02.09
[데이터베이스] 데이터베이스 설계 (0)	2023.02.06
[데이터베이스] 데이터베이스 관리 시스템(DBMS)의 구성 (0)	2023.02.06

현재글[Hadoop] 하둡이란?

300x250

개발 중 궁금해서 찾아본 정보이며 모든 글에는 출처를 남깁니다

windowsserver, 배송API, 스킬데이터, php, chatbot, 배송추적, javascript, skilldata, 배송조회, kakao chatbot, Java, sphinx, tomcat, Apache24, Spring, 챗봇, DeliveryTracker, javaconfig, ECMA, CURL,

Today :
Yesterday :

뭐가 자꾸 궁금한 개발자

[Hadoop] 하둡이란?

1-하둡이란?

하둡의 구성 요소

하둡의 장단점

'DB > 그 외' 카테고리의 다른 글

'DB/그 외'의 다른글

티스토리툴바

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

[Hadoop] 하둡이란?

1-하둡이란?

하둡의 구성 요소

하둡의 장단점

'DB > 그 외' 카테고리의 다른 글

'DB/그 외'의 다른글

관련글

티스토리툴바