본문 바로가기
BigData

엔터프라이즈 데이터 플랫폼 구축하기 1탄

by david100gom 2020. 9. 19.

핵심 컨포넌트

하둡 프로젝트의 핵심을 이루는면서 다른 기술의 근간이 되는 것은 HDFS, 얀(Yarn), 아파치 주키퍼(Zookeeper), 아파치 하이브 메타스토어(Hive Metastore)다. 이들의 조합은 하둡 클러스터에서 실해되는 대부분의 프레임워크나 프로젝트 또는 애플리케이션의 기초를 이룬다.

HDFS

  • 하둡 분산시스템(HDFS) 은 확장성과 장애 허용성(fault-tolerant) 을 가진 분산 파일시스템이다.

Yarn

  • 데이터를 확정성 있고, 회복성 있는 방식으로 저장하는 것도 유용하지만 우리에게 가장 중요한 것은 데이터로부터 통찰을 얻어내는것이다. 통찰을 얻으려면 데이터에 대한 연산이 필요하고, 하둡 파일시스템에 저장해야 할 정도의 큰 규모의 데이터에 대해서도 연산이 가능하도록 확장성이 필요하다. 그뿐 아니라 클러스터에 걸쳐 가용 자원의 사용 효율성을 높이고 데이터 접근 비용을 낮출 수 있도록 다양한 연산이 동시에 실행될 수 있어야 한다. 각 연산은 저마다 서로 다른 크기의 데이터를 처리하며, 서로 다른 크기의 연산력과 메모리를 필요로 한다. 한정된 자원에서 이런 요구사항을 충족시키려면 가용 연산 자원의 용량과 필요한 워크로드를 모두 알고 있는 중앙의 클러스터 매니저가 필요하다. 바로 이런 목적으로 Yarn (Yet Another Resource Negotiator) 이 설계되었다.

아파치 주키퍼

  • 주키퍼는 하둡 에코시스템에 사용되는 회복성 있는 분산 설정 서비스이다. 주키퍼 안에서는 설정 데이터가 파일시스템과 지노드(znode) 라는 노드 트리에 저장되고, 각 지노드는 데이터를 가지고 있으면 0개 이상의 자식 노드를 가질수 있다. 클라이언트는 하나의 주키퍼 서버와 연결을 맺고 지노드를 생성/조회/수정/삭제할 수 있다.

아파치 하이브 메타스토어

  • 하둡 내에 존재하는 비정형 바이너리 데이터(unstructured binary data) 가 아닌 정형 데이터셋(structured dataset)에 대한 정보를 데이터셋, 테이블, 뷰(view) 같은 논리적인 위계 구조로 구성해서 관리한다. 하이브 테이블은 관계형 데이타베이스에서 사용되던 거의 모든 데이터 타입을 지원한다.

참고서적 : 엔터프라이즈 데이터플랫폼 구축 (www.yes24.com/Product/Goods/90634328)

'BigData' 카테고리의 다른 글

하둡 Cloudera Manager 설치  (0) 2020.10.05
8 Best Big Data Tools in 2020  (0) 2020.09.19
Kafka 핵심 포인트  (0) 2020.09.19
IoT 에서의 네트워크 엔진  (0) 2019.10.12
JMeter 사용법  (0) 2019.05.05
Apache Flume 맛보기  (0) 2019.03.12
MQTT  (0) 2015.06.17
참고서적  (1) 2013.01.14

댓글