본문 바로가기
728x90

BigData9

하둡 Cloudera Manager 설치 Cloudera Manager 설치 AWS spot instance 생성 - (Red hat Enterprise 7.7) m5a.large (2CPU, RAM 8G, SSD 50G) 4개를 생성한다 기본 설정 : yum install -y wget && yum install -y bind-utils 도메인 AWS 의 경우 제공해주는 Private IPv4 address 와 Private IPv4 DNS 를 사용 Cloudera Manager 설치 사전 준비 Configure Network Names Private IP 와 Private 도메인이 매핑되어 있는 AWS 인스턴스의 경우는 설정이 불필요하다. Disabling the Firewall disable : sudo systemctl disable f.. 2020. 10. 5.
8 Best Big Data Tools in 2020 dzone.com/articles/8-best-big-data-tools-in-2020 2020. 9. 19.
엔터프라이즈 데이터 플랫폼 구축하기 1탄 핵심 컨포넌트 하둡 프로젝트의 핵심을 이루는면서 다른 기술의 근간이 되는 것은 HDFS, 얀(Yarn), 아파치 주키퍼(Zookeeper), 아파치 하이브 메타스토어(Hive Metastore)다. 이들의 조합은 하둡 클러스터에서 실해되는 대부분의 프레임워크나 프로젝트 또는 애플리케이션의 기초를 이룬다. HDFS 하둡 분산시스템(HDFS) 은 확장성과 장애 허용성(fault-tolerant) 을 가진 분산 파일시스템이다. Yarn 데이터를 확정성 있고, 회복성 있는 방식으로 저장하는 것도 유용하지만 우리에게 가장 중요한 것은 데이터로부터 통찰을 얻어내는것이다. 통찰을 얻으려면 데이터에 대한 연산이 필요하고, 하둡 파일시스템에 저장해야 할 정도의 큰 규모의 데이터에 대해서도 연산이 가능하도록 확장성이 필요.. 2020. 9. 19.
Kafka 핵심 포인트 Kafka 핵심 포인트 Partition의 개수 >= Consumer 인스턴스의 갯수 전달 보증 - 요구사항에 따라 적절하게 조절 At Most Once : 재전송 유무 X, 중복 삭제 유무 X At Least Once : 재전송 유무 O, 중복 삭제 유무 X Eactly Once : 재전송 유무 O, 중복 삭제 유무 O Offset Commit - 요구사항에 따라 적절하게 조절 Auto Offset Commit Manual Offset Commit commitSync commitAsync Offset 은 Constumer Group 별로 관리된다. 하나의 메시지를 다른 Constumer Group 에서 똑같은 값을 consume 가능, 하지만, 같은 Constumer Group 내에서는 오직 한번만 가.. 2020. 9. 19.
IoT 에서의 네트워크 엔진 IoT 에서의 네트워크 엔진 1. 개요 인터넷이 보편화된 시점부터 지금까지 데이터 처리에 대한 관심과 이슈는 언제나 있어 왔다. 인터넷의 속도가 느렸던 과거에는 데이터량와 처리속도에 대한 이슈가 그다지 많지는 않았지만, 에러없이 데이터 처리를 하고자 하는 생각은 속도와 데이터량에 상관없이 주요 관심사였다. 5G로 가고 있는 현시점도 마찬가지로 속도와 데이터량에 대한 관심은 실시간으로 데이터를 처리하는 솔루션 특히 서비스파트에서 많이 관심을 보이고 있다. 1.1. 데이터 수집 데이터 수집이란 말은 쉽게 생각하면, 그냥 저절로 들어오는 데이터를 모으는 행위 또는 특정한 장소에 저장되어 있는 데이터를 가져와서 저장하는 개념이 포함되어 있다. 데이터 수집은 초기 인터넷 서비스부터 회원가입이라는 개념이 있는 그 .. 2019. 10. 12.
728x90