본문 바로가기

BigData10

HAProxy TCP Keep-Alive & timeout HAProxy timeout이 60초이고, net.ipv4.tcp_keepalive_time 가 30초일때, TCP Keep-Alive 패킷을 클라이언트가 응답하지 않으면 HAProxy 연결이 끊어지나? 이 시나리오에서 TCP Keep-Alive 패킷에 클라이언트가 응답하지 않는 경우, HAProxy의 연결 종료 여부는 다음 두 가지로 나뉩니다:1. 클라이언트가 TCP Keep-Alive 패킷에 응답하지 않는 경우TCP Keep-Alive는 운영 체제 레벨에서의 연결 상태 확인 메커니즘입니다. 만약 클라이언트가 Keep-Alive 패킷에 응답하지 않으면:운영 체제(OS)가 연결을 종료:HAProxy가 클라이언트 연결을 종료:2. HAProxy의 타임아웃(timeout client)과의 관계TCP Keep.. 2025. 1. 20.
하둡 Cloudera Manager 설치 Cloudera Manager 설치 AWS spot instance 생성 - (Red hat Enterprise 7.7) m5a.large (2CPU, RAM 8G, SSD 50G) 4개를 생성한다 기본 설정 : yum install -y wget && yum install -y bind-utils 도메인 AWS 의 경우 제공해주는 Private IPv4 address 와 Private IPv4 DNS 를 사용 Cloudera Manager 설치 사전 준비 Configure Network Names Private IP 와 Private 도메인이 매핑되어 있는 AWS 인스턴스의 경우는 설정이 불필요하다. Disabling the Firewall disable : sudo systemctl disable f.. 2020. 10. 5.
8 Best Big Data Tools in 2020 dzone.com/articles/8-best-big-data-tools-in-2020 2020. 9. 19.
엔터프라이즈 데이터 플랫폼 구축하기 1탄 핵심 컨포넌트 하둡 프로젝트의 핵심을 이루는면서 다른 기술의 근간이 되는 것은 HDFS, 얀(Yarn), 아파치 주키퍼(Zookeeper), 아파치 하이브 메타스토어(Hive Metastore)다. 이들의 조합은 하둡 클러스터에서 실해되는 대부분의 프레임워크나 프로젝트 또는 애플리케이션의 기초를 이룬다. HDFS 하둡 분산시스템(HDFS) 은 확장성과 장애 허용성(fault-tolerant) 을 가진 분산 파일시스템이다. Yarn 데이터를 확정성 있고, 회복성 있는 방식으로 저장하는 것도 유용하지만 우리에게 가장 중요한 것은 데이터로부터 통찰을 얻어내는것이다. 통찰을 얻으려면 데이터에 대한 연산이 필요하고, 하둡 파일시스템에 저장해야 할 정도의 큰 규모의 데이터에 대해서도 연산이 가능하도록 확장성이 필요.. 2020. 9. 19.
Kafka 핵심 포인트 Kafka 핵심 포인트 Partition의 개수 >= Consumer 인스턴스의 갯수 전달 보증 - 요구사항에 따라 적절하게 조절 At Most Once : 재전송 유무 X, 중복 삭제 유무 X At Least Once : 재전송 유무 O, 중복 삭제 유무 X Eactly Once : 재전송 유무 O, 중복 삭제 유무 O Offset Commit - 요구사항에 따라 적절하게 조절 Auto Offset Commit Manual Offset Commit commitSync commitAsync Offset 은 Constumer Group 별로 관리된다. 하나의 메시지를 다른 Constumer Group 에서 똑같은 값을 consume 가능, 하지만, 같은 Constumer Group 내에서는 오직 한번만 가.. 2020. 9. 19.
728x90