본문 바로가기

devops/kafka

(7)
4장 카프카 상세 개념 설명 들어가면서 카프카 프로듀서와 컨슈머를 똑똑하게 사용하기 위한 팁들과 매커니즘을 공부하고 정리한 글입니다. 책에서 중요하게 생각한 내용을 정리한 내용이고 자세한 내용은 도서를 참고해주세요!! 토픽 운영시 고려사항 1. 적정 파티션 개수 토픽의 파티션의 개수는 성능과 연관이 깊다. 그래서 적절한 파티션의 개수를 설정하는 것이 중요하다. 토픽 생성 시 파티션 개수 고려사항 데이터 처리량 메시지 키 사용 여부 브로커, 컨슈머 영향도 데이터 처리량을 고려한 파티션 개수 파티션의 개수를 정할 때는 데이터의 처리량이 얼마나 많은지에 따라서 결정해야한다. 파티션의 개수가 많을 수록 병렬적으로 처리할 컨슈머를 사용할 수 있기 때문이다. 프로듀서의 처리량이 컨슈머의 처리량과 파티션의 수를 곱한 것 보다 작게 해야 데이터 ..
3장 카프카 스트림즈 카프카 스트림즈는 토픽에 적재된 데이터를 상태기반 또는 비상태기반으로 변환하여 다른 토픽에 적재하는 라이브러리이다. 장점 카프카에서 공식적으로 지원하여 호환성이 매우 뛰어남 장애 허용 시스템을 가져 장애에 강함 테스크 스트림즈 애플리케이션을 실행하면 생기는 데이터 처리 최소 단위 토폴로지 2개 이상의 노드들과 선으로 이루어진 집합 프로세서 소스 프로세서 : 데이터를 처리하기 위한 노드 스트림 프로세서 : 다른 프로세서가 반환한 데이터를 처리하는 역할을 하는 노드 싱크 프로세서 : 데이터를 특정 카프카 토픽으로 저장하는 역할을 하는 노드 스트림즈 DSL KStream 레코드의 흐름을 표현한 것으로 메시지 키와 메시지 값으로 구성 KTable 유니크한 메시지 키를 기준으로 가장 최신 레코드를 사용한 스트림 ..
3장 카프카 컨슈머 컨슈머 API 카프카에서 데이터를 넣어주는 프로듀서가 있으니 당연히 데이터를 사용하는 컨슈머가 있다. 컨슈머에 대해서 알아보자. 컨슈머 중요 개념 컨슈머를 운영하는 방법은 크게 2가지가 있다. 토픽의 특정 파티션을 구독하는 컨슈머를 운영하는 방식 1개 이상의 컨슈머로 이루어진 컨슈머 그룹을 운영하는 방식 컨슈머 그룹으로 운영하는 경우를 좀 더 자세히 살펴보자. 1개 이상의 컨슈머로 이루어진 컨슈머 그룹을 운영하는 방식 컨슈머를 각 컨슈머 그룹으로부터 격리된 환경에서 안전하게 운영할 수 있게 도와주는 방식이다. 컨슈머 그룹으로 묶인 컨슈머들은 토픽의 1개 이상 파티션들에 할당되어 데이터를 가져갈 수 있다. 컨슈머 그룹으로 묶인 컨슈머가 토픽을 구독해서 데이터를 가져갈 때, 파티션은 오직 하나의 컨슈머만 사..
3장 카프카 기본 개념 설명 - 브로커, 프로듀서 카프카 브로커, 클러스터 주키퍼 데이터 복제, 싱크 장애 발생시에도 데이터를 유실하지 않고 안전하게 사용하기 위해서 데이터 복제(싱크)를 실행한다. 카프카의 데이터 복제는 파티션 단위로 이루어지며 복제된 파티션은 리터와 팔로워로 구성된다. 팔로워의 파티션은 리더 파티션으로부터 데이터를 가져와서 자신의 파티션에 저장한다. 복제 개수만큼 저장 용량이 증가한다는 단점을 가지고 있다. 리더 파티션에 장애가 발생하면 다른 팔로워 파티션이 그 기능을 위임받는다. 컨트롤러 클러스터의 다수 브로커 중 한 대가 컨트롤러의 역할을 한다. 컨트롤러는 다른 브로커들의 상태를 체크하고 브로커가 클러스터에서 빠지는 경우 해당 브로커에 존재하는 리더 파티션을 재분배한다. 데이터 삭제 카프카는 다른 메시징 플랫폼과 다르게 컨슈머가 ..
2장 카프카 빠르게 시작해보기 (카프카 커맨드 라인 ) kafka-topics.sh 토픽 생성 hello.kafka 이름의 토픽을 생성한다. ./kafka-topics.sh \ --create \ --bootstrap-server kafka:9092 \ -- topic hello.kafka 추가적인 옵션을 설정하지 않으면 기본 설정에 따라 토픽이 생성된다. 옵션을 적용하여 토픽 생성 ./kafka-topics.sh \ --create \ --bootstrap-server kafka:9092 \ --partitions 4 \ --replication-factor 1 \ --config retention.ms=172800000 -- topic hello.kafka.2 option describe partitions 파티션의 개수를 설정한다. replication..
2장 카프카 빠르게 시작해보기 (실습용 카프카 브로커 설치) 들어가면서 책에서는 AWS EC2에 카프카를 설치하고 운영하는 예제를 보여주지만 AWS 계정에 다른 서버를 구동하고 있기도 하고 그냥 로컬에서 외부 환경에 제약 없이 자유롭게 실습을 하고 싶어서 Docker를 사용해서 실습환경을 구축하기로 결정했다. 2.1 실습용 카프카 설치 AWS 환경 설정을 도커 설치로 변경 2.1.1 도커 데스크톱 설치 도커를 그냥 사용해도 괜찮지만 GUI로 변하게 컨테이너를 관리하기 위해서 도커 데스크톱을 설치한다. 2.1.2 인스턴스에 접속하기 아직 컨테이너를 생성하지 않았기 때문에 PASS!! 하지만 생성된 컨테이너를 도커 데스크톱을 사용하면 쉽게 컨테이너에 접속할 수 있다. 도커 CLI도 docker exec 명령을 통해서 접근 가능!! 2.1.3 인스턴스에 자바 설치하기 ..
1장 들어가며 - 아파치 카프카 애플리케이션 프로그래밍 with 자바 1.1 카프카 탄생 링크드인에서 서비스의 성장과 더불어서 내부의 아키텍처가 거대해지고 운영 애플리케이션의 수가 증가하면서 소스 애플리케이션과 타깃 애플리케이션의 개수가 많아지기 시작하였고 데이터를 전송하는 라인이 기하급수적으로 복잡해지기 시작했다. 또한 소스코드 및 버전 관리에서 이슈가 발생하고 타깃 애플리케이션에 장애가 발생하면 소스 애플리케이션으로 장애가 전파되는 문제가 발생하였다. 이러한 문제점을 해결하기 위해서 등장한 것이 kafka이다. 카프카를 데이터 전송 파이프라인으로 도입하게 되어 복잡한 데이터 의존성 관계를 카프카와 애플리케이션들과의 관계를 단순화되었고 애플리케이션 입장에서 데이터 전송의 타켓이 카프카로 통일되었기 때문에 데이터 전송과 관련된 의존성 설정 문제에서 자유로워질 수 있었다. ..