View on GitHub

Today I Learned

Software Engineering Blog

クラスタでリーダーがいないパーティション数。

メッセージの欠損やProducerのバックプレッシャーが起きたり、Producer側に影響出るので、0以外であれば確認する。

レプリケーションが不足しているパーティションの数

単一のbrokerによるものか、クラスタ全体に関するものかを判断する。

ホストレベルの問題
- kafka-topics.shコマンドでunder-replicatedオプションをつけて共通のbroker idを確認する
- ハードウェア障害、別のプロセスとの競合、ローカル設定の違いなど
クラスタの問題
- 値が変動している場合はクラスタのパフォーマンス問題の可能性
- 原因
  - アンバランスな負荷
    - パーティションやリーダーシップがアンバランス
    - Broker間で偏りがないか、Brokerのパーティションやメッセージのin/outを調べる
  - リソースの枯渇
    - CPU、ディスクIO、ネットワークなどを調べる

Producerでpartitionリーダーがフォロワーからレスポンスがあるまでこのキューに入る。Fetch requestも。

キューサイズが大きくなっていないか、増え続けていないかをチェックする

ネットワークスレッドとリクエストハンドラ(IOスレッド)の2つのスレッドプールがあり、これらのパフォーマンスをチェックする

リクエストハンドラのアイドル率が小さいと、Brokerの負荷が大きい。

20%未満だと潜在的に問題ありそう、10%未満だとパフォーマンスに影響。

原因

正しく送受信しているか、偏りがないか

平均、99パーセンタイル、99.9パーセンタイルを見る。大きな変化がないか見る。正常の状態のときはこれらのメトリクスに大きな変動はない。問題があったときに詳細を見る

Total time
- Brokerがリクエストを受信してからリクエスト元にレスポンスを返すまでの時間
- queue+local+remote+response
Request queue time
- リクエストを受信してから処理を開始するまでの時間
Local time
- パーティションのリーダーがリクエストを処理するのに費やした時間
Remote time
- リクエスト処理の完了前に、フォロワーを待つのに費やした時間
Throttle time
- クォータを満たすようにリクエストをスローダウンさせるためにレスポンスを保持した時間
Response queue time
- レスポンスをリクエスト元に送信するまで、リクエストがキューにある時間
Response send time
- レスポンスを送信するのに費やした時間