View on GitHub

Today I Learned

Software Engineering Blog

Metrics

Offline partitions

クラスタでリーダーがいないパーティション数。

メッセージの欠損やProducerのバックプレッシャーが起きたり、Producer側に影響出るので、0以外であれば確認する。

Under replicated partitions

レプリケーションが不足しているパーティションの数

単一のbrokerによるものか、クラスタ全体に関するものかを判断する。

Purgatory Size

Producerでpartitionリーダーがフォロワーからレスポンスがあるまでこのキューに入る。Fetch requestも。

キューサイズが大きくなっていないか、増え続けていないかをチェックする

Request handler idle ratio

ネットワークスレッドとリクエストハンドラ(IOスレッド)の2つのスレッドプールがあり、これらのパフォーマンスをチェックする

リクエストハンドラのアイドル率が小さいと、Brokerの負荷が大きい。

20%未満だと潜在的に問題ありそう、10%未満だとパフォーマンスに影響。

原因

All topics bytes-in, bytes-out, message-in

正しく送受信しているか、偏りがないか

Request metrics

平均、99パーセンタイル、99.9パーセンタイルを見る。大きな変化がないか見る。正常の状態のときはこれらのメトリクスに大きな変動はない。問題があったときに詳細を見る