日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

監(jiān)控 Kafka,這十個指標請考慮!

來源: 責編: 時間:2024-04-29 09:05:39 182觀看
導讀大家好,我是君哥。使用消息隊列可以幫助我們實現(xiàn)系統(tǒng)解耦、流量管控等功能。但使用過程中可能會遇到各種各樣的問題,比如系統(tǒng)資源使用率高、集群節(jié)點宕機等,進而影響我們生產(chǎn)業(yè)務(wù)正常開展。為了不讓消息隊列失控,增加監(jiān)控

大家好,我是君哥。5N428資訊網(wǎng)——每日最新資訊28at.com

使用消息隊列可以幫助我們實現(xiàn)系統(tǒng)解耦、流量管控等功能。但使用過程中可能會遇到各種各樣的問題,比如系統(tǒng)資源使用率高、集群節(jié)點宕機等,進而影響我們生產(chǎn)業(yè)務(wù)正常開展。為了不讓消息隊列失控,增加監(jiān)控是非常必要的。今天來聊一聊 Kafka 有哪些重要的監(jiān)控指標。5N428資訊網(wǎng)——每日最新資訊28at.com

1 基礎(chǔ)指標

基礎(chǔ)指標是監(jiān)控系統(tǒng)常見的監(jiān)控指標,這里介紹 4 個方面:5N428資訊網(wǎng)——每日最新資訊28at.com

  • CPU、內(nèi)存、硬盤、網(wǎng)絡(luò) I/O 等資源使用情況,Kafka 提供了 BytesIn/BytesOut 指標來監(jiān)控帶寬使用率;
  • TCP 連接數(shù)、文件描述符使用情況;
  • JVM 監(jiān)控指標,Kafka 也是一個 JVM 進程,需要監(jiān)控堆內(nèi)存使用情況、FULL GC 頻率和時長、JVM 線程數(shù)等;
  • 網(wǎng)絡(luò)延遲。

2 Broker 指標

2.1 UnderReplicatedPartitions

Kafka 分區(qū) Leader 節(jié)點收到消息后,會同步給 Follower 節(jié)點。集群健康的情況下,UnderReplicatedPartitions 值等于 0,這時同步正常的 Follower 節(jié)點數(shù)量(也就是 ISR)等于總的 Follower 節(jié)點數(shù)量。如果這個指標值大于0,比如等于 1,說明有一個 Follower 同步異常,如下圖:5N428資訊網(wǎng)——每日最新資訊28at.com

圖片圖片5N428資訊網(wǎng)——每日最新資訊28at.com

2.2 ISRShrink/ISRExpand

這個指標表示 ISR 收縮和擴容的頻率。如果這個指標的值很高,那集群中必定有 Follower 節(jié)點頻繁地進入或退出 ISR。這個時候就需要定位有 Follower 頻繁進出 ISR 的原因。5N428資訊網(wǎng)——每日最新資訊28at.com

2.3 ActiveControllerCount

Kafka Broker 集群中有一個節(jié)點是 Controller 節(jié)點,這個節(jié)點非常重要,負責監(jiān)聽 Partition、Topic 和 Broker 的變化,以及元數(shù)據(jù)管理。5N428資訊網(wǎng)——每日最新資訊28at.com

ActiveControllerCount 指標表示當前 Broker 節(jié)點是否是 Controller 節(jié)點,集群健康的情況下,有且僅有一個 Broker 節(jié)點這個指標值是 1。如果有多個 Broker 這個指標值是 1,或者所有 Broker 指標值都是 0,就需要進行故障排查。5N428資訊網(wǎng)——每日最新資訊28at.com

圖片圖片5N428資訊網(wǎng)——每日最新資訊28at.com

2.4 offlinePartitionCount

這個指標只有 Controller 節(jié)點有。表示處于不可用狀態(tài)的 Partition 的數(shù)量,也就是 Partition 沒有活躍的 Leader 節(jié)點的數(shù)量。健康的集群,這個值是 0,如果這個值不是 0,就得盡快排查原因,防止影響業(yè)務(wù)。5N428資訊網(wǎng)——每日最新資訊28at.com

2.5 LeaderElectionRateAndTimeMs

當分區(qū) Leader 節(jié)點掛了之后,就會觸發(fā)選舉新的 Leader。這個指標值表示選舉新 Leader 的頻率(每秒多少次)和集群中無 Leader 節(jié)點的時長。觸發(fā) Leader 選舉,肯定是舊的 Leader 下線,所以需要定位分析原因。5N428資訊網(wǎng)——每日最新資訊28at.com

2.6 UncleanLeaderElectionsPerSec

當 Broker 集群找不到分區(qū) Leader 時,需要從 ISR 集合中選出新的 Leader 節(jié)點。而如果 ISR 集合沒有節(jié)點,那就得從未同步的 Follower 中選出 Leader 節(jié)點,讓集群處于可用狀態(tài),但這個時候因為消息未同步,會有消息丟失。所以這個指標有數(shù)據(jù)時,代表可能有消息丟失。5N428資訊網(wǎng)——每日最新資訊28at.com

2.7 TotalTimeMs

Broker 處理一筆請求的總時間。比如處理 Producer 發(fā)送請求、Consumer 拉取請求、Follower 拉取請求。這個時間如果出現(xiàn)了比較大的波動,需要查看 Broker 的資源情況并考慮應對方案。5N428資訊網(wǎng)——每日最新資訊28at.com

3 Producer

生產(chǎn)者也可以加一些指標來監(jiān)控發(fā)送消息的情況。5N428資訊網(wǎng)——每日最新資訊28at.com

3.1 request-latency-avg

平均請求時間,這個指標包括生產(chǎn)者發(fā)送消息到收到響應的延遲,這個指標會影響 Producer 端的吞吐量。5N428資訊網(wǎng)——每日最新資訊28at.com

3.2 waiting-threads

發(fā)送緩存區(qū)中阻塞的用戶線程數(shù),如果這個指標變高,意味著生產(chǎn)者被阻塞的線程數(shù)變高,需要排查原因。5N428資訊網(wǎng)——每日最新資訊28at.com

4 Consumer

4.1 records-lag

消費者在當前分區(qū)上落后于生產(chǎn)者的數(shù)量,如果這個值變大,有可能當前這個分區(qū)的消息量突增,也可能消費者消費能力下降,需要關(guān)注。5N428資訊網(wǎng)——每日最新資訊28at.com

5 總結(jié)

Kafka 的監(jiān)控指標非常多,關(guān)鍵指標是必須要監(jiān)控的,其他指標可以根據(jù)需要添加,同時也可以加入日志相關(guān)的監(jiān)控。希望本文能對你理解 Kafka 有所幫助。5N428資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-86342-0.html監(jiān)控 Kafka,這十個指標請考慮!

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Go 語言將 PDF 轉(zhuǎn)為 Word ,代碼怎么實現(xiàn) ?

下一篇: Python新手必備:掌握OS.path模塊的8個神奇函數(shù)

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 永济市| 贺州市| 胶南市| 赣州市| 丰顺县| 团风县| 巴南区| 留坝县| 衡阳市| 普兰店市| 广平县| 高尔夫| 龙门县| 沙河市| 潮安县| 潞西市| 丽水市| 汝南县| 仪陇县| 吐鲁番市| 新乡市| 雷山县| 富民县| 鹤庆县| 子洲县| 永年县| 黎川县| 溧水县| 阜阳市| 霸州市| 出国| 区。| 徐水县| 古丈县| 龙泉市| 札达县| 忻城县| 延边| 蒙自县| 娄烦县| 嵩明县|