日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 軟件

如何確定Apache Kafka的大小和規(guī)模

來源: 責(zé)編: 時(shí)間:2023-10-23 17:03:13 302觀看
導(dǎo)讀作者丨Andrew Mills編譯丨云昭調(diào)整或擴(kuò)展Kafka以獲得最佳成本和性能的第一步是了解數(shù)據(jù)流平臺如何使用資源。這里給一些實(shí)用的建議。實(shí)現(xiàn)Apache Kafka的團(tuán)隊(duì),或者擴(kuò)展他們對強(qiáng)大的開源分布式事件流平臺的使用,通常需要

作者丨Andrew MillstMP28資訊網(wǎng)——每日最新資訊28at.com

編譯丨云昭tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

調(diào)整或擴(kuò)展Kafka以獲得最佳成本和性能的第一步是了解數(shù)據(jù)流平臺如何使用資源。這里給一些實(shí)用的建議。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

實(shí)現(xiàn)Apache Kafka的團(tuán)隊(duì),或者擴(kuò)展他們對強(qiáng)大的開源分布式事件流平臺的使用,通常需要幫助理解如何根據(jù)他們的需求正確地調(diào)整和擴(kuò)展Kafka資源。這可能很棘手。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

無論您是在考慮云資源還是預(yù)處理硬件資源,了解Kafka集群將如何利用CPU、RAM和存儲(并了解應(yīng)遵循的最佳實(shí)踐),都將使您處于一個(gè)更好的位置,可以立即獲得正確的規(guī)模。結(jié)果將是成本和性能之間的優(yōu)化平衡。讓我們來看看Kafka是如何使用資源的,瀏覽一個(gè)有指導(dǎo)意義的用例,以及優(yōu)化Kafka部署的最佳實(shí)踐。tMP28資訊網(wǎng)——每日最新資訊28at.com

1、Kafka如何利用CPU的?

tMP28資訊網(wǎng)——每日最新資訊28at.com

一般來說,Apache Kafka在CPU利用率方面比較輕。在選擇基礎(chǔ)設(shè)施時(shí),我傾向于擁有更多的核心而不是更快的核心,以提高并行化水平。影響CPU使用量的因素有很多,其中最主要的是SSL身份驗(yàn)證和日志壓縮。其他考慮因素是每個(gè)代理擁有的分區(qū)數(shù)量、有多少數(shù)據(jù)將進(jìn)入磁盤、Kafka消費(fèi)者的數(shù)量(此處詳細(xì)介紹),以及這些消費(fèi)者離實(shí)時(shí)性有多近。如果您的數(shù)據(jù)消費(fèi)者正在獲取舊數(shù)據(jù),那么從磁盤獲取數(shù)據(jù)將花費(fèi)CPU時(shí)間。我們將在下一節(jié)中對此進(jìn)行深入探討。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

了解CPU使用背后的這些基本驅(qū)動因素對于幫助團(tuán)隊(duì)正確確定可用CPU功率至關(guān)重要。tMP28資訊網(wǎng)——每日最新資訊28at.com

2、Kafka如何使用RAM的?

tMP28資訊網(wǎng)——每日最新資訊28at.com

RAM需求主要取決于需要在內(nèi)存中保留多少“熱”數(shù)據(jù)并可用于快速訪問。一旦收到消息,Kafka就會將數(shù)據(jù)交給底層操作系統(tǒng)的頁面緩存,后者負(fù)責(zé)將數(shù)據(jù)保存到磁盤。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

從大小和可伸縮性的角度來看,RAM的正確數(shù)量取決于您的用例的數(shù)據(jù)訪問模式。如果您的團(tuán)隊(duì)將Kafka部署為實(shí)時(shí)數(shù)據(jù)流(使用轉(zhuǎn)換并公開消費(fèi)者將在幾秒鐘內(nèi)提取的數(shù)據(jù)),則RAM需求通常很低,因?yàn)橹恍枰趦?nèi)存中存儲幾秒鐘的數(shù)據(jù)。或者,如果您的Kafka消費(fèi)者需要提取幾分鐘或幾小時(shí)的數(shù)據(jù),那么您需要考慮RAM中需要多少數(shù)據(jù)。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

CPU和RAM利用率之間的關(guān)系很重要。如果Kafka可以訪問RAM中的數(shù)據(jù),那么它就不必花費(fèi)CPU資源從磁盤中獲取數(shù)據(jù)。如果RAM中沒有可用的數(shù)據(jù),代理程序?qū)拇疟P中提取數(shù)據(jù),從而消耗CPU資源,并在數(shù)據(jù)傳遞中增加一些延遲。實(shí)現(xiàn)Kafka的團(tuán)隊(duì)在調(diào)整CPU和RAM資源時(shí)應(yīng)該考慮到這種關(guān)系。tMP28資訊網(wǎng)——每日最新資訊28at.com

3、Kafka如何使用存儲

tMP28資訊網(wǎng)——每日最新資訊28at.com

有幾個(gè)因素會影響Kafka存儲需求,如保留時(shí)間、數(shù)據(jù)轉(zhuǎn)換和適當(dāng)?shù)膹?fù)制因素。考慮這個(gè)例子:每天有幾TB的數(shù)據(jù)落在一個(gè)Kafka主題上,使用Kafka對該數(shù)據(jù)執(zhí)行六次轉(zhuǎn)換以保留中間數(shù)據(jù),每個(gè)主題保留數(shù)據(jù)三天,復(fù)制因子設(shè)置為3。很容易看出,團(tuán)隊(duì)可以根據(jù)使用Kafka的方式,將存儲的數(shù)據(jù)需求快速增加一倍、三倍或四倍。您需要充分了解這些因素才能正確確定存儲大小。tMP28資訊網(wǎng)——每日最新資訊28at.com

4、Kafka預(yù)定大小示例

tMP28資訊網(wǎng)——每日最新資訊28at.com

以下是我們工作中的一個(gè)真實(shí)例子,幫助媒體娛樂行業(yè)的服務(wù)提供商正確確定預(yù)先部署的Kafka的規(guī)模。該業(yè)務(wù)的峰值吞吐量入口為每秒10GB。組織需要存儲10%的數(shù)據(jù)(每天總計(jì)9TB),并將這些數(shù)據(jù)保留30天。從復(fù)制的角度來看,該公司將存儲該數(shù)據(jù)的三個(gè)拷貝,總存儲需求為810TB。為了應(yīng)對潛在的峰值,明智的做法是在預(yù)期需求的基礎(chǔ)上增加30-40%的空間,這意味著組織應(yīng)該有1.2PB的可用存儲空間。它們不使用SSL,而且大多數(shù)消費(fèi)者都需要實(shí)時(shí)數(shù)據(jù),因此CPU和RAM需求不如存儲重要。他們確實(shí)有一些批處理進(jìn)程在運(yùn)行,但延遲不是一個(gè)問題,所以數(shù)據(jù)來自磁盤是安全的。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

雖然這個(gè)特定的用例仍在構(gòu)建中,但該示例演示了使用基本數(shù)據(jù)計(jì)算給定Kafka實(shí)現(xiàn)的最小有效規(guī)模的過程,然后從中探索擴(kuò)大場景的潛在需求。tMP28資訊網(wǎng)——每日最新資訊28at.com

5、Kafka容量規(guī)劃最佳實(shí)踐

tMP28資訊網(wǎng)——每日最新資訊28at.com

了解給定用例的特定體系結(jié)構(gòu)——主題設(shè)計(jì)、消息大小、消息量、數(shù)據(jù)訪問模式、消費(fèi)者數(shù)量等——可以提高預(yù)測大小的準(zhǔn)確性。在考慮每個(gè)代理的適當(dāng)存儲密度時(shí),請考慮在由于熱點(diǎn)或代理丟失而重新分配分區(qū)期間重新流式傳輸數(shù)據(jù)所需的時(shí)間。如果你將100TB連接到Kafka代理,但它失敗了,那么你正在重新傳輸大量數(shù)據(jù)。這可能會導(dǎo)致網(wǎng)絡(luò)飽和,從而阻礙入口或出口流量,并導(dǎo)致生產(chǎn)商失敗。有一些方法可以抑制回流,但你會發(fā)現(xiàn)平均恢復(fù)時(shí)間顯著增加。         tMP28資訊網(wǎng)——每日最新資訊28at.com

6、常見的誤解

tMP28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在,越來越多的供應(yīng)商為Kafka提供專有的分層存儲,并將Kafka作為數(shù)據(jù)庫或數(shù)據(jù)湖。卡夫卡不是一個(gè)數(shù)據(jù)庫。雖然您可以使用Kafka進(jìn)行長期存儲,但您必須了解其中的權(quán)衡。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

從Kafka作為實(shí)時(shí)數(shù)據(jù)流引擎到充當(dāng)數(shù)據(jù)庫或數(shù)據(jù)湖的演變屬于一種熟悉的模式。專門為特定用例設(shè)計(jì)的技術(shù)有時(shí)會成為某些用戶的錘子,然后每個(gè)問題都像釘子一樣。這些用戶將嘗試修改專門構(gòu)建的工具以適應(yīng)他們的用例,而不是查看已經(jīng)解決問題的其他技術(shù)。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

這讓我想起了Apache Cassandra意識到來自關(guān)系世界的用戶正在努力理解數(shù)據(jù)模型在扁平行中的重要性。用戶在開始存儲數(shù)據(jù)之前不習(xí)慣理解訪問模式,他們只會在現(xiàn)有表上添加另一個(gè)索引。在Cassandra v3.0中,該項(xiàng)目公開了物化視圖,類似于索引關(guān)系表,但實(shí)現(xiàn)方式不同。從那時(shí)起,這個(gè)功能就充滿了問題,并被標(biāo)記為實(shí)驗(yàn)性的。我覺得Kafka作為數(shù)據(jù)庫或數(shù)據(jù)湖的想法注定會有類似的命運(yùn)。tMP28資訊網(wǎng)——每日最新資訊28at.com

7、找到合適的尺寸以獲得最佳成本和Kafka性能

tMP28資訊網(wǎng)——每日最新資訊28at.com

在沒有首先了解Kafka資源利用率的情況下匆忙進(jìn)入Kafka實(shí)現(xiàn)的團(tuán)隊(duì)經(jīng)常會遇到問題和障礙,這些問題和障礙教會了他們艱難的道路。通過花時(shí)間了解Kafka的資源需求,團(tuán)隊(duì)將實(shí)現(xiàn)更高效的成本和性能,他們將能夠更有效地支持他們的應(yīng)用程序。tMP28資訊網(wǎng)——每日最新資訊28at.com

tMP28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接: https://www.infoworld.com/article/3708250/how-to-size-and-scale-apache-kafka-without-tears.htmltMP28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-14563-0.html如何確定Apache Kafka的大小和規(guī)模

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 20 個(gè)提高效率的 JavaScript 縮寫技巧

下一篇: Java函數(shù)式編程實(shí)戰(zhàn):Consumer、Predicate和Supplier的使用指南

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 金溪县| 同江市| 富平县| 康定县| 东安县| 宜城市| 宜兴市| 武功县| 南阳市| 酉阳| 连城县| 天祝| 满洲里市| 昌都县| 田林县| 尼玛县| 鄂托克前旗| 赣榆县| 随州市| 京山县| 平南县| 合水县| 桑日县| 西昌市| 三亚市| 阳西县| 古浪县| 双峰县| 高密市| 喀喇沁旗| 隆化县| 康保县| 洪江市| 密山市| 庆城县| 伊金霍洛旗| 澳门| 大厂| 策勒县| 微山县| 子长县|