4月8日下午,騰訊云突然發生服務故障,表現為接口響應報錯、內部服務錯誤、網頁顯示504錯誤等。
504錯誤代表的是網關超時(Gateway timeout),也就是服務器作為網關或代理沒有及時從上游服務器收到請求。
當天傍晚,騰訊云回復稱,官網控制臺相關服務出現異常,正在緊急修復,部分地區已恢復,其他地區也正在繼續搶修中。
現在,騰訊云官方公布了對此次故障的復盤及情況說明。
根據騰訊云的說法,4月8日15點23分,騰訊云團隊收到告警信息,云API服務處于異常狀態,隨即在騰訊云工單、售后服務群、微博等渠道開始大量出現騰訊云控制臺登錄不上的客戶反饋。
經過故障定位發現,客戶登錄不上控制臺正是云API異常所導致。
云API是云上統一的開放接口集合,客戶可以通過API以編程方式管理和操控云端資源,云控制臺通過組合云API提供交互式的網頁功能。
故障發生后,依賴云API提供產品能力的部分公有云服務,也因為云API的異常出現了無法使用的情況,比如云函數、文字識別、微服務平臺、音頻內容安全、驗證碼等。
此次故障一共持續了近87分鐘,期間共有1957個客戶報障。
從客戶的視角來看,云服務大概可以分為數據面和控制面,其中數據面承載客戶自身的業務,控制面負責操作云上不同產品。
此次發生故障的控制臺和云API,是對控制面的影響。
通俗來講,如果把云服務類比為酒店,控制臺相當于酒店的前臺,一旦發生故障就會導致入住、續住等管理能力不可用,但已入住的客房不受影響。
這次故障中,客戶已經配置好的服務器等IaaS資源,包括已經部署運行的業務,沒有受到云API異常的影響。其他以非云API方式提供服務的PaaS、SaaS服務,也都正常服務。
4月8日當天騰訊云全產品進出流量趨勢圖,可以看到不受影響
但是,使用API提供的服務類產品受到不同程度的影響,比如騰訊云存儲服務調用當天有明顯下滑。
4月8日當天騰訊云存儲服務調用數據趨勢圖,可以看到存儲服務調用有一個明顯的波動
本次故障處理過程如下:
15:23,監測到故障,立即執行服務的恢復,同時進行原因的排查;
15:47,發現通過回滾版本沒能完全恢復服務,進一步定位問題;
15:57,定位出故障根因是配置數據出現錯誤,緊急設計數據修復方案;
16:02,對全地域進行數據修復工作,API服務逐地域恢復中;
16:05,觀測到除上海外的地域API服務均已恢復,進一步定位上海地域的恢復問題;
16:25,定位到上海的技術組件存在API循環依賴問題,決定通過流量調度至其他地域來恢復;
16:45,觀測到上海地域恢復了,此時API和依賴API的PaaS服務徹底恢復,但控制臺流量劇增,按九倍容量進行了擴容;
16:50,請求量逐漸恢復到正常水平,業務穩定運行,控制臺服務全部恢復;
17:45,持續觀察一小時,未發現問題,按預案處理過程完畢。
騰訊云表示,故障的原因是云API服務新版本向前兼容性考慮不夠,以及配置數據灰度機制不足。
本次API升級過程中,由于新版本的接口協議發生了變化,在后臺發布新版本之后,對于舊版本前端傳來的數據處理邏輯異常,導致生成了一條錯誤的配置數據,而灰度機制不足導致異常數據快速擴散到了全網地域,造成整體API使用異常。
發生故障后,按照標準回滾方案將服務后臺和配置數據同時回滾到舊版本,并重啟API后臺服務,但此時因為承載API服務的容器平臺也依賴API服務才能提供調度能力,即發生了循環依賴,導致服務無法自動拉起。
通過運維手工啟動方式才使API服務重啟,完成整個故障恢復。
近年來,國內各家云服務多次發生故障:
2024年4月9日支付寶崩潰,2023年12月3日騰訊視頻崩潰,2023年11月27日滴滴崩潰,2023年11月12日阿里云和阿里系服務集體崩潰,2023年3月5日B站崩潰……
本文鏈接:http://www.www897cc.com/showinfo-17-83495-0.html騰訊云突發故障 87分鐘波及1957個客戶!官方公開內幕
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com