美國(guó)時(shí)間周日 Google 發(fā)生了持續(xù)數(shù)小時(shí)的嚴(yán)重宕機(jī)事故,影響到了幾乎所有 Google 服務(wù)如 Google Cloud、G Suite 和 YouTube,以及托管在 Googl
美國(guó)時(shí)間周日 Google 發(fā)生了持續(xù)數(shù)小時(shí)的嚴(yán)重宕機(jī)事故,影響到了幾乎所有 Google 服務(wù)如 Google Cloud、G Suite 和 YouTube,以及托管在 Google 云上的服務(wù)如Snapchat、Nest、Discord。Google 官方博客解釋了事故原因:服務(wù)器配置變更導(dǎo)致。
Google 稱,配置變更原意是應(yīng)用于單一區(qū)域的少數(shù)服務(wù)器,但卻錯(cuò)誤應(yīng)用于多個(gè)毗鄰區(qū)域的大量服務(wù)器,導(dǎo)致這些區(qū)域停止使用一半以上的可用網(wǎng)絡(luò)容量,進(jìn)出這些區(qū)域的網(wǎng)絡(luò)流量試圖適應(yīng)剩余的網(wǎng)絡(luò)容量,但未能成功。
網(wǎng)絡(luò)開(kāi)始擁堵,網(wǎng)絡(luò)系統(tǒng)對(duì)過(guò)載流量進(jìn)行分類,丟棄了大部分對(duì)延遲不那么敏感的流量,以保護(hù)少數(shù)對(duì)延遲敏感的流量。Google 稱它的工程師團(tuán)隊(duì)立刻探測(cè)到了問(wèn)題,但診斷和修復(fù)花了更長(zhǎng)時(shí)間。
在事故期間,YouTube 流量下降了 10%,Google Cloud Storage 下降了 30%,1% 的 Gmail 活躍用戶無(wú)法接收和發(fā)送郵件。