首頁 > 科技要聞 > 科技> 正文

數(shù)字化“驚雷”,大廠App為何排隊宕機?

曾憲天 編輯: 曾憲天 發(fā)布于:2023-12-05 18:06 PConline原創(chuàng)

不差錢不缺人,掌握著龐大互聯(lián)網(wǎng)生態(tài)與領(lǐng)先技術(shù)的大廠們,最近排著隊宕機?

12月3日晚,騰訊視頻App出現(xiàn)“首頁內(nèi)容無法加載內(nèi)容”“VIP用戶無法觀看會員視頻”等情況,相關(guān)話題隨即成為熱搜爆詞。

無獨有偶,前不久的11月27日,多地用戶反饋滴滴出行App無法使用,出現(xiàn)了地圖無法加載,打不到車,在寒風(fēng)中鎖不上單車等情況,故障時間長達12小時。

就連互聯(lián)網(wǎng)“老大哥”阿里,也掉了鏈子。10月23日,螞蟻集團旗下在線文檔編輯與協(xié)同工具語雀,經(jīng)歷了將近8個小時的服務(wù)器宕機故障,導(dǎo)致在線文檔和官網(wǎng)無法打開。

“雙11”購物節(jié)剛剛結(jié)束,11月12日阿里云底層授權(quán)模塊出現(xiàn)接近3個小時的服務(wù)不可用,涵蓋范圍涵蓋阿里旗下多個業(yè)務(wù)版塊。

釘釘?shù)葢?yīng)用直接無法打開,打工人們紛紛到社交媒體上吐槽,淘寶、天貓、閑魚等平臺則出現(xiàn)交易系統(tǒng)故障,不少網(wǎng)購用戶刷著刷著就白屏了,還有的付不了款......

“阿里全系產(chǎn)品崩了”、“滴滴崩了”、“騰訊視頻崩了”.....頗有一種大廠一起玩“蘿卜蹲”游戲的既視感。

此前紅星資本局曾在相關(guān)報道中指出,以引發(fā)多家媒體報道或者登上各大社交媒體的熱搜榜為基準,2023年,APP發(fā)生崩潰的事件已有14起;而在去年則約有9起。

不少深受影響的網(wǎng)友們也開始玩梗,用裁員、降本增項等行為來諷刺互聯(lián)網(wǎng)大廠缺乏穩(wěn)定性的系統(tǒng)服務(wù),但這真的是事件背后的真相嗎?

1、真是“降本增效”惹的禍?

在自家APP崩掉后,大廠們的回應(yīng)往往都模棱兩可,并不會提及確切的深層原因。

12月3日當晚,騰訊視頻的系統(tǒng)故障,造成了不少用戶以為會員過期,因而重新在騰訊視頻App充值會員,但這部分用戶的遭遇并未被騰訊視頻的公告所提及。

騰訊視頻只是公布了一則簡短的公告回應(yīng)稱:“騰訊視頻出現(xiàn)了短暫技術(shù)問題,我們正在加緊修復(fù),各項功能在逐步恢復(fù)中!

滴滴出行系統(tǒng)崩潰,給用戶帶來的麻煩更大。比如晚上加班后打不到車,共享單車關(guān)不上鎖,通勤早高峰期無法使用滴滴叫車而在月底丟掉全勤獎等等,輿論場中充斥著大量的用戶吐槽。

不過滴滴的補救措施比較全面,強調(diào)會在系統(tǒng)恢復(fù)后做好各類善后工作,因系統(tǒng)故障導(dǎo)致的訂單異常都會統(tǒng)一處理,并同時發(fā)放10元優(yōu)惠券。然而尷尬的是,依然出現(xiàn)了網(wǎng)友領(lǐng)取優(yōu)惠券時系統(tǒng)加載異常的故障情況。

根據(jù)光明網(wǎng)、界面新聞等媒體報道,滴滴崩潰的十二小時內(nèi),預(yù)估損失過千萬的訂單量和超4億的交易額。滴滴最終發(fā)布道歉并說明此次宕機原因是底層系統(tǒng)軟件發(fā)生故障。

阿里旗下的APP 雖然故障時間雖然不如滴滴故障的時間長,但涵蓋的范圍更廣,影響也或許更深遠,不僅對自己的產(chǎn)品造成了較大的損失,也對瑞幸咖啡、蜜雪冰城、芒果TV等造成了一定影響。

不少網(wǎng)友對于官方回應(yīng)的故障原因并不買賬,在吐槽系統(tǒng)崩潰導(dǎo)致的糟糕使用體驗之余,更是將宕機事件與各個互聯(lián)網(wǎng)大廠裁員行為聯(lián)系了起來,認為是企業(yè)所謂的“開源節(jié)流、降本增效”策略,波及到了相關(guān)技術(shù)、運維團隊的正常運作,精簡人員導(dǎo)致相關(guān)的技術(shù)服務(wù)、底層系統(tǒng)穩(wěn)定性也要打折扣。

不過上述言論也僅僅是網(wǎng)友們的調(diào)侃或猜測,雖然真實原因難以考究,但理論上來說,在成熟的互聯(lián)網(wǎng)技術(shù)體系中,引發(fā)大規(guī)模宕機事件的因素,更多是技術(shù)層面的問題,實際與裁員的關(guān)聯(lián)性并不大。

互聯(lián)網(wǎng)分析師丁道師對此列舉了大廠們常見的幾種故障原因。

首先是邊緣設(shè)備故障,比如騰訊微信曾出現(xiàn)過大規(guī)模故障,后查證是附近的施工方把光纜切斷了;人為管理漏洞,誤操作或惡意行為等;系統(tǒng)免疫機制,比如過載保護、溫度控制等,像機房冷卻系統(tǒng)故障后,免疫機制為了防止機房升溫導(dǎo)致火災(zāi),會將服務(wù)器宕機下線。

另外還有外部黑客攻擊、網(wǎng)絡(luò)病毒攻擊,系統(tǒng)自帶的原生BUG,代碼錯誤等原因,或許都是引發(fā)大規(guī)模宕機的因素。由此可見,所謂大廠降本增效、裁撤運維人員導(dǎo)致的宕機,可能性并不高。

2、數(shù)字化時代,經(jīng)得起幾次“宕機”?

移動互聯(lián)網(wǎng)時代歷經(jīng)十余年的發(fā)展,人們?nèi)缃竦纳钤絹碓诫x不開各種App,數(shù)字化應(yīng)用已經(jīng)融入到了我們的工作、生活、出行等方方面面。

未來的數(shù)智化發(fā)展,還將進一步讓各類數(shù)字技術(shù)與人類社會的生活、生產(chǎn)所結(jié)合,如果依然頻繁發(fā)生類似的系統(tǒng)大規(guī)模宕機事件,必然會產(chǎn)生更嚴重的后果和影響,這不僅僅是簡單局限于一部分用戶和某個商業(yè)公司的問題。

對此阿里云、騰訊云、百度云等各類云服務(wù)巨頭們,往往會著重強調(diào)自己云服務(wù)體系的穩(wěn)定性、先進性,安全可靠等賣點。然而事實卻說明,目前類似資源彈性擴展,容災(zāi)備份,高可用系統(tǒng)等解決方案,都還是會出現(xiàn)由于系統(tǒng)故障而導(dǎo)致的業(yè)務(wù)中斷問題。

無論是云服務(wù)巨頭還是各類細分市場的技術(shù)服務(wù)商們,或許還需不斷探索更加全面的系統(tǒng)解決方案,一方面盡可能地避免大規(guī)模宕機事故,另一方面則是如何將突發(fā)的系統(tǒng)宕機影響降至最低。

不過根據(jù)上觀新聞的報道,中國計算機學(xué)會常務(wù)理事、北京大學(xué)教授金芝表示,軟件系統(tǒng)的開發(fā)是一個復(fù)雜的系統(tǒng)工程,但相比于其它工程制品的構(gòu)造而言,軟件的“易修改性”使軟件制品更易于演化和更新,即方便增加新功能,但這也對軟件質(zhì)量的保障帶來很大挑戰(zhàn)。

這也意味著,互聯(lián)網(wǎng)技術(shù)朝著生態(tài)化、體系化方向深化發(fā)展的核心趨勢下,系統(tǒng)的穩(wěn)定性、可靠性建設(shè),注定不是個容易的事。

當然,這必然不能只靠第三方云服務(wù)商的努力,各家互聯(lián)網(wǎng)大廠們也應(yīng)提升對運維團隊的重視程度。在當前互聯(lián)網(wǎng)+的模式下,大廠們都會有自己一個的技術(shù)團隊,包括開發(fā)、運營維護等。當前出現(xiàn)的APP故障大多數(shù)與運維團隊有著強關(guān)聯(lián)性。

簡而言之,運維團隊的技術(shù)能力和響應(yīng)速度,是確保云服務(wù)穩(wěn)定運行的基石。大廠們通過加強培訓(xùn)、實施有效的監(jiān)控系統(tǒng)和建立快速反應(yīng)機制,以確保團隊在面對突發(fā)事件時能夠迅速有效地處理問題,與云服務(wù)商的相關(guān)技術(shù)團隊更好地進行協(xié)同,盡可能地縮短宕機時間,從各方面降低宕機帶來的影響。

但目前的現(xiàn)狀是有部分企業(yè)認為運維團隊是“非營利部門”、“純開支部門”,從而忽視了團隊的培養(yǎng)建設(shè),也沒有配置更好的資源和資金投入,導(dǎo)致遇到系統(tǒng)宕機這類突發(fā)事件時,缺乏更好地應(yīng)對能力和處置機制。

經(jīng)歷多次大規(guī)模宕機后,互聯(lián)網(wǎng)大廠們應(yīng)該意識到損失的不僅僅是預(yù)估的金額數(shù)字,也包括用戶體驗下滑帶來的潛在流失風(fēng)險,品牌聲譽和口碑受損等問題。

而在未來萬物互聯(lián)的時代,越來越多的智能終端,越來越智慧化的功能會不斷涌現(xiàn),這背后對于技術(shù)體系穩(wěn)定可靠的要求和門檻也將不斷提升,大規(guī)模宕機產(chǎn)生的危害后果也將愈發(fā)嚴重,或許再難經(jīng)得起頻繁的大規(guī)模宕機“折騰”,擔此重任的互聯(lián)網(wǎng)大廠以及云服務(wù)商們,必須得抓點緊了。

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部