今日凌晨1:30分,攜程官方稱,經攜程技術排查,確認此次事件是由于員工錯誤操作導致。從5月28日上午11:09,發現攜程官網及APP出現故障,到28日23:29全面恢復,整個過程耗費12個多小時。
另外攜程還稱,由于攜程涉及的業務、應用及服務繁多,驗證應用與服務之間的功能是否正常運行,花了較長時間。攜程官方網站及APP已于28日23:29全面恢復正常。對用戶造成的不便,攜程再次深表歉意。
對于本次事件的排查結果,簡要原因說明:
1、事件發生原因
經攜程技術排查,確認此次事件是由于員工錯誤操作,刪除了生產服務器上的執行代碼導致。
2、為什么恢復時間那么長
一般來說,類似攜程這樣的大型網站承載著繁多業務,其后臺是一個由SOA(面向服務)架構組成的龐大服務器集群,看似簡單的一個頁面背后由上千個應用子系統以及上千個Web Service組成,而每個應用子系統和每個Web Service之間都存在著相互調用的依賴關系。
發生事件后,攜程的技術人員除了需要恢復生產服務器上的執行代碼以外,還需要做的是恢復并確保每個應用子系統以及每個Web Service的功能正常,同時確保應用子系統與Web Service間的調用關系得以正常執行。
這種驗證性的操作需要攜程的工程師及運維人員通力合作,盡快恢復生產代碼并通過反復地、持續性地調試以確保應用子系統與Web Service功能的正常運行。
攜程再次保證,數據和數據庫并未受到此次事件的影響,用戶訂單數據也完整無損,請用戶放心并繼續使用攜程網站及App。
3、如何杜絕此類事件的再次發生?
攜程在系統上做了改進,規范并杜絕技術人員錯誤刪除生產服務器上代碼的操作。