運維人員對公司網際網路業務所依賴的基礎設施、基礎服務、線上業務進行穩定性加強,進行日常巡檢發現服務可能存在的隱患,對整體架構進行優化以遮蔽常見的執行故障,多資料中接入提高業務的容災能力,通過監控、日誌分析等技術手段,及時發現和響應服務故障,減少服務中斷的時間,使公司的網際網路業務符合預期的可用性要求,持續穩定地為使用者提供服務。
運維工作分類
運維的工作方向比較多,隨著業務規模的不斷髮展,越成熟的網際網路公司,運維崗位會劃分得越細。當前很多大型的網際網路公司,在初創時期只有系統運維,隨著 模、服務質量的 要求,也逐漸進行了工作細分。一般情況下運維團隊的工作分類(見圖1-1)和職責如下。
系統運維
系統運維負責IDC、網路、CDN和基礎服務的建設(LVS、NTP、DNS);負責資產管理,伺服器選型、交付和維修。詳細的工作職責如下:
IDC資料中心建設
收集業務需求,預估未來資料中心的發展規模,從骨幹網的分佈,資料中心建築,以及Internet接入、網路攻擊防禦能力、擴容能力、空間預留、外接專線能力、現場服務支撐能力等方面評估選型資料中心。負責資料中心的建設、現場維護工作。
網路建設
設計及規劃生產網路架構,這裡麵包括:資料中心網路架構、傳輸網架構、CDN網路架構等,以及網路調優等日常運維工作。
LVS負載均衡和SNAT建設
LVS是整個站點架構中的流量入口,根據網路規模和業務需求,構建負載均衡叢集;完成網路與業務伺服器的銜接,提供高效能、高可用的負載排程能力,以及統一的網路層防攻擊能力;SNAT集中提供資料中心的公網訪問服務,通過叢集化部署,保證出網服務的高效能與高可用。
CDN規劃和建設
CDN工作劃分為第三方和自建兩部分。建立第三方CDN的選型和排程控制;根據業務發展趨勢,規劃CDN新節點建設佈局;完善CDN業務及監控,保障CDN系統穩定、高效執行;分析業務加速頻道的檔案特性和數量,制定最優的加速策略和資源匹配;負責使用者劫持等CDN日常故障排查工作。
伺服器選型、交付和維護
負責伺服器的測試選型,包含伺服器整機、部件的基礎性測試和業務測試,降低整機功率,提升機架部署密度等。結合對公司業務的瞭解,推廣新硬體、新方案減少業務的伺服器投入規模。負責伺服器硬體故障的診斷定位,伺服器硬體監控、健康檢查工具的開發和維護。
OS、核心選型和OS相關維護工作
負責整體平臺的OS選型、定製和核心優化,以及Patch的更新和內部版本釋出;建立基礎的YUM包管理和分發中心,提供常用包版本庫;跟進日常各類OS相關故障;針對不同的業務型別,提供定向的優化支援。
資產管理
記錄和管理運維相關的基礎物理資訊,包括資料中心、網路、機櫃、伺服器、ACL、IP等各種資源資訊,制定有效的流程,確保資訊的準確性;開放API介面,為自動化運維提供資料支援。
基礎服務建設
業務對DNS、NTP、SYSLOG等基礎服務的依賴非常高,需要設計高可用架構避免單點,提供穩定的基礎服務。
應用運維
應用運維負責線上服務的變更、服務狀態監控、服務容災和資料備份等工作,對服務進行例行排查、故障應急處理等工作。詳細的工作職責如下所述。
設計評審
在產品研發階段,參與產品設計評審,從運維的角度提出評審意見,使服務滿足運維准入的高可用要求。
服務管理
負責制定線上業務升級變更及回滾方案,並進行變更實施。掌握所負責的服務及服務間關聯關係、服務依賴的各種資源。能夠發現服務上的缺陷,及時通報並推進解決。制定服務穩定性指標及准入標準,同時不斷完善和優化程式和系統的功能、效率,提高執行質量。完善監控內容,提高報警準確度。線上上服務出現故障時,第一時間響應,對已知線上故障能按流程進行通報並按預案執行,未知故障組織相關人員聯合排障。
資源管理
對各服務的伺服器資產進行管理,梳理伺服器資源狀況、資料中心分佈情況、網路專線及頻寬情況,能夠合理使用伺服器資源,根據不同服務的需求,分配不同配置的伺服器,確保伺服器資源的充分利用。
例行檢查
制定服務例行排查點,並不斷完善。根據制定的服務排查點,對服務進行定期檢查。對排查過程中發現的問題,及時進行追查,排除可能存在的隱患。
預案管理
確定服務所需的各項監控、系統指標的閾值或臨界點,以及出現該情況後的處理預案。建立和更新服務預案文件,並根據日常故障情況不斷補充完善,提高預案完備性。能夠制定和評審各類預案,週期性進行預案演練,確保預案的可執行性。
資料備份
制定資料備份策略,按規範進行資料備份工作。保證資料備份的可用性和完整性,定期開展資料恢復性測試。
資料庫運維
資料庫運維負責資料儲存方案設計、資料庫表設計、索引設計和SQL優化,對資料庫進行變更、監控、備份、高可用設計等工作。詳細的工作職責如下所述。
設計評審
在產品研發初始階段,參與設計方案評審,從DBA的角度提出資料儲存方案、庫表設計方案、SQL開發標準、索引設計方案等,使服務滿足資料庫使用的高可用、高效能要求。
容量規劃
掌握所負責服務的資料庫的容量上限,清楚地瞭解當前瓶頸點,當服務還未到達容量上限時,及時進行優化、分拆或者擴容。
資料備份與災備
制定資料備份與災備策略,定期完成資料恢復性測試,保證資料備份的可用性和完整性。
資料庫監控
完善資料庫存活和效能監控,及時瞭解資料庫執行狀態及故障。
資料庫安全
建設資料庫賬號體系,嚴格控制賬號許可權與開放範圍,降低誤操作和資料洩露的風險;加強離線備份資料的管理,降低資料洩露的風險。
資料庫高可用和效能優化
對資料庫單點風險和故障設計相應的切換方案,降低故障對資料庫服務的影響;不斷對資料庫整體效能進行優化,包括新儲存方案引進、硬體優化、檔案系統優化、資料庫優化、SQL優化等,在保障成本不增加或者少量增加的情況下,資料庫可以支撐更多的業務請求。
自動化系統建設
設計開發資料庫自動化運維繫統,包括資料庫部署、自動擴容、分庫分表、許可權管理、備份恢復、SQL稽核和上線、故障切換等功能。
運維研發
運維研發負責通用的運維平臺設計和研發工作,如:資產管理、監控系統、運維平臺、資料許可權管理系統等。提供各種API供運維或研發人員使用,封裝更高層的自動化運維繫統。詳細的工作職責如下所述。
運維平臺
記錄和管理服務及其關聯關係,協助運維人員自動化、流程化地完成日常運維操作,包括機器管理、重啟、改名、初始化、域名管理、流量切換和故障預案實施等。
監控系統
負責監控系統的設計、開發工作,完成公司伺服器和各種網路裝置的資源指標、線上業務執行指標的收集、告警、儲存、分析、展示和資料探勘等工作,持續提高告警的及時性、準確性和智慧性,促進公司伺服器資源的合理化調配。
自動化部署系統
參與部署自動化系統的開發,負責自動化部署系統所需要的基礎資料和資訊,負責許可權管理、API開發、Web端開發。結合雲端計算,研發和提供PaaS相關高可用平臺,進一步提高服務的部署速度和使用者體驗,提升資源利用率。
運維安全
運維安全負責網路、系統和業務等方面的安全加固工作,進行常規的安全掃描、滲透測試,進行安全工具和系統研發以及安全事件應急處理。詳細的工作職責如下所述。
安全制度建立
根據公司內部的具體流程,制定切實可行,且行之有效的安全制度。
安全培訓
定期向員工提供具有針對性的安全培訓和考核,在全公司內建立安全負責人制度。
風險評估
通過黑白盒測試和檢查機制,定期產生對物理網路、伺服器、業務應用、使用者資料等方面的總體風險評估結果。
安全建設
根據風險評估結果,加固最薄弱的環節,包括設計安全防線、部署安全裝置、及時更新補丁、防禦病毒、原始碼自動掃描和業務產品安全諮詢等。為了降低可能洩露資料的價值,通過加密、匿名化、混淆資料,乃至定期刪除等技術手段和流程來達到目的。
安全合規
為了滿足例如支付牌照等合規性要求,安全團隊承擔著安全合規的對外介面人工作。
應急響應
建立安全報警系統,通過安全中心收集第三方發現的安全問題,組織各部門對已經發現的安全問題進行修復、影響面評估、事後安全原因追查。
運維工作發展過程
早期的運維團隊在人員較少的情況下,主要是進行資料中心建設、基礎網路建設、伺服器採購和伺服器安裝交付工作。幾乎很少涉及線上服務的變更、監控、管理等工作。這個時候的運維團隊更多的屬於基礎建設的角色,提供一個簡單、可用的網路環境和系統環境即可。
隨著業務產品的逐漸成熟,對於服務質量方面就有了更高的要求。這個時候的運維團隊還會承擔一些伺服器監控的工作,同時會負責LVS、Nginx等與業務邏輯無關的4/7層運維工作。這個時候服務變更更多的是逐臺的手工操作,或者有一些簡單批量指令碼的出現。監控的焦點更多的在伺服器狀態和資源使用情況上,對服務應用狀態的監控幾乎很少,監控更多的使用各種開源系統如Nagios、Cacti等。
由於業務規模和複雜度的持續增加,運維團隊會逐漸劃分為應用運維和系統運維兩大塊。應用運維開始接手線上業務,逐步開展服務監控梳理、資料備份以及服務變更的工作。隨著對服務的深入,應用運維工程師有能力開始對服務進行一些簡單的優化。同時,為了應對每天大量的服務變更,我們也開始編寫各類運維工具,針對某些特定的服務能夠很方便的批量變更。隨著業務規模的增大,基礎設施由於容量規劃不足或抵禦風險能力較弱導致的故障也越來越多,迫使運維人員開始將更多的精力投入到多資料中心容災、預案管理的方向上。
業務規模達到一定程度後,開源的監控系統在效能和功能方面,已經無法滿足業務需求;大量的服務變更、複雜的服務關係,以前靠人工記錄、工具變更的方式不管在效率還是準確性方面也都無法滿足業務需求;在安全方面也出現了各種大大小小的事件,迫使我們投入更多的精力在安全防禦上。逐漸的,運維團隊形成之前提到的5個大的工作分類,每個分類都需要有專精的人才。這個時候系統運維更專注於基礎設施的建設和運維,提供穩定、高效的網路環境,交付伺服器等資源給應用運維工程師。應用運維更專注於服務執行狀態和效率。資料庫運維屬於應用運維工作的細化,更專注於資料庫領域的自動化、效能優化和安全防禦。運維研發和運維安全提供各類平臺、工具,進一步提升運維工程師的工作效率,使業務服務執行得更加穩定、高效和安全。
我們將運維發展過程劃分為4個階段,如圖所示。
手工管理階段
業務流量不大,伺服器數量相對較少,系統複雜度不高。對於日常的業務管理操作,大家更多的是逐臺登入伺服器進行手工操作,屬於各自為戰,每個人都有自己的操作方式,缺少必要的操作標準、流程機制,比如業務目錄環境都是各式各樣的。
工具批量操作階段
隨著伺服器規模、系統複雜度的增加,全人工的操作方式已經不能滿足業務的快速發展需要。因此,運維人員逐漸開始使用批量化的操作工具,針對不同操作型別出現了不同的指令碼程式。但各團隊都有自己的工具,每次操作需求發生變化時都需要調整工具。這主要是因為對於環境、操作的規範不夠,導致可程式化處理能力較弱。此時,雖然效率提升了一部分,但很快又遇到了瓶頸。操作的質量並沒有太多的提升,甚至可能因為批量執行而導致更大規模的問題出現。我們開始建立大量的流程規範,比如複查機制,先上線一臺伺服器觀察10分鐘後再繼續後面的操作,一次升級完成後至少要觀察20分鐘等。這些主要還是靠人來監督和執行,但在實際過程中執行往往不到位,反而降低了工作效率。
平臺管理階段
在這個階段,對於運維效率和誤操作率有了更高的要求,我們決定開始建設運維平臺,通過平臺承載標準、流程,進而解放人力和提高質量。這個時候對服務的變更動作進行了抽象,形成了操作方法、服務目錄環境、服務執行方式等統一的標準,如程式的啟停介面必須包括啟動、停止、過載等。通過平臺來約束操作流程,如上面提到的上線一臺伺服器觀察10分鐘。在平臺中強制設定暫停檢查點,在第一臺伺服器操作完成後,需要運維人員填寫相應的檢查項,然後才可以繼續執行後續的部署動作。
系統自排程階段
更大規模的服務數量、更復雜的服務關聯關係、各個運維平臺的林立,原有的將批量操作轉化成平臺操作的方式已經不再適合,需要對服務變更進行更高一層的抽象。將每一臺伺服器抽象成一個容器,由排程系統根據資源使用情況,將服務排程、部署到合適的伺服器上,自動化完成與周邊各個運維繫統的聯動,比如監控系統、日誌系統、備份系統等。通過自排程系統,根據服務執行情況動態伸縮容量,能夠自動化處理常見的服務故障。運維人員的工作也會前置到產品設計階段,協助研發人員改造服務使其可以接入到自排程系統中。
在整個運維的發展過程中,希望所有的工作都自動化起來,減少人的重複工作,降低知識傳遞的成本,使我們的運維交付更高效、更安全,使產品執行更穩定。對於故障的處理,也希望由事後處理變成提前發現,由人工處理變成系統自動容災。