前言
我們已經發過不少 Linux 面試題,但是單獨的面試題總感覺會過於零碎,沒有體系化內容給人的幫助大。
知乎上有這樣一個問題:一個新手面試 Linux 運維工作至少需要知道哪些知識?其中有一個答案對這一話題的解讀非常深入,今天特別分享給大家。
什麼大型網站運維
首先明確一下,全文所講的”運維“是指:大型網站運維,與其它運維的區別還是蠻大的;然後我們再對大型網站與小型網站進行範圍定義,此定義主要從運維複雜性角度考慮,如網站規範、知名度、伺服器 量級、pv量等考慮,其它因素不是重點;因此,我們先定義伺服器規模大於1000臺,pv每天至少上億(至少國內排名前10),如sina、baidu、 QQ,http://51.com等等;其它小型網站可能沒有真正意義上的運維工程師,這與網站規範不夠和成本因素有關,更多的是集合網路、系統 、開發工作於一身的“複合性人才”,就如有些公司把一些合同採購都納入了運維職責範圍,還有如IDC網路規劃也納入運維職責。所以,非常重要一定需要明白:運維對其它關聯工種必須非常瞭解熟悉:網路、系統、系統開發、儲存,安全,DB等;我在這裡所講的運維工程師就是指專職運維工程師。
我們再來說說一般產品的“出生”流程:
- 首先公司管理層給出指導思想,PM定位市場需求(或copy成熟應用)進行調研、分析、最終給出詳細設計。
- 架構師根據產品設計的需求,如pv大小預估、伺服器規模、應用架構等因素完成網路規劃,架構設計等(基本上對網路變動不大,除非大專案)
- 開發工程師將設計code實現出來、測試工程師對應用進行測試。
- 好,到運維工程師出馬了。首先明確一點不是說前三步就與運維工作無關了,恰恰相反,前三步與運維關係很大:應用的前期架構設計、軟/硬體資源評估申請採購、應用設計效能隱患及評估、IDC、服務效能\安全調優、伺服器系統級最佳化(與特定應用有關)等都需運維全程參與,並主導整個應用上線專案;運維工程師負責產品伺服器上架準備工作,伺服器系統安裝、網路、IP、通用工具集安裝。運維工程師還需要對上線的應用系統架構是否合理、是否具備可擴充套件性、及安全隱患等因素負責,並負責最後將產品(程式)、網路、系統三者進行拼接並最最佳化的組合在一起,最終完成產品上線提供使用者使用,並周而復使:需求->開發(升級)->測試->上線(效能、安全問題等之前預估外的問題隨之慢慢就全出來了)在這裡提一點:網站開發模式與傳統軟體開發完全不一樣,網站一天開發上線1~5個升級版本是家常便飯,使用者體驗為王嘛,如果某個線上問題像M$ 需要1年解決,使用者早跑光了;應用上線後,運維工作才剛開始,具體工作可能包括:升級版本上線工作、服務監控、應用狀態統計、日常服務狀態巡檢、突發故障處理、服務日常變更調整、叢集管理、服務效能評估最佳化、資料庫管理最佳化、隨著應用PV增減進行應用架構的伸縮、安全、運維開發工作:
- 儘量將日常機械性手工工作透過工具實現(如服務監控、應用狀態統計、服務上線等等),提高效率。
- 解決現實中服務存在的問題,如高可靠性、可擴充套件性問題等。
- 大規模叢集管理工具的開發,如1萬臺機器如何在1分鐘內完成密碼修改、或執行指定任務?2000臺伺服器如何快速安裝作業系統?各分散式IDC、儲存叢集中數PT級的資料如何快速的儲存、共享、分析?等一系列挑戰都需運維工程師的努力。
在此說明一下其它配合工種情況,在整個專案中,前端應用對於網路/系統工程師來說是黑匣子,同時開發工程師職責只是負責完成應用的功能性開發,並對應用本身效能、安全性等應用本身負責,它不負責或關心網路/系統架構方面事宜,當然軟/硬體採購人員等事業部其它同事也不會關心這些問題,各司其職,但專案的核心是運維工程師~!所有其它部門的橋樑。
上面說了很多,我想大家應該對運維有一些概念了,在此打個比方吧,如果我們是一輛高速行駛在高速公路上的汽車,那運維工程師就是司機兼維修工,這個司機不簡單,有時需要在高速行駛過程中換輪胎、並根據道路情況換檔位、當汽車速度越來越快,汽車本身不能滿足高速度時對汽車效能調優或零件升級、高速行進中解決汽車故障及效能問題、時刻關注前方安全問題,並先知先覺的採取規避手段。這就是運維工作~!
最後說一下運維工程師的職責:”確保線上穩定“,看似簡單,但實屬不容易,運維工程師必須在諸多不利因素中進行權衡:新產品模式對現有架構及技術的衝擊、產品高頻度的升級帶來的線上BUG隱患、運維自動化管理承度不高導致的人為失誤、IT行業追求的高效率導致流程執行上的缺失、使用者增漲帶來的效能及架構上的壓力、IT行業寬鬆的技術管理文化、創新風險、網際網路安全性問題等因素,都會是網站穩定的大敵,運維工程師必須把控好這最後一關,需具體高度的責任感、原則性及協調能力,如果能做到各因素的最佳平衡,那就是一名優秀的運維工程師了。
另外在此聊點題外話,我在這裡看到有很多人要sina、QQ、baidu,http://51.com等聊自已的運維方面的經驗,其實這對於它們有點免為其難:
- 各公司自已網路架構、規模、或多或少還算是公司的核心秘密,要保密,另外,對於大家所熟知的通用軟體、架構,由於很多公司會根據自已實際業務需要,同時因為原版效能、安全性、已知bug、功能等原因,進行過二次開發(如apache,php,mysql ),作業系統核心也會根據不同業務型別進行定製的,如某些應用屬於運算型、某些是高IO型、或大儲存大記憶體型。根據這些特點進行核心最佳化定製,如sina就在 memcache上進行過二次開發,搞出了一個MemcacheDB,具體做得如何我們不談,但開源了,是值得稱讚的,國內公司對於開源基本上是索取,沒有貢獻;另外,伺服器也不是大家所熟知的型號,根據業務特點,大部份都是找DELL/HP/ibm進行過定製;另外,在分散式儲存方面都有自已解決方案,要不就是使用現成開源hadoop等解決方案,或自已開發。但90%都是借鑑google GFS的思想:分散式儲存、計算、大表。
- 各公司業務方向不一樣,會導致運維模式或方法都不一樣,如http://51.com和baidu運維肯定區別很大,因為他們業務模式決定了其架構、伺服器量級、 IDC分佈、網路結構、通用技術都會不一樣,主打新聞門戶的sina與主打sns的http://51.com運維模式差異就非常大,甚至職責都不大一樣;但有一點,通用技術及大致架構上都大同小異,大家不要太神化,更多的公司只是玩壘積木的遊戲罷了,沒什麼技術含量。
- 如上面所講,目前大型網站運維還處於幼年時期理念和經驗都比較零散,沒有成熟的知識體系,可能具體什麼是運維,大家都要先思索一番,或壓根沒想過,真正討論也只是運維工作的冰山一角,侷限於具體技術細節,或某某著名網站大的框架,真正運維體系化東西沒有,這也許是目前網上運維相關資料 比較少的原故吧。或者也是國內運維人員比較難招,比較牛的運維工程師比較少見的原因之一吧。
運維工程師需要什麼樣技能和素質
做為一名運維工程師需要什麼樣的技能及素質呢,首先說說技能吧,如大家上面所看到,運維是一個集多IT工種技能與一身的崗位,對系統->網路 ->儲存->協議->需求->開發->測試->安全等各環節都需要了解一些,但對於某些環節需熟悉甚至精通,如系統 (基本作業系統的熟悉使用,*nix,windows ..)、協議、系統開發(日常很重要的工作是自動運維化相關開發、大規模叢集工具開發、管理)、通用應用(如lvs、ha、web server 、db、中介軟體、儲存等)、網路,IDC拓樸架構;
技能方面總結以下幾點:
- 開發能力,這點非常重要,因為運維工具都需要自已開發,開發語言:perl、python、php(其中之一)、shell(awk,sed,expect….等),需要有過實際專案開發經驗,否則工作會非常痛苦。
- 通用應用方面需要了解:作業系統(目前國內主要是linux、bsd)、webserver相關 (nginx,apahe,php,lighttpd,java。。。)、資料庫(mysql,oralce)、其它雜七八拉的東東;系統最佳化,高可靠性;這些只是加分項,不需必備,可以邊工作邊慢慢學,這些東西都不難。當然在運維中,有些是有分工偏重點不一樣。
- 系統、網路、安全,儲存,CDN,DB等需要相當瞭解,知道其相關原理。
個人素質方面:
- 溝通能力、團隊協作:運維工作跨部門、跨工種工作很多,需善於溝通、並且團隊協作能力要強;這應該是現代企業的基本素質要求了,不多說。
- 工作中需膽大心細:膽大才能創新、不走尋常路,特別對於運維這種新的工種,更需創新才能促進發展;心細,運維工程師是網站admin,最高線上許可權者,一不小心就會遺憾終生或打入十八層地獄。
- 主動性、執行力、精力旺盛、抗壓能力強:由於IT行業的特性,變化快;往往計劃趕不上變化,運維工作就更突出了,比如國內各大公司伺服器往往是全國各地,哪裡便宜價效比高,就那往搬,進行大規模服務遷移(牽扯的伺服器成百上千臺),這是一個非常頭痛的問題;往往時間 非常緊迫,如限1周內完成,這種情況下,運維工程師的主動性及執行力就有很高的要求了:計劃、方案、服務無縫遷移、機器搬遷上架、環境準備、安全評估、效能評估、基建、各關聯部門扯皮,7X24小緊急事故響應等。
- 其它就是一些基本素質了:頭腦要靈光、邏輯思維能力強、為人謙虛穩重、親和力、樂於助人、有大局觀。
- 最後一點,做網站運維需要有探索創新精神,透過創新型思維解決現實中的問題,因為這是一個處於幼年的職業(國外也一樣,但比國內起步早點),沒有成熟體系或方法論可以借鑑,只能靠大家自已摸索努力。
怎樣才算是一個合格的運維工程師
- 保證服務達到要求的線上標準,如99.9%;保證線上穩定,這是運維工程師的基本責職所在。
- 不斷的提升應用的可靠性與健壯性、效能最佳化、安全提升;這方面非常考驗主動性和創新思維。
- 網站各層面監控、統計的覆蓋度,軟體、硬體、執行狀態,能監控的都需要監控統計,避免監控死角、並能實時瞭解應用的運轉情況。
- 透過創新思維解決運維效率問題;目前各公司大部份運維主要工作還是依賴人工操作干預,需要儘可能的解放雙手。
- 運維知識的積累與沉澱、文件的完備性,運維是一個經驗性非常強的崗位,好的經驗與陷阱都需積累下來,避免重複性範錯。
- 計劃性和執行力;工作有計劃,計劃後想法設法達到目標,不找藉口。
- 自動化運維;能對日常機械化工作進行提煉、設計並開發成工具、系統,能讓系統自動完成的儘量依靠系統;讓大家更多的時間用於思考、創新思維、做自已喜歡的事情。
以上只是技術上的一些層面,當然個人意識也是很重要的。
運維職業的迷惘、現狀與發展前景
運維崗位不像其它崗位,如研發工程師、測試工程師等,有非常明確的職責定位及職業規劃,比較有職業認同感與成就感;而運維工作可能給人的感覺是哪方面都瞭解一些,但又都比上專職工程師更精通、感覺平時被關注度比較低(除非線上出現故障),慢慢的大家就會迷惘,對職業發展產生困惑,為什麼會有這種現象呢?除了職業本身特點外,主要還是因為對運維瞭解不深入、做得不深入導致;其實這個問題其它崗位也會出現,但我發現運維更典型,更容易出現這個問題;
針對這個問題我談一下網站運維的現狀及發展前景(也在思考中,可能不太深入全面,也請大家斧正補充)
運維現狀:
- 處於剛起步的初級階段,各大公司有此專職,但重視或重要程度不高,可替代性強;小公司更多是由其它崗位來兼顧做這一塊工作,沒有專職,也不可能做得深入。
- 技術層次比較低;主要處於技術探索、積累階段,沒有型成體系化的理念、技術。
- 體力勞動偏大;這個問題主要與第二點有關係,很多事情還是依靠人力進行,沒有完成好的提練,對於大規模叢集沒有成熟的自動化管理方法,在此說明一下,大規模叢集與運維工作是息息相關的如果只是百十來臺機器,那就沒有運維太大的生存空間了。
- 優秀運維人才的極度缺乏;目前各大公司基本上都靠自已培養,這個現狀導致行業內運維人才的流動性非常低,非常多好的技術都侷限在各大公司內部,如 google 50萬臺機器科學的管理,或者國內互聯公司top 10 的一些運維經驗,這些經驗是非常有價值的東西並決定了一個公司的核心競爭力;這些問題進而導致業內先進運維技術的流通、貫通、與借籤,並最終將限制了運維發展。
- 很多優秀的運維經驗都掌握在大公司手中;這不在於公司的技術實力,而在於大公司的技術規模、海量PV、硬體規模足夠大,如baidu可怕的流量、 http://51.com海量資料~~~~這些因素決定了他們遇到的問題都是其它中/小公司還沒有遇到的,或即將遇到。但大公司可能已有很好的解決方案或系統。
發展前景:
- 從行業角度來看,隨著中國網際網路的高速發展(目前中國網民已躍升為全球第一)、網站規模越來越來大、架構越來越複雜;對專職網站運維工程師、網站架構師的要求會越來越急迫,特別是對有經驗的優秀運維人才需求量大,而且是越老越值錢;目前國內基本上都是選擇畢業生培養(限於大公司),培養成本高,而且沒有經驗人才加入會導致公司技術更新緩慢、影響公司的技術發展;當然,畢業生也有好處:白紙一張,可塑性強,比較認同並容易融入企業文化。
- 從個人角度,運維工程師技術含量及要求會越來越高,同時也是對公司應用、架構最瞭解最熟悉的人、越來越得到重視。
- 網站運維將成為一個融合多學科(網路、系統、開發、安全、應用架構、儲存等)的綜合性技術崗位,給大家提供一個很好的個人能力與技術廣度的發展空間。
- 運維工作的相關經驗將會變得非常重要,而且也將成為個人的核心競爭力,具備很好的各層面問題的解決能力及方案提供、全域性思考能力等。
- 特長髮揮和興趣的培養;由於運維崗位所接觸的知識面非常廣闊,更容易培養或發揮出個人某些方面的特長或愛好,如核心、網路、開發、資料庫等方面,可以做得非常深入精通、成為這方面的專家。
- 如果真要以後不想做運維了,轉到其它崗位也比較容易,不會有太大的侷限性。當然了,你得真正用心去做。
- 技術發展方向:網站/系統架構師。
運維關鍵技術點解剖
1、 大規模叢集管理問題
首先我們先要明確叢集的概念,叢集不是泛指各功能伺服器的總合,而是指為了達到某一目的或功能的伺服器、硬碟 資源的整合(機器數大於兩臺),對於應用來說它就是一個整體,目前常規叢集可分為:高可用性叢集(HA),負載均衡叢集(如lvs),分散式儲、計算儲存叢集(DFS,如google gfs ,yahoo hadoop),特定應用叢集(某一特定功能伺服器組合、如db、cache層等),目前網際網路行業主要基於這四種型別;對於前兩種類似,如果業務簡單、應用上post操作比較少,可以簡單的採用四層交換機 解決(如f5),達到服務高可用/負責均衡的作用,對於資源緊張的公司也有一些開源解決辦法如lvs+ha,非常靈活;對於後兩種,那就考驗公司技術實力及應用特點了,第三種DFS主要應用於海量資料應用上,如郵件、搜尋等應用,特別是搜尋要求就更高了,除了簡單海量儲存,還包括資料探勘、使用者行為分析;如 google、yahoo就能儲存分析近一年的使用者記錄資料,而baidu應該少於30天、soguo就更少了。。。這些對於搜尋準備性、及使用者體驗是至關重要的。
接下來,我們再談談如何科學的管理叢集,有以下關鍵幾點:
I、監控
主要包括故障監控和效能、流量、負載等狀態監控,這些監控關係到叢集的健康執行,及潛在問題的及時發現與干預;
- 服務故障、狀態監控:主要是對伺服器自身、上層應用、關聯服務資料互動監控;例如針對前端web server,我們就可以有很多種型別的監控,包括應用埠 狀態監控,便於及時發現伺服器或應用本身是否crash、透過icmp包探測伺服器健康狀態,更上層可能還包括應用各頻道業務的監控,常用方法是採用面業特徵碼進行判斷,或對重點頁面進行簽名,以網站被黑篡改(報警、並自動恢復被篡改資料)等等,這些只是一部份,還有N多監控方式,依應用特點而定,還有一些問題需解決,如叢集過大,如何高效能的進行監控也是一個現實問題。
- 其它就是叢集狀態類的監控或統計,為我們合理管理調優叢集提供資料參考、包括服務瓶頸、效能問題、異常流量、攻擊等問題。
2、故障管理
- 硬體故障問題;對於成百上千或上萬機器的N多叢集,伺服器當機、硬體故障機率是非常大的,幾乎每時每刻都有服務硬體問題,當機、硬碟損壞、電源、記憶體、交換機。針對這種情況,我們在設計網站架構時需要充分考慮到這些問題,並將其視為常態;更多的依靠應用的冗餘機制來規避這種風險,但給系統工程師足夠寬裕的處理時間。(如google不是號稱同時死800臺機器,服務不會受到任何影響嗎);這就是考驗運維工程師及網站架構師功能的地方了,好的設計能達到google所描述自恢復能力,如gfs,糟糕的設計那就是一臺伺服器的當機可能會造成大面積服務的連鎖故障反映,直接對使用者拒絕響應。
- 應用故障問題;可能是某一bug被觸發、或某一效能閥值被超越、攻擊等情況不一而定,但重要的一點,是要有對這些問題的預防性措施,不能想當然,它不會出問題,如真出問題了,如何應對?這需要運維工程師平時做足功夫,包括應急響應速度、故障處理的科學性、備用方案的有效等。
3、自動化
自動化:簡而言之,就是將我們日常手動進行的一些工作透過工具,系統自動來完成,解放我們的雙手及枯燥的重複性勞動,例如:沒有工具前,我們安裝系統需要一臺一臺裸機安裝,如2000臺,可能需要10人/10天,搞爛N張光碟,人力成本更大。。。而現在透過自動化工具,只需幾個簡單命令 就能搞定、還有如機器人類程式,自動完成以往每天人工干預的工作,使其自動完成、彙報結果,並具備一定的專家系統能力,能做一些簡單的是/非判斷、最佳化選擇等。。。這些好處非常明顯不再多說。。。應該說,自動化運維是運維工程師職業化的一個追求,利已利公,雖然這是一個異常艱鉅的任務:不斷變更的業務、不規範化的應用設計、開發模式、網路架構變更、IDC變更、規範變動等因素,都可能會對現有自動化系統產生影響,所以需要模組化、介面化、變因引數化等因此,自動化相關工作,是運維工程師的核心重點工作之一,也是價值的體現。
本文轉自:https://mp.weixin.qq.com/s/ZocozTkCNViMAtZIr7C7ww
原文來自豆瓣:
作者:defcon
連結:https://www.zhihu.com/question/19855127/answer/13816874