遲來的2013年總結

haolujun發表於2014-01-25

和去年一樣,來一個年終總結吧,算是自己一年的記錄。

工作:

13年4月18號入職,到現在也有8個多月。
搞的是資料這行,不是資料探勘,是資料分析。所以關於大資料的書看了很多。
工作分為幾部分:

1:在資料平臺組,所以工作比較雜。每天都要處理一大堆的業務需求,給出各種各樣的統計資料。其實最難得部分在於如何把一個統計需求落實在具體的資料中,比如,日誌在哪,應該如何統計才能得到他們要的數字。而諸如如何寫hive sql和MR這些東西都非常簡單,不用花太多精力。期間遷移並且改造了40多張報表,也算是階段性的成果吧。

2:接手了公司的日誌收集系統,負責其開發與維護以及應用推廣。修改了原版系統若干bug就不說了。做的最重要的兩件事就是:
1.改造它使他能夠支援服務的動態插拔,並且消除了單點故障問題,推出了新版的客戶端。
2.日誌傳到叢集上之後要每天進行壓縮,原來是早上7點才能把所有日誌壓縮完畢,現在改進後大概凌晨1點之前就行。所以,對於依賴這些資料進行處理的業務現在也可以提前6個小時處理,在每天上班前就能傳送前一天資料包表等等,這樣公司的各種領導們就可以及時的看到資料指標了。老大是很贊這個改進的。

工作中學習了很多新的東西,比如如何使用hive,怎麼寫sql,怎麼寫MR,還有shell指令碼。資料分析方面也算是瞭解一些,而且我覺得資料分析挺有趣。我也是我們組唯一一個在資料收集,儲存,業務資料統計整個鏈條中都參與的人。雖然,在他們眼中,我只不過是一個新兵蛋子,不屑一顧,但是我接觸了很多東西,多少自己有些心得體會。這一段時間也思考了一下資料平臺的本職工作是什麼,我的觀點:

提供可靠,穩定,高效的資料統計平臺,包括資料收集,儲存,資料分析以及展示,發現和分析資料中暴露出的問題,並且提出合理建議,支援其它部門業務的決策。所以我認為它要分兩個部分的工作:
1:提供切實可用的資料分析平臺,這個主要是技術方面的。比如提供叢集,日誌收集,hive等這些必不可少的基礎設施與系統。
2:資料分析。如果說資料平臺沒有人知道怎麼進行資料分析,那麼我覺得就相當於一個瞎子拿了一把AK47想和別人PK。槍再好,沒有眼睛也沒用武之地。

第二點我們現在做的並不好,所有人現在滿腦袋都是技術,所以需要有人出來指出另一個方向。我也正在學習分析這方面的東西,總有人需要做這些事,既然你們不做,那我就來做。我要做一個既要懂技術也要懂資料的人。老大現在也非常支援我做一些資料分析更深入的工作,怎麼說呢,加油幹吧。

關於跳槽:

現在我們組人員跳槽率太高,主要都是因為工作不順或者太枯燥才走的,搞過資料的人,都知道這份工作是多麼的枯燥,乏味以及累。所以,我們的工作量也是越來越大,現在真正做資料平臺的人也不過5,6個人,壓力很大。能不能扛得住,全看個人。我的目標是堅持3年,第一份工作不能說跳就跳,這是不成熟的表現,也是懦夫的行為。

要是去年的我看到我今年的東西肯定會接受不了,因為我去年還沉迷於各種技術,Linux,C++,分散式,RPC這些,甚至還看了彙編,總覺得技術牛逼才牛逼。

但是我現在有一個感覺,就是技術只是我解決問題需要用到一種武器,而我需要用這把武器要打到什麼樣的獵物才是我關心的,可以說我的關注點從武器轉到獵物上面了,這算是一個轉變。我現在心裡也沒什麼譜,但是總覺得不能再拿著槍瞎嘚瑟了。不過古語有句話“君欲善其事,必先利其器”,所以技術這面我也不會放下,也還是要花一些心思在上面的,但是度要把握好。

部落格:
說道寫部落格,今年大多數的部落格都是在學校的時候寫的。工作之後基本就沒怎麼寫,因為自己的思緒很亂,整理不出一篇像樣的東西。
學校裡寫了一些6篇資訊檢索相關的,都是自己看完書後意淫,沒什麼實際經驗和價值,所以行家看到就呵呵就好了。此外又寫了一篇《自己動手實現自旋鎖》,我只是把那本書上關於鎖的東西證明了一下而已,但是我覺得軟體上實現鎖這個東西確實很有意思。又寫了一篇《自己動手編譯、執行Java程式》,也算是對Java的學習,大牛們也可忽略。

學習:

今年看的書單列在下面,有些看的很仔細,有些就止於皮毛了,大神見到別笑話。

*****全部讀完
**** 讀完一大半
***   看完一半
**     挑著某些章節看
*       隨便翻了翻
-       至今還沒翻看過

理論、演算法、數學:
***** 大資料-網際網路大規模資料探勘與分散式處理 (Anand Rajaraman, Jeffrey David Ullman著)
****   概率論基礎教程 (Scheldon M.Ross著)
***     web資料探勘 (Bing Liu著)
**       線性代數 (Steven J.Leon著)
**       具體數學 (Ronald L.Graham, Donald E.Knuth, Oren Patashnik著)
*         數理統計與資料分析 (John A.Rice著)
*         研究之美 (高德納著)
*         網路、群體與市場 (David Easley, Jon Kleinberg著)
*         策略博弈 (Avinash Dixit, Susan Skeath, David Reiley著)

技術:
***** 網站分析實踐 (王彥平 吳盛峰編著)
***     hadoop技術內幕 (董西成著)
**       流量的祕密 (Brian Clifton著)
**       hadoop技術內幕 (蔡斌,陳湘萍著)
**       BOOST程式庫完全開發指南 (羅劍鋒著)
**       資料探勘與R語言 (Luis Torgo著)
*         TCP/IP協議族 (Behrouz A.Forouzan著)

科普、傳記
***** 浪潮之巔 (吳軍著)
***** 傑克韋爾奇自傳 (Jack Welch, John A.Byme著)
***** 習慣的力量 (Charles Duhigg著)
***** 大資料時代 (Viktor Mayer-Schonberger, Kenneth Cukier著)
***** Big Data (塗子沛著)
****   誰是谷歌想要的人才 (William Poundstone著)
**      失控 (kevin kelly著)
-        六度分割 (Duncan J.Watts著)
-        大連線 (Nicholas A.Christakis, James H.Fowler著)

4月份之前在學校的部分基本就回憶不起來了。工作了之後發現確實比在學校的時候懶了許多,總會拿工作了一天太累為藉口而不看書。即使看書也是一些不浪費腦細胞的。
科普傳記看的比較多,可以看出我這一年很浮躁。不過也可能是因為後面這類書的緣故,我得想法和以前有很大的轉變。前兩類書看的比較少,這是我明年需要加強的地方,需要增加自己的理論功底。大資料的書看的比較多。我經常聽別人說"大資料被稱為幾(具體是1,2,3還是多少我就不知道了)大浮之一",我覺得有這種現象,至少說明這個領域最近很活躍,那麼只要它夠活躍,還是能出現一些很新穎的東西,所以別管浮不浮,只要自己的心別浮躁就可以。

現階段工作目標是從一個技術人員轉行稱為一名資料分析員,努力幹吧。

 

相關文章