阿里巴巴資深大資料工程師:大資料處理實踐
不同於以往的授課式課堂風格,這次史丹佛大學的教授Hadley Wickham開設了一門論文討論課。課程名為:Readings in Applied Data Science。要求學生每週閱讀3~4篇論文,並給出反饋。
考慮到內向和不善表達的學生,課程採用Stephen D. Brookfield和Stephen Preskill的討論手冊中的技巧來確保每個人都有機會參與課堂討論。課程成績的評判也沒有采用傳統的結課考試,而是由課堂參與、討論準備、課外閱讀筆記三部分得分構成。
Hadley Wickham教授已在網上貼出了這門課程的閱讀清單推薦,下面這些論文,你讀過哪些?
什麼是資料科學
資料科學家大多隻做算術,這是件好事—— Noah Lorang(2016)
https://m.signalvnoise.com/data-scientists-mostly-just-do-arithmetic-and-that-s-a-good-thing-c6371885f7f6
企業資料分析和視覺化:面試研究——Sean Kandel,Andreas Paepcke,Joseph Hellerstein,Jeffrey Heer(2012)
https://idl.cs.washington.edu/papers/enterprise-analysis-interviews
50年的資料科學(OA預印本)——David Donoho(2017)(注:這是一份討論檔案,許多著名的統計人員對評論做出了貢獻。)
https://www.tandfonline.com/doi/abs/10.1080/10618600.2017.1384734
資料收集和協作
整潔的資料——Hadley Wickham(2013)
https://www.jstatsoft.org/article/view/v059i10/
電子表格中的資料結構——Karl W Broman,Kara Woo(2017)
https://peerj.com/preprints/3183/
在資料專案中使用Google表格的最佳做法——Matthew Lincoln (2018)
https://matthewlincoln.net/2018/03/26/best-practices-for-using-google-sheets-in-your-data-project.html
軟體工程
資料科學家的軟體開發技能——Trey Causey(2015)
http://treycausey.com/software_dev_skills.html
打擾一下,你有沒有時間談論版本控制?——Jennifer Bryan (2017)
https://peerj.com/preprints/3159/
足夠好的科學計算實踐——Greg Wilson,Jennifer Bryan,Karen Cranston,Justin Kitzes,Lex Nederbragt,Tracy K. Teal(2017)
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005510
DevOps
介紹Docker進行可重複研究,並以R環境為例——Carl Boettiger(2014)
https://arxiv.org/abs/1410.0846
機器學習:技術債務的高利息信用卡——D.Sculley,Gary Holt,Daniel Golovin,Eugene Davydov,Todd Phillips,Dietmar Ebner,Vinay Chaudhary,Michael Young(2015)
https://research.google.com/pubs/pub43146.html
教學
統計學入門課程:托勒密體系?——George W Cobb (2013)
https://escholarship.org/uc/item/6hb3k0nz
資料科學教育的民主化——Sean Kross,Roger D Peng,Brian S Caffo,Ira Gooding,Jeffrey T Leek(2017)
https://peerj.com/preprints/3195/
教授資料科學統計——Danny Kaplan (2017)
https://peerj.com/preprints/3205/
資料道德
倫理資料科學家——Cathy O'Neil (2016)
http://www.slate.com/articles/technology/future_tense/2016/02/how_to_bring_better_ethics_to_data_science.html
大資料,機器學習和社會科學——Hannah Wallach(2014)
https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d
資料科學道德準則——DJ Patil(2018)
https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d
統計實踐的道德準則——美國統計協會職業道德委員會(2016年)
http://www.amstat.org/ASA/Your-Career/Ethical-Guidelines-for-Statistical-Practice.aspx
可複用性
計算科學最佳實踐——Victoria Stodden, Sheila Miguez (2014)
https://openresearchsoftware.metajnl.com/articles/10.5334/jors.ay/
rOpenSci如何使用程式碼評審來促進可複用的科學——Noam Ross,Scott Chamberlain,Karthik Ram,Ma?lleSalmon(2017)
https://ropensci.org/blog/2017/09/01/nf-softwarereview/
工作流程
平易近人的社會科學導論——Kieran Healy (2016)
http://plain-text.co/
開啟筆記本歷史——Caleb Daniels(2013)
http://wcm1.web.rice.edu/open-notebook-history.html
如何成為現代科學家——Jeff Leek(2016)
https://leanpub.com/modernscientist
業界
在Twitter上做資料科學——Robert Chang(2015)
https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6
程師不應該寫ETL構建一個高功能資料科學體系的指南——Jeff Magnusson(2016)
https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/
在Airbnb上使用R包和教育來發展資料科學——裡卡多比昂(2016)
https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d
Instacart的資料科學——Jeremy Stanley(2017)
https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279
.rprofile:Jenny Bryan——Kelly O'Briant(2017)
https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279
營銷資料科學——Erik Oberg(2018)
https://medium.com/indeed-data-science/marketing-for-data-science-a-7-step-go-to-market-plan-for-your-next-data-product-60c034c34d55
職業發展
在資料科學就業市場上的感覺如何——Trey Causey(2016)
http://treycausey.com/data_science_interviews.html
學術求職建議——Matt Might
http://treycausey.com/data_science_interviews.html
資料科學中的冒充者綜合徵——Caitlin Hudon(2018年)
https://caitlinhudon.com/2018/01/19/imposter-syndrome-in-data-science/
原文連結:https://github.com/hadley/stats337/blob/master/README.md
本文轉載自網路大資料,轉載請聯絡原作者!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155971/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 連載:阿里巴巴大資料實踐—資料建模綜述阿里大資料
- Serverless 在大規模資料處理的實踐Server
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 大資料前景如何?大資料開發工程師是什麼?大資料工程師
- 剖析大資料平臺的資料處理大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 大資料常用處理框架大資料框架
- 大資料量處理實踐方案整理大資料
- 大資料如何學習,大資料工程師學習經驗分享大資料工程師
- Pandas多維特徵資料預處理及sklearn資料不均衡處理相關技術實踐-大資料ML樣本集案例實戰特徵大資料
- 大資料處理的基本流程大資料
- 基於python的大資料分析-資料處理(程式碼實戰)Python大資料
- Matlab實驗資料處理程式大彙總Matlab
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 處理XML資料應用實踐XML
- 四說大資料時代“神話”:從大資料到深資料大資料
- 年薪500萬大資料工程師:講解大資料建模方法和經驗大資料工程師
- 從BAT大資料工程師那裡總結的大資料學習方法BAT大資料工程師
- 阿里巴巴年薪800k大資料全棧工程師成長記阿里大資料全棧工程師
- 我的《海量資料處理與大資料技術實戰》出版啦!大資料
- 大資料處理平臺都有哪些?大資料
- 大資料處理系統有哪些大資料
- 大資料工程師-學習路線-轉大資料工程師
- 網易微專業大資料工程師大資料工程師
- 你想快速成為大資料工程師?大資料工程師
- 玩轉大資料系列之二:資料分析與處理大資料
- 傳統的資料處理方式能否應對大資料?大資料
- 大資料Storm 之RCE實踐大資料ORM
- DataPipeline在大資料平臺的資料流實踐API大資料
- 資料預處理和特徵工程特徵工程
- mysql,sqlserver資料庫單表資料過大的處理方式MySqlServer資料庫
- 大資料平臺之大資料處理系統的架構大資料架構
- 大資料初學者怎樣學習?Java工程師怎麼轉行大資料?大資料Java工程師
- 大資料處理流程包括哪些環節大資料
- 大資料處理過程是怎樣大資料
- 大資料處理需留意哪些問題大資料
- 大資料工程師需要學習哪些技術?大資料工程師
- 如何成為一名大資料工程師?大資料工程師