阿里巴巴資深大資料工程師:大資料處理實踐

趙鈺瑩發表於2018-06-11

  不同於以往的授課式課堂風格,這次史丹佛大學的教授Hadley Wickham開設了一門論文討論課。課程名為:Readings in Applied Data Science。要求學生每週閱讀3~4篇論文,並給出反饋。

阿里巴巴資深大資料工程師:大資料處理實踐

  考慮到內向和不善表達的學生,課程採用Stephen D. Brookfield和Stephen Preskill的討論手冊中的技巧來確保每個人都有機會參與課堂討論。課程成績的評判也沒有采用傳統的結課考試,而是由課堂參與、討論準備、課外閱讀筆記三部分得分構成。

  Hadley Wickham教授已在網上貼出了這門課程的閱讀清單推薦,下面這些論文,你讀過哪些?

  什麼是資料科學

  資料科學家大多隻做算術,這是件好事—— Noah Lorang(2016)

  https://m.signalvnoise.com/data-scientists-mostly-just-do-arithmetic-and-that-s-a-good-thing-c6371885f7f6

  企業資料分析和視覺化:面試研究——Sean Kandel,Andreas Paepcke,Joseph Hellerstein,Jeffrey Heer(2012)

  https://idl.cs.washington.edu/papers/enterprise-analysis-interviews

  50年的資料科學(OA預印本)——David Donoho(2017)(注:這是一份討論檔案,許多著名的統計人員對評論做出了貢獻。)

  https://www.tandfonline.com/doi/abs/10.1080/10618600.2017.1384734

  資料收集和協作

  整潔的資料——Hadley Wickham(2013)

  https://www.jstatsoft.org/article/view/v059i10/

  電子表格中的資料結構——Karl W Broman,Kara Woo(2017)

  https://peerj.com/preprints/3183/

  在資料專案中使用Google表格的最佳做法——Matthew Lincoln (2018)

  https://matthewlincoln.net/2018/03/26/best-practices-for-using-google-sheets-in-your-data-project.html

  軟體工程

  資料科學家的軟體開發技能——Trey Causey(2015)

  http://treycausey.com/software_dev_skills.html

  打擾一下,你有沒有時間談論版本控制?——Jennifer Bryan (2017)

  https://peerj.com/preprints/3159/

  足夠好的科學計算實踐——Greg Wilson,Jennifer Bryan,Karen Cranston,Justin Kitzes,Lex Nederbragt,Tracy K. Teal(2017)

  http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005510

  DevOps

  介紹Docker進行可重複研究,並以R環境為例——Carl Boettiger(2014)

  https://arxiv.org/abs/1410.0846

  機器學習:技術債務的高利息信用卡——D.Sculley,Gary Holt,Daniel Golovin,Eugene Davydov,Todd Phillips,Dietmar Ebner,Vinay Chaudhary,Michael Young(2015)

  https://research.google.com/pubs/pub43146.html

  教學

  統計學入門課程:托勒密體系?——George W Cobb (2013)

  https://escholarship.org/uc/item/6hb3k0nz

  資料科學教育的民主化——Sean Kross,Roger D Peng,Brian S Caffo,Ira Gooding,Jeffrey T Leek(2017)

  https://peerj.com/preprints/3195/

  教授資料科學統計——Danny Kaplan (2017)

  https://peerj.com/preprints/3205/

  資料道德

  倫理資料科學家——Cathy O'Neil (2016)

 http://www.slate.com/articles/technology/future_tense/2016/02/how_to_bring_better_ethics_to_data_science.html

  大資料,機器學習和社會科學——Hannah Wallach(2014)

  https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d

  資料科學道德準則——DJ Patil(2018)

  https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d

  統計實踐的道德準則——美國統計協會職業道德委員會(2016年)

  http://www.amstat.org/ASA/Your-Career/Ethical-Guidelines-for-Statistical-Practice.aspx

  可複用性

  計算科學最佳實踐——Victoria Stodden, Sheila Miguez (2014)

  https://openresearchsoftware.metajnl.com/articles/10.5334/jors.ay/

  rOpenSci如何使用程式碼評審來促進可複用的科學——Noam Ross,Scott Chamberlain,Karthik Ram,Ma?lleSalmon(2017)

  https://ropensci.org/blog/2017/09/01/nf-softwarereview/

  工作流程

  平易近人的社會科學導論——Kieran Healy (2016)

  http://plain-text.co/

  開啟筆記本歷史——Caleb Daniels(2013)

  http://wcm1.web.rice.edu/open-notebook-history.html

  如何成為現代科學家——Jeff Leek(2016)

  https://leanpub.com/modernscientist

  業界

  在Twitter上做資料科學——Robert Chang(2015)

  https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6

  程師不應該寫ETL構建一個高功能資料科學體系的指南——Jeff Magnusson(2016)

  https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/

  在Airbnb上使用R包和教育來發展資料科學——裡卡多比昂(2016)

  https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d

  Instacart的資料科學——Jeremy Stanley(2017)

  https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279

  .rprofile:Jenny Bryan——Kelly O'Briant(2017)

  https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279

  營銷資料科學——Erik Oberg(2018)

  https://medium.com/indeed-data-science/marketing-for-data-science-a-7-step-go-to-market-plan-for-your-next-data-product-60c034c34d55

  職業發展

  在資料科學就業市場上的感覺如何——Trey Causey(2016)

  http://treycausey.com/data_science_interviews.html

  學術求職建議——Matt Might

  http://treycausey.com/data_science_interviews.html

  資料科學中的冒充者綜合徵——Caitlin Hudon(2018年)

  https://caitlinhudon.com/2018/01/19/imposter-syndrome-in-data-science/

  原文連結:https://github.com/hadley/stats337/blob/master/README.md
  本文轉載自網路大資料,轉載請聯絡原作者!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2155971/,如需轉載,請註明出處,否則將追究法律責任。

相關文章