5個免費工具,讓資料科學更加簡單
資料科學有一個很大的優點是,資料科學家使用的許多最先進的工具都是免費的。事實上,業內免費工具的數量已經非常之大,有時甚至會讓人頭疼,不知該如何選擇。為了幫助大家確定自己該選擇哪些工具,這裡列出了用於資料處理的五個值得了解的免費軟體工具。
Photo by from
Anaconda Distribution
Python之所以成為資料科學領域的一個偉大工具,是因為有大量開發人員構建了基於Python的資料科學庫。對於使用Python完成工作的資料科學家來說,諸如NumPy、SciPy、panda、scikit-learn等庫是必不可少的。不幸的是,即使對於經驗最豐富的開發者來說,處理所有這些Python庫也是一個挑戰。它們可能很難安裝,而且許多都依賴於Python之外的某個軟體。
Anaconda是一個免費的Python發行版和包管理器,它解決了這個問題。Anaconda Python發行版預先安裝了超過200個最流行的資料科學Python庫,並且它的包管理器提供了一種簡單的方式來安裝超過2000個額外的包,且無需擔心軟體依賴關係。Anaconda還附帶許多其他流行的工具,包括Jupyter Notebook——它使資料科學家能夠在基於瀏覽器的環境中互動工作。
RStudio & RStudio Server
RStudio是一個整合開發環境(IDE),是為在R語言中執行互動式資料分析和更正式的程式設計而定製的。RStudio為互動式工作環境提供了一個完美的平衡,它支援R控制檯和資料視覺化皮膚,以及功能齊全的文字編輯器,該文字編輯器可以實現語法高亮顯示和程式碼補全。
一個不太為人所知的工具是RStudio Server,它是RStudio IDE的一個功能完整的版本,執行在伺服器上,可以透過瀏覽器訪問。這意味著您可以透過網路連線從任何地方訪問RStudio IDE,並將計算轉移到專用資源上。這使得資料科學家可以處理潛在的敏感資料,而不必將其下載到個人裝置上,也可以在任何裝置上用R執行復雜且計算量大的工作。
OpenRefine
OpenRefine最初由谷歌的工程師開發,是一種用於資料清理的開源工具。它允許從業者讀取混亂或損壞的資料,執行批次轉換以修復錯誤,並生成乾淨的資料,並以一系列有用的格式匯出結果。
OpenRefine的最佳特性之一是,它能夠跟蹤在資料集上執行的每個操作,使步驟跟蹤和工作流的重新建立變得非常容易。當您有許多檔案都具有相同的資料完整性問題,並且需要相同的轉換時,這尤其有用。OpenRefine允許匯出對第一個資料檔案所做的更改序列,並將其應用於第二個資料檔案,從而節省重複工作的時間並降低人為操作出現錯誤的可能性。
OpenRefine還提供了非常強大的工具來處理凌亂的文字欄位。例如,如果資料集中有一列的條目是“Vancouver, BC”。、“VANCOUVER BC”和“vancouver b.c.”, OpenRefine的文字聚類工具就會識別出它們可能是相同的,並執行批次轉換,以便對每個事件應用單個標籤。
Apache Airflow
在大多陣列織中,資料並不是存留在一個地方,也不是隻使用一種方法訪問的。通常有多個資料庫、資料儲存系統、API和其他程式,來跟蹤整個組織中的資料。資料團隊的主要工作是將資料從存留的位置移動到需要進行分析的位置,並根據需要進行轉換。理想情況下,這項工作應該儘可能自動化,Apache Airflow可以完成此事。
Airflow是Airbnb的工程師為內部使用開發的,2015年開源。它是一個對映、自動化和排程複雜工作流的工具,這些工作流涉及了許多具有相互依賴關係的不同系統。它可以監控這些流程是否成功,並在出現問題時提醒工程師。Airflow還有一個基於Web的使用者介面,它將工作流表示為一個小作業網路,這樣依賴關係就可以很容易地實現視覺化。
H2O
隨著機器學習技術的成熟,一些基本演算法得到了廣泛的應用。廣義線性模型、基於樹的模型和神經網路都已成為機器學習工具包中的基本元素。然而,儘管R和Python中那些演算法的許多實現對於原型設計和概念驗證非常有用,但它們並不能很好地擴充套件到生產環境中。
H2O是一個開源工具,它提供了最流行的統計和機器學習演算法的高效和可擴充套件實現。它可以連線到許多不同型別的資料儲存系統,可以在包括從膝上型電腦到大型計算叢集的任何裝置上執行。它擁有強大和靈活的工具,來構建模型原型並進行微調,而且在H2O中構建的模型非常易於部署到生產環境中。最重要的是,H2O有Python和R的API,因此資料科學家可以無縫地將其與現有環境整合。
目前資料科學領域的軟體工具數不勝數,在專案啟動時,選擇足夠優秀的免費工具來加速和最佳化資料流程是一個不錯的選擇。
原文來源:BrainStation
來自 “ BrainStation ”,原文連結:http://blog.itpub.net/31545805/viewspace-2637021/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 免費!資料科學及機器學習必備書單下載!資料科學機器學習
- 學習資料科學的五大免費資源資料科學
- 讓科學重回資料科學資料科學
- 12 個概念,讓 JavaScript 開發更加簡單JavaScript
- 免費API介面:讓開發更簡單更快API
- 5個免費、跨平臺的SQLite資料庫視覺化工具SQLite資料庫視覺化
- 3個免費資料採集工具網站網站
- 資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai資料科學TOMLAI
- Ulysses for Mac(讓寫作變得更加簡單) v33免啟用版Mac
- 一些免費、操作簡單的工具軟體
- 好用簡單、且永久免費的內網穿透工具內網穿透
- 簡潔實用的5款小工具,讓生活更加豐富多彩
- CodeRunner for Mac:讓程式設計更加簡單Mac程式設計
- 【譯文】17個助你開闊視野、熟練技能的免費的資料科學專案(資料集)資料科學
- Python機器學習 5個資料科學家案例解析Python機器學習資料科學
- 移動OA系統,讓企業管理更加科學高效
- 簡單好用、並且永久免費的內網穿透工具內網穿透
- Counter:簡單而免費的網路流量分析工具
- 機器學習和資料科學領域必讀的10本免費書籍機器學習資料科學
- OReilly 免費電子書:程式設計、Web開發、資料科學等程式設計Web資料科學
- 10個針對企業的免費大資料分析工具大資料
- 未來的健身計劃 更加科學 更加健康 更加智慧
- 資料免費
- 盤點5個常用的Python資料科學庫!Python資料科學
- 免費學習程式設計的10個好工具程式設計
- 免費學習程式設計的10個好工具!程式設計
- vue-manage-system 版本更新,讓開發更加簡單Vue
- 海外市場洞察必備工具大集錦 – 6個免費的資料分析工具
- 資料科學求職建議:掌握5種型別的資料科學專案資料科學求職型別
- CSDN大資料學習班免費招募大資料
- spring思維導圖,讓spring更加簡單易懂Spring
- 來學習!五個免費充電資源
- 這個 bug 讓我更加理解 Spring 單例了Spring單例
- 免費的FTP工具,免費的FTP工具下載!FTP
- 免費OA辦公系統,讓企業管理更加有序穩定發展
- 資料科學資料科學
- 資料遷移工具簡單分析
- 一個月漲粉5W,自媒體最不願公開的5個免費工具