資料科學領域的幾個無程式碼分析工具介紹

banq發表於2021-11-22

“資料分析”一詞已成為 Python 和 R 等程式語言的同義詞。雖然這些強大的語言對於使用最新最好的演算法進行高階分析是必不可少的,但它們並不是開始分析複雜資料集所必需的!資料分析軟體可以是開源的(橙色),也可以是與之相關的免費版本(RapidMiner)。
下面推薦幾款替代商業軟體的開源替代品:
 

RapidMiner 
RapidMiner 的獨特之處在於其自動化機器學習功能。只需點選幾下,各種演算法就會執行並輸出效能指標,您可以在其中比較結果並選擇最佳模型。
RapidMiner 最強大的部分是學習模型工作原理和基本機制的速度。文件內建於軟體中,因此您可以右鍵單擊每個功能/演算法並獲得每個功能/演算法的描述。每個描述都包含一個概要、整個演算法的簡要描述、每個超引數的描述以及如何使用它的教程。
RapidMiner 還整合了“群體智慧”功能,其中提供有關超引數調整和小部件建立的統計資料。例如,您是否要確定隨機森林的樹數量?好吧,RapidMiner 會說明諸如“50% 選擇了 100 到 149 之間的值”之類的內容,以及顯示百分比或 RapidMiner 使用者選擇了什麼的條形圖。這簡化了學習過程,以瞭解專業人士的選擇。

 

Orange
Orange 可能是這個列表中視覺效果最好的軟體,並且擁有一些最好的資料視覺化。它還具有完全免費的開源軟體的最多功能。這意味著您可以將學到的知識帶入企業界,因為它對每個人都是免費和開源的!有趣的是,該軟體在 Python 上執行,所以很多視覺化應該很熟悉。該軟體的建立者是生物統計學家,因此軟體中包含更多科學軟體包,例如生物統計學和光譜學。Orange 也使用類似於 RapidMiner 的小部件,可以在 Anaconda 環境下下載或作為獨立軟體下載。
 

JASP
JASP(Jeffreys's Amazing Statistics Program)主要用於社會科學中的傳統統計學,但也具有機器學習功能。它更像是 SPSS 的替代品,使用者介面看起來與它非常相似。JASP 的有趣之處在於 R 語言在底層工作,因此資料視覺化看起來應該與它相似。這是學習傳統統計的好方法,因為您可以載入基於某些統計技術的工作流,其中將下載已進行的分析以及對進行某些分析的原因的解釋。軟體文件也內建在軟體中,因此您可以輕鬆瞭解統計技術以及如何以正確的方式使用它們以及已載入的示例資料集。學術論文和書籍也在每種統計技術下被引用以獲取更多資源;還列出了每種技術的 R 包。在 JASP 中,可以進行 t 檢驗、方差分析、迴歸、因子分析、貝葉斯統計、元分析、網路分析、結構方程建模等經典統計技術以及機器學習。
 

Voyant Tools
Voyant Tools 專門從事與文字資料相關的語料庫分析。要以最少的努力開始,您可以從莎士比亞戲劇中預載入語料庫資料,並準備好資料集進行分析。該軟體具有大量功能,與其他軟體相比,它的獨特之處在於它採用儀表板的格式,您可以在其中使用另一種形式的分析更改每個“磁貼”。大多數分析技術都包含將文字資料視覺化的獨特方法。諸如主題聚類之類的統計技術也是可能的。
 

Dataminer
這個與其他的有點不同,因為它涉及獲取資料而不是分析資料。網頁抓取是一種從網頁獲取資料的流行方式,因為與使用二手資料相比,可以更好地控制資料的收集方式。有很多免費的網路抓取服務,但我最喜歡的是 DataMiner。使用免費版本,您每月最多可以抓取 500 頁(儘管某些網站如 Glassdoor 受到限制,除非您支付最低月費)。但是,它非常直觀,並帶有實時客戶支援,可為您的網路抓取專案提供幫助。該軟體透過點選螢幕的某些部分來工作,在這些部分將感知 html 程式碼。然後,軟體會檢測網站上的相似區域,並將每個例項收集為一行,並將它們全部放在一列中。
 
還有其他很棒的分析工具沒有提到,例如 KNIME、Weka、QGIS 和 Jamovi.

相關文章