工具/產品/解決方案是資料科學家洞察資料的利器。KDNuggets網站對此觀點進行了年度調查,來分析資料科學家在用哪些型別的工具,並提供了調查的匿名原始資料

透過主成分析(PCA)法進行降維分析

對所有的工具同時進行關係分析,常規來說,PCA透過對大樣本資料統計性質(eg, 協方差)的分析,試圖用主要特徵來解釋關係。

分析結果:

當前分析的目標:透過一些主成分來分析95種工具之間的關係。最終決定以PCA的特徵值來決定主成分的數目,這裡選用了兩種規則:一種是以特徵值大於1的特徵值數量來選擇主成分數量;一種是畫陡坡圖(scree plot),透過95個特徵值你會發現一個拐點的特徵值。

特徵點點陡坡圖顯示在第13和第14特徵點時出現拐點,因此,這裡選擇的13個主成分來解釋它們之間的關係,見下圖。

bh_data_science_tools

點選上圖可放大

工具分類

下面列出根據主成分析得出的13類工具(投票數大於20):

  1. 大資料生態(Hadoop、Spark)和開源專案:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微軟資料科學家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基於Python的機器學習:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS公司產品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R語言等統計工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM公司產品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux工具和SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度學習:Caffe, Pylearn2
  9. 商務智慧軟體:Pentaho and QlikView
  10. 資料分析平臺:Datameer and Zementis
  11. Excel和Word統計工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 資料視覺化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

總結

資料科學家在選擇大資料、資料探勘和資料分析工具時,更傾向於有一定生態基礎的工具,這樣各個工具間可以相互支援。

為了提高在大資料專案中成功的機會,選擇正確的工具是非常重要的。沒有一個孤立的工具能夠做所有的資料分析,職業的資料專家趨向於使用不止一種相關的工具(分析中發現,資料專家平均使用5種資料分析工具)。你可以根據使用相關工具的資料專家來決定自己的選擇。

另外一個觀點是,要選擇大廠的產品,比如,IBM、微軟和SAS,大品牌的產品更豐富,可以使得你的產品更容易擴充套件。

作者:杜小芳

199IT大資料導航,彙集1000多款與資料相關的工具(//hao.199it.com/ ),歡迎分享收藏!