美國大資料產業地圖和資料科學家必備工具-資料處理

DinK發表於2016-01-13

第二部分：資料處理

最近，福特汽車的資料專家邁克爾·卡瓦雷塔在紐約時報上提到了資料專家在日常工作中面臨的挑戰。卡瓦雷特說：“我們真的需要更好的工具來減少處理資料的時間，來到達‘誘人的部分’。”

資料處理包括清洗資料、連線資料並把資料轉化成可用的格式；
“誘人的部分”則是資料預測分析和建模。

前者有時被稱作是“看門的工作”，可見前後兩者哪個處理起來更有樂趣了。

在我們最近的調查中，我們發現資料專家需要實打實地花費80%的時間來處理資料。資料專家的工資如此之高，可進行資料處理的公司還那麼少，實在令人驚訝。

在上一部分中，我提到結構化資料庫起源於財務或經營要求，而非結構化資料庫則是被資料專家推動發展的。資料領域的發展過程也是如此。結構化資料庫是一個很成熟的行業了，有足夠的工具形成金字塔供財務和經營人員使用。然而對於需求更加靈活的非結構化資料庫，則需要一套新的工具供資料專家使用。

先從我熟悉的領域說起吧。

2.1，資料強化

資料強化是對原始資料的提升。最初的資料來源可能很混亂，格式不同，出處不同（如此之類），很難甚至完全無法對其進行預測分析。資料強化對資料進行清洗，大大減少了資料專家在這一部分花費的時間。

我把資料強化分為“人工的”和“自動的”兩類，但實際上兩者都需要人和機器的參與。

人工資料強化是把所有的原始資料都用人工轉化，不過這需要大量的電腦自動化來保證其可靠。同理，自動資料強化通過許多規則和指令碼來轉化資料，但是需要人工來設立和檢查這些規則。

人工資料強化的基礎在於，有些任務確實人做起來比機器更簡單。比如圖片識別吧，人類可以輕易看出一個衛星圖片是否含有云狀物，可機器識別起來卻十分困難。

語言則是另外一個人工資料強化派上用場的地方。自然語言處理的演算法可以做很牛的事情了，不過仍然沒有辦法像人那樣區別挖苦諷刺或粗話。所以你會看到PR公司和營銷人員都會人工來分析這些情感。

人工資料強化還可以用來訓練搜尋演算法，而且人能比機器更好地閱讀和收集完全不能比較的資訊。再次強調，這需要任務被設立好，軟體能做很好的質量控制。但是如果能有數以千計的人，協力一起來做人比機器能完成得更好的簡單任務，你就能以極快的速度來完成資料強化。

CrowdFlower和WorkFusion，以及部分Amazon Mechanical Turk都在做這部分的工作。

自動資料強化和人工資料強化的目標相同，但是是由機器（而不是人工）通過指令碼來把原始資料轉換成可用資料。正如上文提到的，你還是需要一個厲害的資料專家來輸入那些資訊，並在轉化完成後檢查。如果資料格式統一，自動資料強化還是很強大的。只要有好的指令碼，含有少量錯誤和不完全連貫的資料幾乎能立即轉換成可用資料。

自動資料強化甚至能夠有效地清洗資料，只要這個過程不需要人蔘與。從規定姓名和日期格式等簡單任務，到從網路上有效抓取後設資料等複雜任務，都是自動資料強化的典型例子。Trifacta、Tamr、Paxata和Pantaho 等都提供了很好的自動化解決方案。公司們都希望能夠把一些寶貴的時間還給他們的資料科學家，因此自動資料強化也是正在快速發展。

2.2，ETL/混合

ETL表示提取 (Extract)，轉換（Transform) 和載入 (Load)，顯現了這一部分的資料生態系統的核心。本質上，ETL/混合解決方案是幫助資料專家匹配不相似的資料，以做分析之用。

舉個例子，比如說你有一個財務資料庫，包含了你的消費者、支付金額和購物種類明細，並被儲存在一個地方。而你同時還有另一個資料庫包含了消費者地址。ETL/混合領域的工具幫助顧客把它們合併成一個單一且可用的資料庫，由此資料專家便可以探索一些新的方面，比如某個特定商品在哪個地區消費最多，或者哪個地方會是你的目標市場，等等。

以上只是一些簡單的例子；實際情況可能複雜得多。不過基本上每個資料專家的日常工作中都包含了資料混合。通常資料來源不同，格式也會不同。如果需要一覽全面資訊，混合整理這些資料來源是必不可少的。

Alteryx、Astera、CloverETL 和etleap 都開發了可以混合這類資料的軟體。而ETL雖然早在結構化資料庫出現之時便有了，但由於越多資料來源也意味著更多的格式不一，ETL的重要性現在越發顯現出來。無論何種資料分析，大資料的前景都依賴於全域性與細節分析的全面結合。

2.3，資料整合

資料整合與ETL/混合有不少重合之處，它們都是要對資料進行整合。不過資料整合更多是按照應用的需要把資料統一成某個特定格式（而不是進行一般的混合）。

回想一下我在上一部分提到的第三方資料雲應用，是如何全面覆蓋銷售和營銷資料，以及社會研究和郵件管理的。怎麼才能把這些應用都合併到一個可用的資料集，讓資料專家可以據此做預測分析呢？ClearStory、Databricks 和SnapLogic 等軟體便可助你實現。

Informatica 已經從事資料整合多年，並獲得了超過十億美元的收入。我雖把它放在了資料整合的部分，但它其實對資料處理的各個領域都有所涉及。微軟也提供了兩項資料整合服務：Azure資料工廠和SQL伺服器整合服務。

類似於ETL/混合工具，資料整合專案主要是混合資料生態系統圖左邊的資料，使其可以通過圖中右邊的軟體建模。也就是說，資料整合工具（如Apatar 或 Zoomdata），可匹配來自雲應用（如Hootsuite 或Gainsight）的資料，讓你通過Domo 或Chartio 獲得商業智慧（BI）。

2.3，應用程式介面(API)介面

最後，我們談談API介面。這些公司不那麼著重於資料轉化，而是更強調獨立的API之間的整合。這類公司一旦興起，實在是前途無量。

這些工具一旦用對了地方，是很好很強大的。從一個沒什麼技術含量的例子說起吧，IFTTT 應該能幫大家理解API介面是怎麼一回事。IFTTT 表示“如果這樣，則那樣”（“if this, then that”），人們通過它，可以把發到Instagram的圖片馬上儲存到Dropbox或發上Twitter。IFTTT就是一個非資料的專家在協調線上工作時使用的API介面。我把這個例子包含進來，是因為許多資料專家也會在私底下或工作中稍微使用到它。

Zapier 和IFTTT類似，不過著重於商業應用，所以也更受資料專家歡迎。

MuleSoft 則是一個能把所有商業應用都連線起來的介面。比如說一個使用者登入你的網頁，誰需要知道這個資訊？你的銷售團隊需要這個訊號吧？你的運營團隊需要知道那個使用者什麼時候再次登入吧？營銷部門需要知道他們的郵件營銷活動的成果吧？一個簡單的API介面就可以同時觸發這些通知了。

最後，Segment.io 能把你的產品連線到許多這個生態系統圖左邊的SaaS商業應用及其他應用。

API介面的存在，正是因為資料專家要使用資料生態系統中的那麼多工具來混合和整合資料，可是這些工具又不是全部為資料專家設計的。

2.4，開源工具

用於資料處理的開源工具，遠比用於資料儲存和資料分析的少。Google開源了他們非常有意思的open-refine專案。多數時候，公司會在Python上建立他們自己的專屬工具；而Kettle 作為一個開源的ETL工具，使用者也越來越多。

199IT大資料導航，彙集1000多款與資料相關的工具（http://hao.199it.com/ ），歡迎分享收藏！

Python資料科學（五）資料處理和資料採集
2017-12-14
Python資料科學
美國大資料產業–資訊圖
2015-11-10
大資料產業
資料科學家面試如何準備？
2017-09-12
資料科學面試
美國大學爭相培養資料科學家
2013-08-16
資料科學
資料科學家必須知道的20件事！–資訊圖
2016-05-22
資料科學
一文詳解資料科學家的必備技能
2019-01-23
資料科學
「資料科學家」必備的10種機器學習演算法
2018-03-19
資料科學機器學習演算法
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
大資料產業生態聯盟：2021中國大資料產業發展地圖暨中國大資料產業發展白皮書（附下載）
2021-08-06
大資料產業地圖
如果倫敦地鐵圖是資料科學家畫的……
2018-09-08
資料科學
一文詳解資料科學家的必備技能（附學習資源）
2018-12-28
資料科學
資料清洗和資料處理
2020-03-03
【資料科學家】跨入商業分析、資料科學、挖掘領域必須哪些基本數學知識
2018-02-24
資料科學
資料工程師、掌握資料分析，成為資料科學家、資料庫遷移專家
2022-03-20
工程師資料科學資料庫
未來資料科學家必備的【核心演算法】與【常用模型】
2018-05-10
資料科學演算法模型
KDNuggets：資料科學家使用工具調查
2016-04-04
資料科學
資料科學家必知的五大深度學習框架！（附插圖）
2019-04-25
資料科學深度學習框架
Spotify如何改進資料科學家的資料發現？
2022-10-24
資料科學
美國資深資料科學家暢聊：資料分析與北美電商
2019-02-19
資料科學
資料科學必備基礎之線性迴歸
2022-12-08
資料科學
掌握資料科學和機器學習數學基礎必備的7本書
2018-04-27
資料科學機器學習
資料分析師、資料科學家、大資料專家三個職位的區別
2018-06-11
資料科學大資料
“資料科學家”或許不再性感，但“資料團隊”的產業化才剛開始
2020-07-09
資料科學產業
業界 | 資料科學家“恐怖故事”
2018-12-20
資料科學
資料科學家的命令列技巧
2018-07-27
資料科學命令列
公民資料科學家的侷限性
2022-10-10
資料科學
資料科學家準則（轉載）
2013-11-20
資料科學
資料科學
2021-09-09
資料科學
自然語言處理背後的資料科學
2019-04-29
自然語言處理資料科學
人的資料科學與機器資料科學
2016-09-22
資料科學
一文盤點5種聚類演算法，資料科學家必備！
2018-12-25
聚類演算法資料科學
免費！資料科學及機器學習必備書單下載！
2019-03-20
資料科學機器學習
資料科學入門 (一) —— 資料
2017-10-23
資料科學
處理圖片流資料
2019-04-15
資料預處理-資料清理
2020-01-19
資料分析--資料預處理
2023-12-14
中國大資料網：2021年中國大資料產業白皮書（附下載）
2022-02-22
大資料產業
資料科學家已死？AutoML使得資料科學更加普及化 - enterpriseai
2021-02-27
資料科學TOMLAI

美國大資料產業地圖和資料科學家必備工具-資料處理

199IT大資料導航，彙集1000多款與資料相關的工具（http://hao.199it.com/ ），歡迎分享收藏！

相關文章