別跟風了!你的公司根本不需要資料科學家

大資料文摘發表於2018-08-01

資料科學家不是魔法師,當所需的資料不可得或者質量很差的時候,資料科學家能做的很有限,這已經超過了技術的範疇。企業管理者如果能從全域性出發部署資料戰略,才能真正解決當下資料科學家的痛點,這樣資料科學家才能發揮作用解決公司的痛點。

大約在四年前,資料科學家成為了每個公司的必須僱的人。技術人員爭先恐後地甩掉在大學用的統計課本,花大量的時間重新學習Python Pandas和R,然後惡補最時髦的機器學習理論,再買幾件geek制服顯得更像那麼回事。我就是其中一員。

如果你是做Hadoop開發的,這也是你的黃金時代。因為大家已經達成了共識,不會map/reduce得資料科學家不是合格的資料科學家。伴隨著資料科學的熱潮,印度的程式設計師工廠推出了數以千計的Hadoop程式設計師和資料科學“專家”來迎接未來的“大事件”,一定程度上延長了瀕臨倒閉的Hadoop公司的壽命。

各大公司在第一時間都開始了對資料科學家的投入。每一家在納斯達克指數中佔有一席之地的公司都向這些資料科學家支付了鉅額薪水,他們認為資料的先知力量會讓他們挫敗競爭對手。

而各個銷售經理和高層管理只要每天早上開啟iPad就能實時看到公司具體運營情況。資料儀表圖成為了重要的地位象徵,企業高管會獲得具有3D視覺化和實時動畫散點圖的超級豪華儀表圖,而基層員工也會看到平面2D儀表盤,雖然沒有那麼花哨,但也會得到必要的資訊和簡要的摘要。

然而,這其實改變不了什麼。那些資料科學家(大部分具有高學歷和多年工作經驗,如在製藥或高階材料工程領域)將會很快意識到他們使用的資料質量其實非常糟糕。

別跟風了!你的公司根本不需要資料科學家

大家普遍認為企業中存在各個環節、部門的各式各樣的資料都是有用的,但是最後他們發現這些資料大部分是過時的,沒有固定格式的,只能夠為當時需要並收集這些資料的程式設計師所用。

大部分資料都是以電子表格形式儲存,在沒有監管的情況下多次被修改,因此與真實資料有很大偏差。很多資料集沒有詳盡的文件記錄,表格的表頭名稱意義不清,比如MFGRTL3QREVPRJ,不同表格之間也沒有一致的主鍵。換句話說,他們擁有的資料不適合做任何分析,更不要提針對藥物試驗的專業測試分析。

現在你拿著15萬美元的薪水來做視覺化儀表圖,給那些根本不懂統計只想獲得百萬利潤和鉅額提成的銷售經理看。你的資料一團糟,根本沒法用。當你請求重建資料庫時,公司陷入了掙扎,這個專案要花上百萬,而他們認為沒有必要。現在你面臨一個選擇,其實你可以撒個謊,用計算機隨機產生資料,然後得到一個很可能比目前資料更加準確的結果。但是這對於資料工作者是個難題,因為這違背了他們追求精準的初衷。那該怎麼辦?

現在,我可以裝作一個語義分析傳道者,告訴你需要開發一個語義資料中心。實際上,這不是很難實現,並且是有益處的,但它並不是什麼神奇的魔法。語義資料可以比較容易轉化成可用的資料形式(如果沒有發現有用的資料,也能發現並摒棄掉沒有的部分),但本質上這不是資料科學問題——它是資料質量和本體工程問題。

好了,對於那些高層決策者,當你遇到資料上的問題,你的資料科學家可以有“萬花筒”般的資料分析方法,但是沒有高質量的資料做保證,得到的結果一點用都沒有。巧婦難為無米之炊,這不是資料科學家的問題,是你的問題,你天天盯著那些能給你賺千萬資金的視覺化儀表盤,其實是看著你的錢從門前溜走。

在資料分析的專案中儘管你不是實際操作的人,但你的參與絕對不是可有可無,首先你需要明確你想要什麼資訊,然後花時間與資料科學家和業務人員一起確定需要收集什麼資料。不要指望你想要的資料會奇蹟般地從資料庫中出現。

再來談談資料庫。資料庫大多是為程式設計師所用,寫各種應用程式,它存在的首要目的不是為你的公司提供具有洞見的指導性意見。首先你要坐下來好好想想你已經有什麼資源,因為要從別人那裡索要資料資源是非常被動的,特別是當這個資料獲得權涉及到別人的工作和職責範圍的時候。

再者,你要明白大多數資料庫都沒有詳盡的文件記錄(有的甚至沒有文件記錄),很多資訊都需要從隱藏文獻中提取。這個過程被稱為推理計算,很多程式設計師不願意做這個事情,因為這意味著他們需要從程式碼去反推其他程式設計師的意圖,而別的程式設計師要麼已經離職了,要麼能力有限,要麼已經忘了他們十年前寫的東西。

關係型的資料湖不能解決這個問題,資料湖唯一能夠解決的問題是讓計算機程式能夠訪問所有的資料。這是此類推理計算的必要部分,但它不是最難也不是最昂貴的部分。最昂貴的部分是弄清楚資料實際意義是什麼,獲得不同的資料集甚至能夠識別出它們是關於同一件事的。這些問題都沒有現成的解決方案,需要靠摸索。

這裡,我們再次提出語義的解決方案——圖形三重儲存,RDF,本體管理,查詢和所有內容。它不是一個開箱即用的解決方案,但它是一種工具,可以使推理分析變得可行,並且可以把這個工具交給程式設計師來管理。

不過,你需要經常對整個資料流的過程進行重新思考。你需要知道最開始從哪裡獲得資訊,然後讓資訊儘早流入資料通道。這需要你的程式設計師和資料庫管理員放棄一定程度的自主權,在一個集中化的環境中工作。作為執行人的你,應該更加熟悉資料治理的世界。

對於商業人士來說,這是一個相當激進的改變,不止一些人意識到他們要實際動手去解決IT問題。不過,如今的企業正在進行轉變(並且大部分已經成功轉型),成為專業的資料管理公司,產品和服務更像是它們的副產品。

現今CEO的角色是在管理銷售的同時瞭解公司資料的輸入與輸出,確保他們的資料質量是最好的。這不僅是為了合理的監管,更因為資料的完整最終會決定他們是否能夠在市場競爭中脫穎而出。

企業領導者要多與資料團隊協作交流,來確定你需要知道什麼,想要知道什麼,什麼東西是相關的,然後再來構建和你商業需求相關的資料收集過程。隨意從資料庫裡提取一些資訊來分析,只是徒增磁碟儲存的成本而已,僱傭資料科學家來分析垃圾資料只能得到垃圾的分析結果。結果呈現可能很漂亮,各種漸變梯度各種三維效果,然而卻毫無價值。

相關報導:

https://medium.com/@kurtcagle/why-you-dont-need-data-scientists-a9654cc9f0e4

相關文章