作為資料科學家,我們有一個首要任務:提供準確的見解。如果你和我一樣,一個同時從事搜尋(或與此相關的任何實時應用程式)的資料科學家,你必須管理兩個有時會相互衝突的優先事項:準確性和速度。
作為一名資料科學家,我將帶您瞭解一些我在搜尋中通過反覆嘗試學到的東西,包括如何消除一些可能會在您構建一個需要與其他領域學科交叉協作的工具時出現的摩擦的技巧。
學習如何思考搜尋
對於資料科學家,這裡有很多關於搜尋的特定術語和概念。例如,發現倒排索引的強大功能——我以前從未使用過這個概念——對於構建搜尋平臺至關重要。(僅供參考:倒排索引是“一種搜尋文件、影象、媒體和任何檔案源結構的資料的簡單方法”。)
我必須學習的另一個領域是如何在流水線中組織自然語言處理(拼寫錯誤、實體提取或查詢重寫的同義詞檢測)和其他機器學習技術(分類器、聚類、推薦器)。
在花時間瞭解了搜尋平臺的機制之後,我已經快要實現目的了。但後來我不得不想辦法衡量結果。搜尋開發人員和企業用來確定其搜尋平臺效率的指標和KPI對我來說是新事物。
例如,資料科學家首要關注以錯誤率、錯誤型別、錯誤分類等為目標的模型精度度量。然而,用於度量模型精度的指標有時很難可信地運用到搜尋相關的聚合業務度量。搜尋指標傾向於更以業務為導向,包括點選率、新增到購物車和購買(用於電子商務)、評論、共享和文件和結果評級(用於數字工作區)。

如果一開始這讓人感到很艱鉅(就像第一次踏入新領域),請要就您組織中的搜尋開發人員在每個專案開始時帶您瞭解術語、度量標準和部署注意事項。這種知識轉移應該是雙向的,以防搜尋開發人員需要對資料科學過程和方法有個整體認知。不幸的是,在大多陣列織中,定期促進這種跨職能的知識轉移是很少見的,而且當你把時間花在一個專案上,然後中途發現你是基於錯誤的假設上時,這會造成一個主要的痛點。
 
調整構建模型的方法
如果您完成了上面的練習,現在您將瞭解到搜尋中的另一個主要干係人,即搜尋開發人員,他們關注的是整個搜尋管道是如何工作的。現在,您必須從精確性的角度考慮模型的執行方式,轉而考慮如何將它們作為一個元件安裝到一個更大的系統中。
採取一種“縮小方法”,捫心自問:“我清楚瞭解最終目標了嗎?我的模型得有多快?它們可擴充套件嗎?這些問題的答案可以作為指導方針,以在整個流程中構建更有效、更輕量級、更具響應性的模型,進而幫助推動業務成果。
對於數字商務公司來說,更好的業務成果意味著增加收入,而在數字工作區中,這意味著提高生產力。正如我之前所說,我們專注於提供準確的見解,但如果不知道模型如何融入整個系統,就很難知道您的結果是最相關的還是以最優的方式提供的。
保持專案的勢頭
提供令人愉快的搜尋體驗需要跨職能學科共同協作和創新,如搜尋開發、資料科學、運營和業務領域。但是,大多陣列織在跨團隊協作方面遇到了多重障礙,包括流程、層次結構、個性和總體文化方面的障礙。在速度、準確度和整合度的優先順序之間進行折衷可能會在資料科學家和搜尋開發人員之間的反覆交流過程中產生摩擦。
理論上,最好的過程能夠實現迭代型別,並在資料科學家交付搜尋開發人員可以整合的工件(模型)的過程中來回傳遞,在查詢體驗中快速測試,如果需要,將重新再迴圈它們以進行優化。大多數搜尋專案由於缺乏整合和協作而失敗。這不是因為團隊沒有必要的知識,而是因為在目標、期望和過程上缺乏一致性。
溝通是關鍵。有人讓你坐下來並向你介紹他們做事情的過程,是非常有幫助的。在產生任何東西之前,理解其他搜尋參與者的“生命中的一天”是非常重要的,包括使用什麼資料來源和資料格式、應用轉換、跟蹤度量和架構考慮。
在Lucidworks建立搜尋平臺時,我們會記住這些摩擦點。我們經歷了資料科學家和搜尋開發人員之間的坎坷,我們致力於平滑切換和與業務結果度量相連線,我們致力於使我們的客戶能夠部署最相關和效能最佳的搜尋體驗。搜尋並不容易,但如果設計正確,它會對客戶體驗產生重大影響!
 
資料科學家在搜尋領域中的未來
在搜尋領域,我們每天都在發現用深度學習可以改變搜尋體驗的新方法。作為資料科學家,我們正朝著一個非常接近和可以實現的未來努力,那時人們將以對話的方式與應用程式互動。這已經發生在我們作為消費者的體驗中,但它也正開始全面應用到我們互動的所有數字應用程式中了。
工作場所應用程式的示例可以是ERP系統、CRM、商業智慧應用程式或從其他系統集中檢索資訊。我們已經看到了在處理提取口頭或自由形式的文字,並用機器可以理解的方式翻譯它們,以便用一個使用者可以理解和操作的形式來產生查詢並推出相關結果和建議的挑戰上的巨大成功。
搜尋領域的新前沿是理解使用者的明示和暗示意圖,它需要超越僅僅理解文字。它包括使用搜尋和使用者的瀏覽歷史記錄、使用者的屬性和他/她使用的搜尋結果,以及其他可以預測當前搜尋體驗結果的其他使用者的使用記錄等來學習上下文。
例如,當銷售專業人員鍵入:“為我的西北地區提供我的管道”時,理解其意圖可能意味著,如果需要外展,結果還包括聯絡資訊,如果他/她正在準備報告,則總結過去的溝通,或者對你的西南地區進行並排比較,以便進行基準測試。
作為資料科學家的成功祕訣(任何領域)
我為資料科學家教授職業準備研討課,我總是解釋說,我們是洞察力的提供者,而不是決策者。我們應該開發模型,讓人們能夠快速理解見解,然後應用它們做出明智的決策。最好的資料科學家可以開發模型,在正確的時間向正確的人提供“正確”的見解。為了增加你與資料科學家的相關性,我們鼓勵你擴充套件你的視角。大多數“獨角獸”發現自己處於這三個領域的交叉點:演算法知識、系統/架構知識和業務/通訊技能。
搜尋是一種教科書式的表示,它描述了這些東西是如何組合在一起的,以便使系統發出聲音。如果你是一個演算法專家,但不知道它是如何擴充套件的,或者不知道如何通過相關的搜尋體驗將你的演算法與驅動轉換的目標聯絡起來,你將無法為公司帶來如此多的價值。
現在絕對是成為一個搜尋領域資料科學家的絕佳時機。雖然搜尋技術的發展已經無處不在,但我相信我們幾乎沒有觸到地面。我期待看到人工智慧驅動的搜尋用例如何繼續為資料科學家創造新的、令人興奮的和有影響的機會。
簡歷:Radu Miclaus是一名分析專業人士,擁有10多年的企業分析基礎架構設計經驗,專注於將原始資料轉化為可操作的洞察力並與決策系統整合。作為Lucidworks的AI-Radu產品總監,他專注於構建技術來改進搜尋開發人員和資料科學家之間的協作。
原文標題:
Accuracy vs Speed – what Data Scientists can learn from Search
原文連結:
https://www.kdnuggets.com/2020/01/accuracy-speed-search.html
來自: 資料派THU