最近“大資料”已經取代了“雲技術”,成為了新技術的熱門話題,各類“大資料”的書籍層出不窮,文章更是琳琅滿目,彷彿你要是不和“大資料”扯上點關係,你就OUT了!筆者對這些文章也略有涉獵,但覺得掛著“大資料”虛名者多,而真知卓見者寡。為了讓大家更容易理解大資料的內涵,我首先簡單地介紹一下大資料的定義和背景。
麥肯錫的報告是這樣定義的:大資料是指無法在一定時間內用傳統資料庫軟體工具對其內容進行抓取、管理和處理的資料集合(Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.)。
大資料這個概念又是怎麼來的呢?2011 年5 月,EMC 舉辦了一次主題“雲端計算相遇大資料”的大會,首次丟擲了“大資料”(Big Data)的概念;6 月,由EMC 贊助、IDC 編制的年度數字宇宙研究報告《從混沌中提取價值》 (Extracting Value from Chaos) 釋出;緊接著,IBM、麥肯錫等眾多國外機構釋出“大資料”相關研究報告,予以積極跟進。
從背景我們可以看到EMC(全球最大的外接儲存硬碟供應商)是推動“大資料”概念的主謀,他這麼做當然是想多賣點硬碟,這種軟廣告式炒作不但沒引起反感和吐槽,反而被社會各界認可與接收,也是跟其社會背景密不可分。近年資料產生成本急速下降、人類產生的資料量正在呈指數級增長,其中80%以上都是傳統資料庫無法處理的非結構化資料,這些資料到底有多大呢?根據IDC 的監測,全球在2010 年正式進入ZB 時代,預計到2020 年全球將總共擁有35ZB 的資料量,如果把35ZB 的資料全部燒錄到容量為9GB 的光碟上,其疊加的高度相當於在地球與月球之間往返三次……在這麼直觀的比喻面前,任何語言都蒼白無力了!
也許你會說大資料這種現象不用說,我們早就看出來了,不就是資料大麼,能給我們的社會帶來什麼實質性的影響啊,或者我怎麼沒看到它的應用?關於大資料的應用,我在這裡就不贅述了,市面上各種“大資料”的書已經談了很多案例。我只想說:“剖析歷史可以洞察未來。”幾年前說“雲技術”還很遙遠的那些人卻在將自己的文件、照片、視訊上傳至“iCloud”,使用著“搜狗雲輸入法”,登陸Dropbox、Yelp、Zynga等網站(這些網站正託管於亞馬遜的“雲平臺”) ……那片飄在天上的“雲”早已不是“觸不可及”。
根據麥肯錫全球研究所的研究報告《Big data: The next frontier for innovation, competition, and productivity》,大資料將給醫療服務、公共管理、定位服務、零售和製造各個行業帶來顯著的應用價值,例如對美國的醫療服務業每年創造價值3000億美元,約0.7%的年增長率,對美國製造業最高可下降50%的產品研發和裝配成本。麥肯錫的這份報告詳致地闡明瞭大資料對各行各業的利好,推薦大家閱讀,我這裡只談大資料對客戶服務領域的影響。
在雲時代,淘寶推出了一種極具“雲”特色的客戶服務模式——雲客服,雲客服把社會上喜歡幫助人且有能力幫助人的淘寶人聚集在一起,使客服人員在家裡或學校對客戶提供遠端服務,實現了“HO(Home Office,駐家辦公)”,並充分利用了客服人員的零散時間,不僅降低了成本,還提高了效率。當然,這個“雲”並不是真正意義上的雲技術,只是一種概念和噱頭,而在大資料時代,又將會給客戶服務帶來哪些商業價值呢?
我認為大資料將對客戶服務帶來一次變革,給客戶服務帶來極大的想象空間和無限的發展前景,甚至可以使客服部門從原來的成本中心(高成本、低價值)轉型為利潤中心(提升品牌價值、創造收入)。在這裡我舉三個例子跟大家進行探討,展望客戶服務的未來。
一、智慧語音客服
目前通訊運營商等在客服領域比較先進的企業已經實現了智慧文字客服,通過文字識別技術和智慧匹配演算法對通過簡訊和網站文字客服提出的服務訴求智慧匹配答案,不需人工判斷。要實現智慧語音客服,也要通過識別和匹配這兩關。
我們先說說識別吧。早在Siri之前就已經有很多語音識別工具問世,最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字,現在AT&T的語音系統 Watson已經可以實現線上德語和英語的實時口譯。以現在的技術,語音的識別依然比較困難,主要面臨的難點有兩個:
1.演算法
演算法是軟體的核心,目前的語音識別演算法使用的語言模型仍是一種概率模型,還未發展成以語言學為基礎的文法模型;演算法不突破,其效果就無法取得突飛猛進的進展。演算法的優化不是一朝一夕的事情,需要逐步進行,尤其是語音這種非結構化資料(不便用資料庫二維邏輯表來表現的資料),但隨著大資料分析技術(用於非結構化資料的管理分析)的發展,也會對新演算法開發帶來福音,一些核心演算法如特徵提取、搜尋演算法和自適應演算法也都在一步步改進,且隨著資料來源的不斷豐富,演算法的識別效果也越來越精準。
2.適應性
由於方言、語氣、環境和音色等因素的影響,限制了語音識別演算法的效果,這就需要語言識別系統具有一定的自適應性,不同口音、方言的識別都需要以一個龐大的語音資料庫為基礎,對這些非結構化資料的管理分析就更加指望大資料技術了。至於排除環境噪音、音色等因素,個人感覺要依賴半導體感測技術的進步,留待硬體領域的專家進一步探討。
接下來就說到匹配了。目前匹配的演算法已經相對成熟,也許和大資料技術沒有直接聯絡,不過其準確性也有賴於資料來源的豐富程度,同時要在不斷產生的“互動資料”中動態調整匹配結果。
綜上所訴,隨著資料來源越來越多、大資料技術的不斷進步,語音識別系統也在持續完善之中,說到底,演算法依然是核心,而資料則是基礎,對於這類非結構化資料,也許傳統的資料庫技術Handle不住,但大資料技術卻大有可為。相信不久,語音識別的技術的突破不僅可以實現智慧語音客服,還將變革人與物之間的互動方式。
二、語音文字轉換
因為這個功能的核心也是語音識別,所以大資料技術對轉換準確度的保障支撐就不用再說了。之所以單列出來談,是因為其對客戶服務別有一番作用。
對於呼叫中心而言,客服人員與使用者的通話都是要錄音備份的,這些語音資料可真的不小,僅以廣東移動為例,廣東移動客服中心每年就要新增約60T的資料儲存,這個體量對於一般的企業來說已經是“大資料”了。據悉這些資料是用磁帶來儲存的,而且這些要儲存幾十年不能銷燬,想想到時候光這些磁帶所佔用的房間租金就是不少錢,更何況其他成本,而如果能將這些語音準確地轉換成文字,文字儲存所佔用的空間就小得多(一個行動硬碟都可以儲存一個圖書館的資料量了),儲存成本直線下降,不僅實現了低成本高效,對自然環境也是一種利好。
有人會質疑這些錄音是為了便於追溯留證,不是原始的錄音記錄,客戶不認賬怎麼辦?當然,我要宣告不是所有錄音都要轉換成文字,對於客戶投訴或辦理業務的來電仍然保留錄音記錄,一則便於企業對客服人員的服務態度(說話語氣還是要靠語言才能判斷)和質量進行抽檢,二則備份留證。而對於更多的諮詢或查詢類來電,通常不必留證。將這些語音轉成文字之後不僅減少了儲存空間,這些文字資料還可用於後續的資訊挖掘,用來改進服務或發現商機,畢竟文字的資訊分析要比語音的容易得多。
三、客戶資訊挖掘
在網際網路時代,除了使用者數、營業額等,資料已經被認為是未來的核心資源。我記得馬雲曾說過類似這樣的話:“你知道全國哪個省份的女人胸圍最大麼?你知道哪個城市的男人最喜歡用什麼牌子的衣服、香水麼?你們都不知道,淘寶知道。”每年有多少企業關注《淘寶使用者行為報告》,以圖挖掘出一些資料來提升自己的銷量,從這裡,資料的價值可見一斑。
而客服部門作為企業前端的客戶直接接觸視窗,每天都可以從客戶身上獲取大量的資訊,甚至可以在客戶比較滿意的時候主動獲取一些愛好、職業等資訊,積少成多,某些時候這些資料將為企業帶來巨大價值。對客戶資訊挖掘的應用,我在此舉兩個簡單的例子:比如通過資料的挖掘可以發現哪些使用者是高爾夫球愛好者,進行精準營銷,避免盲目營銷導致的客戶反感及投訴;再如隨著定位技術成為手機標配,個人位置資訊已經成了客戶服務領域待被開採的金礦,國外運營商已經開始分析這些個人位置資訊的資料並將洞察結果面向政企客戶提供,這些位置資訊可以為企業的實體店、營業廳選址提供依據。
當然,我個人也反對大資料把我們的個人隱私都記錄下來併為他人所用,本文僅是從企業的角度談談大資料帶來的影響,尤其在客戶服務領域,我認為大資料帶來的是無限的可能,更多的可能還有待各位去不斷探索。