編注:如果你之前已看伯樂線上翻譯組的這篇譯文:《真正統治世界的十大演算法》,請暫時“清空相關記憶”。《統治世界的十大演算法》先於前者。
————————-
演算法對於我們今天生活十分重要,怎樣宣揚也不會誇張。它們在虛擬世界中無處不在,從金融機構到交友網站。但是,相比於其他演算法,其中有一些演算法更大程度上改變並控制著我們的世界——本文列舉了其中十種最為重要的演算法。
在正式介紹演算法內容之前,讓我們來迅速複習一些基本內容。雖然,沒有明確的定義,但是電腦科學家將演算法描述為一個定義了操作順序的規則集合。它們是一組順序指令,用來告訴計算機怎樣解決一個問題或者達到某種既定目標。認識演算法的好方法,是將演算法視覺化為流程圖。
1. Google Search 谷歌搜尋
不久之前,搜尋引擎成為了網際網路時代的霸主。與搜尋引擎一起崛起的還有谷歌和谷歌提出的PageRank演算法。
今天,在美國的核心搜尋市場中,谷歌的市場佔有率達到了66.7%,其次是微軟(18.1%),雅虎(11.2%),Ask(2.6%),AOL(1.4%)。毋庸置疑,谷歌已經統治了搜尋市場,而且我們中的很多人把谷歌作為使用網際網路的主要途徑。
PageRank 的工作依賴於兩個組成部分,一是叫做“蜘蛛”或者“爬蟲”的自動程式,另一部分是關鍵詞索引及其 位置。這個演算法通過計算某個網頁的相關連結數量和連結質量,來大致計算這個網頁的重要性。演算法的基本思想是越重要的網頁會有越多的連結指向它。這是一個基本的人氣競賽。除此之外,PageRank演算法也考慮了一個網頁中關鍵詞的頻率和出現位置,以及這個網頁釋出的時間。
2. Facebook News Feed
雖然我們不願承認,但是Facebook的新聞提要(NewsFeed)是我們最喜歡浪費時間的地方。除非你的個人偏好已經設定為展示所有事件並且按照時間順序更新所有好友新聞,不然你看到的新聞是一個預處理之後的選擇,這個預處理是由Facebook的演算法為你量身選擇某些新聞而展示。
為了決定哪些新聞的內容是最有意思的,這個演算法會考慮很多因素,比如評論數,發表人(是的,有一個內容的“流行”人物排名,所謂的“流行”人物是與你互動最多的人),發表型別(比如照片、視訊、狀態、更新等等)。
3. OKCupid 情侶匹配
線上交友現在是一個價值20億美元的產業。由於Match.com, eHarmony, and OKCupid等網站的發展,這個產業自從2008年以來每年擴大3.5%。分析家認為這個產業的加速發展在未來五年還將繼續——情有可原:這是情侶遇見的有效方式。婚戀網站不僅僅造就了更多的成功婚姻,他們也擅長於根據個人不同的喜好和傾向,匹配潛在情侶。當然,這樣的匹配完全是由演算法完成的。
我們將以OKCupid為例,OKCupid是一個免費的婚戀網站,聯合創始人之一是哈佛大學的數學家Christian Rudder。OKCupid採用一種絕對的分析方法促成約會,他們從使用者那裡盡力獲取資訊。OKCupid 的配對演算法不僅僅是簡單地匹配一些共同愛好,同時,每一個問題都被賦予了權重,用來衡量這個問題對於使用者和他們潛在情侶的重要程度。這就是所謂的差異造就不凡——這是OKCupid成為最高效婚戀網站的原因之一。
4. NSA 資料採集,解讀和加密
我們越來越多地被演算法而不是被人觀察。感謝Edward Snowden,我們知道了美國安全域性(NSA)及其小夥伴已經暗中監控了上百萬的無辜公民。近期披露的檔案顯示,已經有許多的監控專案被FiveEyes實施,FiveEyes是由美國、澳大利亞、加拿大、紐西蘭和英國共同組成的情報組織。它們已經監控了我們的行動電話、電子郵箱、網路攝像頭影像和地理位置資訊。同時,“它們”我指的是他們的演算法,這其中有太多的資料,人力無法進行收集和解讀。
有意思的是,NSA聲稱實際上他們並沒有“採集”我們的資料。根據一份1982年的程式手冊,“資訊“採集”是指當資訊被收集並被國防部情報機構在職責範圍內使用”。同時“資料由電子系統採集是指資訊採集並被轉換為可理解的形式”。英國衛報的Bruce Schneier解釋道:
“ 因此,假設你的朋友在家裡有成千上萬的書籍,根據NSA的解釋,他並不“收集”圖書。只有他真正在讀的那些才是他“收集”的圖書,他利用圖書做其他事情時並不能認為他在“收集”圖書。”
這會產生一個問題因為:
計算機演算法與人們密切相關。當我們想到計算機演算法正在監控我們並且分析我們的個人資料時,我們必須想想在演算法背後的人。是不是有人正在看著我們的資料,事實上,他們能做的事情正是監視。
最後,最相關的還有美國國家安全域性的Suite B 加密演算法,這是一套功能強大的演算法,用於加密、資料交換、數字簽名和雜湊。機構正是利用這一演算法來保護分類以及未分類檔案的。
5. 推薦演算法
諸如比如 亞馬遜和 Netflix 這樣的網站,會記錄你購買過的書籍或是你看過的電影,然後根據我們的愛好為我們推薦商品。
正如許多自動程式一樣,這種二十一世紀獨有的技術既有優點也有缺點。雖然這樣的推薦有時候很有幫助,但是有時候也會偏離目標——特別是你為你的三歲女兒選購了一本兒童讀物作為禮物之後。
與PageRank和Facebook的新聞提要一樣,這樣的演算法正在造成所謂的“過濾器泡沫”,這是一種現象,使用者與他們不感興趣的資訊隔離——有效地將使用者通過意識形態的“泡沫”隔離起來。這導致了Eli Pariser提出的“資訊決定論”,我們過去在網上瀏覽的興趣決定了我們的未來。
6. Google AdWords
與之前的演算法類似, Google, Facebook以及其他的網站跟蹤你的行為、用詞、搜尋請求來推送相應廣告。 Google’s AdWords——公司最主要的收入來源——正是以這樣的模式進行預測的,同時Facebook也在盡力進行相關研究(你最後一次點選Facebook的廣告是什麼時候?)
7. 高頻率的股票交易
很久之前,金融部門就開始使用演算法來預測市場波動,但是他們在高頻率的股票交易中的實踐才剛剛開始。這樣的高速交易涉及的演算法,也叫做機器人,可以對訂單在毫秒級做出判斷。相反,一個人通常需要至少一秒才能對潛在的風險做出反應。因此,人們逐漸被排除在了實際交易的迴圈之外——一個全新的電子生態正在逐漸形成。
但是,又是這些演算法會造成錯誤。Leo Hickman解釋道:
比如:2010年五月六日的“閃電崩盤”,當時道瓊斯指數在幾分鐘內平均下跌了1000點,而在二十分鐘之後市場才出現反彈。這樣的大幅直線下跌到目前為止也沒能得到完整解釋,但是大部分經濟學家將齊歸咎於“竟次”。“竟次”的罪魁禍首是為了達到高頻交易而大規模使用的量化交易演算法。Scott Patterson,華爾街日報的記著和《The Quants》的作者,將在交易場地使用這些演算法比作飛機的自動駕駛。今天,大部分的交易是由演算法自動完成的,但是當情況出現不同時,比如發生閃電崩盤時,應當有人工介入。
8. MP3 壓縮
壓縮資料演算法是電子世界不可磨滅的重要一員。我們希望更快地接收媒體資料,同時希望節約硬碟空間。因此,人們設計了很多方法來壓縮和傳送資料。
比如,在1991年思科系統研發了CRTP協議。1987年,德國研究者發明了今天廣泛使用的MP3格式,從而將音訊的大小減少到原始大小的十分之一。這一壓縮格式導致了音樂產業的革命(影響有好有壞)。
9. 預測分析軟體
目前這一技術並沒有主宰我們的世界,但是它將很快主宰世界。越來越多的警察機構正在使用一種預測分析技術——一種讓人想起電影《少數派報告》的新工具。
在2010年,據說利用IBM的預測分析軟體(叫做CRUSH,全稱 Criminal Reduction Utilizing Statistical History),2006年以來孟菲斯市的警察局減少了超過30%的惡性案件,其中包括減少了15%的暴力犯罪。同時,在波蘭、以色列以及英國的城市也在關注這一技術。現在,洛杉磯、聖克魯斯、查爾斯頓等也開始了試點。
這一技術結合了資料採集、統計分析,當然還有前沿的演算法。它使得警察可以評估城市的犯罪特點,並且預告可能的犯罪“熱點”,從而“積極地配置資源和分配人手,從而提高人力物力的使用效率,提高公眾安全”。
未來,這個系統可能會大規模替代分析家的工作。犯罪行為可以被精確的演算法所追蹤,這些演算法監控了網際網路行為、GPS,個人電子裝置,生物特徵和其他現實中的通訊方式。越來越多的無人機會用來追蹤潛在罪犯,通過分析他們的肢體動作和其他的視覺化線索,來預測他們的意圖。
10. 調音(Auto-Tune)
最後,僅供娛樂,現在調音器由演算法完成。無論是歌聲或是樂器的聲音,這些裝置都能通過一組特定規則,略微修改音高,讓音高達到最接近的準確半音上。有趣的是,這種技術最初由Exxon’s Any Hildebrand 用於處理地震資料。
美國女歌手Cher的《Believe》,被認為是第一首使用調音的流行歌曲。