1671224-slide-2-birdtreehighres3

現在大資料成為一個熱門話題, 然而無論是網頁, 產品資訊, 車輛的功能, 文字, 病例還是氣象等資料, 對資料的理解的第一步就是要理解資料之間的關聯。利用圖論, 我們將能夠進一步提高我們對資料的理解能力,同時構建和分析圖論模型將使得我們能夠自動獲取答案。本文我們將以搜尋引擎為例介紹圖論在大資料分析中的作用:

如今, Google已經成為了很多人日常生活中不可或缺的一部分,這個搜尋引擎巨頭通過圍繞在它的核心能力也就是對網際網路的索引, 把一系列服務整合起來提供給使用者。

Google的網路爬蟲和PageRank演算法使得人們搜尋網路的方式發生了革命性的變化。 通過對網頁連結數量和重要性的分類, Google能夠比競爭對手更快地提供更加相關的資訊。

網站和網站之間的連結組成了一個圖, 這不是我們通常所說的視覺化的圖, 而是一種用來表示每個網頁如何與其他網頁發生關係的模型。

PageRank演算法就是採用這種模型來判斷一個網頁的重要性的。一個網頁擁有越多的外部連結, 它的重要性就可能越高, 如果一個網頁被更多的權威資訊源所引用, 那麼這個網頁的重要性也就越高。 Google搜尋引擎的搜尋結果一般來說比競爭對手要更快更好, 就是因為它的演算法涵蓋了網際網路頁面之間的絕大部分連結。

把類似的想法應用到其他資料上, 來分析資料之間的關聯, 也能夠揭示一些資料背後的本質。 告訴我們哪些是相關的, 哪些是重要的。

圖論就是研究資料聯絡的模式

要理解我們如何從資料中得出答案, 我們需要了解我們傳統上是如何與資料打交道的。幾乎所有的試圖從資料中尋找答案的過程都是通過搜尋實現的。

搜尋首先總是從提出問題開始的。 我們把已知的與資料聯絡的越好, 我們提出的問題就越可能找到答案。 比如說, 如果你找不到你的鑰匙,可能你會問:”我的鑰匙在哪裡?”。 不過, 這可不是一個容易得到答案的問題。它太寬泛了。 而如果你問:“我的鑰匙是不是掉在收銀臺了?” 這個問題比第一個問題要具體一些。 如果你的鑰匙在收銀臺, 那這個問題就是一個好的問題。如果不是的話, 這個問題也不是個好問題。

對資料庫的查詢與上述方式類似。 要想得到你想要的結果, 你需要構造一個與你的資料相關的查詢條件。 你可以使用的查詢語句不計其數, 但是隻有少部分能夠讓你得到你需要的答案。

這樣的情況才是資料科學的真正難點所在, 也是為什麼好的分析師鳳毛麟角的原因。 最好的資料科學家是那些既懂得資料, 又懂得那些提出正確問題的人。

如果把網際網路看成資料集的話, 那麼搜尋引擎就是你的查詢工具。

幾十年來, 搜尋引擎都在抓取網路資訊, 索引網頁以便能夠被搜尋到。 通過構造不同的搜尋條件, 使用者可以得到不同的結果。 搜尋引擎服務商們不斷的改進他們的產品。然而搜尋引擎的真正創新出現在2000年左右。

當時, Google的PageRank演算法通過對每個連結以及其連結的內容進行建模。通過圖論建模, Google把網頁之間的聯絡進行了量化, 以幫助使用者更快地獲得相關的結果。 這一演算法使用了網頁之間的關係來提高搜尋結果的質量。 而無論哪種搜尋引擎, 用體提供的搜尋條件描述性越好, 就越能夠得到好的結果。

你的搜尋條件與Google的PageRank演算法之間建立了一個聯絡。而Google通過圖論建模,建立了一個你的搜尋條件與相關頁面之間的聯絡。 如果沒有關於相關頁面和連結的模型, Google就需要更精確的搜尋條件才能得到滿意的結果。 然而, 即便是採用更先進的搜尋技術, 現在的資料問題也會使得構造一個正確的查詢條件變得困難。

現在大資料成為一個熱門話題, 然而無論是網頁, 產品資訊, 車輛的功能, 文字, 病例還是氣象等資料, 對資料的理解的第一步就是要理解資料之間的關聯。認同這一點的話, 就能夠理解為什麼圖論在將來能夠為人們的資料分析提供思路。

今天, 我們對資料的很多分析和研究方式已經被圖論深深地影響了。 而在未來, 利用圖論, 我們能夠進一步提高我們對資料的理解能力。 構建和分析圖論模型將使得我們能夠自動獲取答案。當我們把資料自己聯絡起來的時候, 資料中隱藏的答案會自己出現。