《資料之美》:資料探勘、資料視覺化、雲端儲存及其他資料處理相關專案

hzbook2008發表於2011-05-27

這本《資料之美》(Beautiful Data)相對來說還算比較新,是從英文版翻譯過來的。英文版2009年出版。中文版2010年10月出版。由20篇相互獨立的文章組成。每篇講一個資料處理相關的專案。不涉及具體的技術細節,僅僅是概括說明原理、思路、過程、結果。

總體來說,閱讀起來有點晦澀。感覺作者基本都明白英文版的意思,不過有些地方中文表達上不夠通順。這在IT業的翻譯書中已經算不錯的組合了,強過中文過關但是不懂技術的情況。

其中講資料視覺化的文章有幾篇。還都比較有意思。比如第六章“照片檔案的地理之美”,說的是英國的一個名叫“Geograph”的專案,收集了大量 的英國的照片及普通使用者對照片的標籤,作者分析這些標籤,並且用圖形化的方法把許多分析結果展現出來;第11章“都市資料視覺化”,講的是把警察局的犯罪 發生的資料與地圖結合起來,預測犯罪發生的地點與型別從而提早預防;第12章“Sense.us的設計”講以視覺化手段分析美國150年以來的人口資料, 得出許多有趣的結論;第17章“資料淺析:探索形形色色的社會定型”說的是用圖形化方法分析一個網站的大量使用者相互之間的評論;第19章“美麗的政治數 據”同樣使用視覺化手段分析選舉相關資料。

第4章“PNUTShell中的雲端儲存設計”,說的是雅虎的一個雲端儲存的專案PNUTShell的設計思路和優缺點。這個專案面對的應用主要是社交 方面的應用,資料一致性要求不高,可用性、擴充套件性要求很高。因此就對一致性做了一些犧牲,滿足比較高的可用性和擴充套件性。資料只要最終按照操作順序執行了相 關的操作,最終一致就可以了。每一條資料都記錄了版本號,好知道自己執行到那個步驟了。每一條記錄還需要記錄自己是不是主備份。寫操作要先寫主備份然後逐 步同步到其他資料庫上。如果系統發現使用者比較頻繁地寫資料但是主備份所在伺服器的物理距離與使用者的物理距離比較遠,就自動把主備份記錄轉移到距離使用者更近 的伺服器上。如果主備份損壞,系統也會從剩下的資料中挑選最合適的一條做主備份。

第9章“探尋Deep Web”說的是如何讓搜尋引擎自動搜尋Form表單。Form表單可以有無窮個組合,這篇文章給出一些基本思路來讓搜尋引擎判斷如何去選擇下拉選單或者去填寫文字框,目標是用盡量少的操作步驟儘量多地獲取form表單後面的資料庫中的內容。

作者:zuoqs

原文網址:http://www.cnblogs.com/zuoqs/archive/2011/03/13/1983044.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/16502878/viewspace-696444/,如需轉載,請註明出處,否則將追究法律責任。

相關文章