大資料時代下看Amazon是如何處理隱私問題的

出版圈郭志敏發表於2013-08-26

enter image description here

在訪問Amazon電商網站時總會看到這樣的提示,對於網際網路使用者來說,應該已經非常熟悉這樣的推薦了吧。Amazon是通過所謂協同過濾(collaborative filtering)的技術,來實現這一商品推薦功能的。

協同過濾是根據商品的購買記錄加上網站訪問記錄等行為資料,對使用者間愛好的相似度進行自動計算,從而實現商品推薦的。在這個過程中,商品本身的內容是無關的,而只是基於購買記錄和行為記錄,從某個使用者與其他使用者間愛好的相似度來計算出要推薦的商品,這正是這一機制的關鍵所在。因此,系統可能會推薦出乍看之下和使用者的愛好無關的出乎意料的商品,但反過來說,這也可能會為使用者帶來意想不到的發現(serendipity)。

所謂serendipity,是指能夠意外帶來好運的能力,這個詞是由英國小說家霍勒斯·沃波爾(Horace Walpole,1717-1797)於1754年造出來的,其辭源來自童話故事《錫蘭國三王子》(The Three Princes ofSerendip,Elizabeth Jamison Hodges著)。在Web領域中,指的是使用者通過搜尋引擎和推薦系統發現了出乎意料的商品。

從結果上來說,使用者將自己的購買記錄和行為記錄等資訊交給Amazon,同時得以享受到像Serendipity這樣的好處。

Amazon於2011年9月28日釋出的平板電腦KindleFire中,提供了一項非常有意思的服務。 該平板電腦採用Android作業系統,售價只有199美元,比iPad要便宜,它上面繼承了Amazon自行開發的新瀏覽器Amazon Silk。之所以要自行開發一款瀏覽器,是為了在硬體效能低於PC的移動裝置上實現更快速的網頁瀏覽。

為了彌補硬體效能的不足,Amazon採取了下列對策。

(1) 在瀏覽器的後臺利用Amazon自己的雲端計算服務EC2,事先對視訊、圖片等資料量較大的內容進行壓縮等處理,將優化後的資料傳送給終端。這種方式被Amazon稱為Split Browser,通過將負荷較高的處理轉移到雲端執行,可以比由終端直接執行實現更加快速的內容處理,還可以延長電池的續航時間。

(2) 基於內容瀏覽記錄,通過機器學習找出使用者的Web瀏覽模式,從而判斷出使用者接下來可能要訪問的頁面,並事先在雲端進行快取。通過這一機制,頁面載入的時間得以大幅縮短。

Amazon開發的新瀏覽器所採用的上述機制,充分利用了該公司在雲端計算方面的優勢,實現了Web瀏覽的高速化,這一點非常有意思。然而,從另一個角度來說,也有一些人認為這樣做有侵犯使用者隱私之嫌。

也就是說,使用者使用Kindle Fire瀏覽網站時,在真正連線使用者所指定的網頁之前,首先要連線到Amazon的雲端計算服務。使用者在瀏覽網站期間,與Amazon雲服務之間的連線會被一直保持,Amazon會對使用者在Web上的行為,如訪問的網站URL、IP地址、MAC地址等資訊進行記錄,並儲存最長30天。

根據Amazon的解釋,對於這些資料的記錄,是“為了解決和診斷瀏覽器的技術問題”,使用者資料在儲存和使用時不會與使用者個人身份產生關聯。

此外,使用者還可以在使用雲端計算平臺的Cloud模式和不連線到雲端直接訪問網頁的Off-cloud 模式之間進行選擇。不過,如果選擇了Off-cloud模式,使用者便無法享受到Silk所提供的對網頁內容傳輸的優化、加速等好處。

對於由Silk瀏覽器所引發的隱私問題,美國國會也立即做出了反應。在Kindle Fire釋出的約兩週後,眾議院議員、國會兩黨隱私權預備會議聯合主席、民主黨人Edward Markey,向Amazon的CEO 傑夫·貝佐斯提出了公開質詢,要求對Silk的隱私問題做出解釋。

Markey議員提出了下列4個問題,要求Amazon在3周之內做出回答。

(1) Amazon對Kindle Fire的使用者收集了哪些資訊?

(2) Amazon準備如何利用這些資訊?Amazon是否計劃將這些客戶資訊以出售、租賃或其他形式交給其他企業來進行利用?如果有,那麼Amazon計劃對哪些企業提供這些資訊?

(3) Amazon準備採用何種方法向KindleFire以及Silk使用者告知公司的隱私權政策?如果存在相應的政策,請提供適用於Kindle Fire的隱私權政策條款。

(4) 假設Amazon準備對使用者的網際網路瀏覽習慣相關資訊進行收集,那麼使用者是否可以通過主動許可(Opt-in)的方式同意並加入這一資料共享計劃?

對於Markey議員所提出的大部分問題,Amazon在其公開的“Amazon Silk使用協議”1(圖表6-1)和FAQ(圖表6-2)中都已經涉及到了,因此並未造成很大的混亂。不過,這一質詢的確引發了人們對於為使用者提供便利所必需的資料收集與隱私權兩者之間關係的關注。

1http://www.amazon.com/gp/help/customer/display.html?nodeId=200775270

Amazon隱私權問題

1.隱私權資訊 通過Amazon Silk收集的可識別個人身份的資訊,適用Amazon.com隱私權公告,該公告內容為本協議的一部分。 Amazon Silk通過利用Amazon雲端計算服務來優化和加速網頁內容的傳輸。因此,正如為您提供Web訪問服務的大多數網際網路服務提供商(ISP)或類似服務一樣,您使用Amazon Silk所訪問的網頁內容會經過我們的伺服器,並可能被快取下來以提高後續頁面的載入速度。

對於安全連線(SSL)網頁的請求,Amazon Silk會讓您的計算機直接連線到原始伺服器,而並不會經過Amazon的伺服器。

Amazon Silk會暫時性地記錄其所提供的頁面的網址(URL)。我們不會將這些URL與您的身份關聯起來,通常也不會將這些資訊儲存超過30天。 您也可以選擇讓Amazon Silk工作在基本模式或Off-cloud模式下。Off-cloud模式可以讓您的計算機直接訪問目標網頁,而不經過我們的伺服器。在Off-cloud模式下,Amazon Silk依然能夠提供快速的瀏覽體驗,但它不會利用Amazon雲端計算服務來加速網頁內容的傳輸。

如果您在Kindle裝置上使用Amazon Silk,您的裝置可能會將崩潰報告傳送給Amazon。這些報告可能會包含可識別身份的資訊,如IP地址或MAC地址。我們會使用這些崩潰報告對瀏覽器進行故障診斷以改進其效能。

您在Amazon Silk的位址列中所輸入的文字會被髮送給預設的搜尋引擎。初始的預設搜尋引擎是由Amazon Silk設定的,將來我們可能會在不事先通知您的情況下修改預設搜尋引擎設定。如果您願意的話,也可以將其他搜尋引擎用作預設搜尋引擎。傳送給所選預設搜尋引擎的資訊,應適用該搜尋引擎的隱私權政策。

來源:節選自http://www.amazon.com/gp/help/customer/display.html?nodeId=200775270中“1.Privacy Information”一節,中文翻譯出自譯者。

Amazon Silk的FAQ(常見問題)

關於隱私權

Q. Amazon是否會跟蹤我的網際網路瀏覽記錄?

A. Amazon Silk會臨時性地記錄您所訪問的URL。記錄的URL資訊是作為一個整體來歸總的,這些URL不會和您個人身份產生關聯。URL的儲存期限最長為30天。這些歸總的資訊,可以幫助Amazon Silk提高網頁載入速度。

Kindle Fire可能會向Amazon傳送崩潰報告。這些報告中可能會包含可識別身份的資訊,如IP地址和MAC地址,但這些資訊僅用於技術上的問題診斷,不會與您的瀏覽記錄產生關聯。詳細資訊請參見“Amazon Silk使用協議”。

Q. Amazon會收集哪些資料?能否簡要介紹一下,通過收集這些資料,如何能夠實現快速的網頁瀏覽?

A. 舉個例子,我們有一個叫做智慧推送(Smart Push)的功能,它會對所有使用者的網頁載入過程(從統計學上)進行監控。例如,通過收集使用者傳送的資料,我們發現某個網頁中名為logo.png的檔案最近被載入了10萬次。在這種情況下,Silk的後臺伺服器會在遇到對該網頁的其他請求時,在網站的HTML檔案返回之前,事先將這個logo圖片推送給客戶端。

為了實現快速的網頁瀏覽,我們還有一種稱為預測渲染(Predictive Rendering)的優化手段。例如,假設在某個非常流行的新聞網站上,大多數訪問者接下來都會點選“商業”這個連結。在這種情況下,可以在主頁載入完畢之後,事先將一些靜態網頁元素(JavaScript、CSS、圖片等)推送給客戶端。如果訪問該新聞網站的使用者,接下來真的點選了“商業”連結,我們自然會收到來自客戶端的HTML頁面請求,但其實大多數靜態的可快取元素,在這個時候已經存在於使用者的Kindle Fire上,並可以立即顯示出來。

Q. 這是不是意味著Amazon會在雲端伺服器上快取我所瀏覽的內容?

A. 正如提供Web訪問服務的ISP或其他類似服務一樣,在Cloud模式下,使用Amazon Silk所瀏覽的網頁內容,會經過我們的伺服器。這些資訊中的一部分會被快取下來,目的是為了改善後續網頁的載入效能,幫助Silk提升網頁瀏覽速度。網站擁有者可使用快取報頭來指定哪些內容可以被快取。Silk通過追蹤這些報頭,僅對網站擁有者認為合適的資訊進行快取。

Q. Amazon會將歸總的瀏覽資料出售給第三方嗎?

A. 不會。客戶資訊是我們業務非常重要的一部分,也是對客戶體驗與未來創新的重要推動力。我們不會向他人出售這些資訊,將來也沒有計劃要出售這些資訊。

Q. 如果我不希望我的網際網路請求經過Amazon的雲伺服器,應該如何做?如何才能關閉利用雲服務的瀏覽加速功能?

A. 我們提供了用於關閉雲加速功能的選項,在Amazon Silk的設定選單中,取消“加速頁面載入”選項即可。在Off-cloud模式下,網頁不會經過Amazon的雲伺服器,而是直接傳送到使用者的終端上,使用者可以無負擔地進行瀏覽。在設定畫面重新啟用這個選項,就可以隨時重新開啟雲加速瀏覽功能。

Q. 對於安全https連線是如何處理的?

A. 在AmazonSilk中,SSL請求不會經過Amazon雲伺服器,而是由Kindle Fire直接向原始伺服器傳送網頁請求。

Q. Silk中有其他擴充套件安全功能嗎?

A. 在使用Cloud模式時,可以選擇對Kindle Fire與Silk的加速伺服器之間的所有Web通訊進行SSL加密。 要使用這個功能,可以觸控設定選單中的“加密選項”核取方塊。請注意,使用SSL可能會降低頁面的載入速度。

還需要注意的是,只有經過Silk加速伺服器的Web通訊才能享受這一功能所帶來的加密保護,而其他的情況下,例如關閉雲加速功能時,Silk便無法提供加密功能。此外,即便開啟了雲加速功能,某些情況下如果不經過Silk伺服器的載入效率更高,Silk會自動更改路由,直接向網站傳送請求。在這樣的情況下,加密功能也不起作用。

來源:節選自http://www.amazon.com/gp/help/customer/display.html?nodeId=200775440中“Privacy”一節,中文翻譯出自譯者。(譯者注:原始網頁已不可用)

本文截選自《大資料的衝擊》

相關文章