啥是佩奇排名演算法

程式設計師吳師兄發表於2019-01-22

原文網址 : https://juejin.im/post/5c4665da6fb9a049b07dac16

演算法

佩奇排名介紹

佩奇排名是根據頁面之間的連結結構計算頁面的值的一種演算法。下面我們通過動畫來理解進行計算的具體流程。

假設一個正方形表示一個 WEB 頁面，一個箭頭表示一個頁面之間的連結。

在佩奇排名演算法中，網頁指向的連結越多，頁面被確定為越重要。

因此，在這裡，確定首頁最重要。

實際上，每個頁面的重要性都是通過計算來量化的。

基本的計算方法思想

1.未連結的頁面分數為 1

2.有連結的頁面得分為正在連結的頁面的總得分

3.當有多個網頁的連結時，連結分數均勻分佈

4.來自高度連結網頁的連結具有很高的價值

該圖中心頁面有三個獨立頁面指向它的連結，所以它的分數是 3 。
首頁有一個很大的分數，因為連結是從分數為 3 的頁面指向它的。

在動畫中的六個頁面中，判斷最上面的頁面是最重要的頁面----這是佩奇排名的基本思想。

基本的計算方法思想的迴圈問題

如果按照順序來計算每個頁面的分數時，那麼就會出現問題：以這種方式計算，它將無限迴圈，並且在迴圈中的頁面得分在任何地方都會很高。

迴圈的問題可以通過“隨機遊走模型”的計算方法來解決。

隨機遊走模型

以小豬佩奇瀏覽網頁為例。

小豬佩奇開始訪問「五分鐘學演算法」中有趣的頁面，那麼從這個左下角頁面開始。

它們跟隨一個連結並移動到另外的一個頁面，看了一些之後，發現不敢興趣了，這樣就停止了瀏覽。

然後，又一天，它在小吳的推薦下，在完全不同的頁面進行瀏覽，跟隨一個連結並移動到另外的一個頁面，一旦失去興趣就停止瀏覽。

像這樣，重複從某個頁面開始瀏覽，移動幾頁後便停止的操作，如果從網際網路空間一側進行觀察，就像網頁瀏覽的人：重複移動頁面幾次後傳送到一個完全不同的頁面。

量化隨機遊走模型

假設 1 - α 代表選擇當前頁面中的一個連結的概率。

α代表該人將傳送到其他頁面的概率。

現在用隨機遊走模型處理上述的迴圈問題。

如果總頁面訪問次數達到1000次之後，使用百分比進行表示：那麼這個值就表示“在某個時間點檢視頁面的概率”。

更實用的計算方法

如圖所示，現在來嘗試計算複雜的連結網路中每個頁面的分數。

現在均勻設定分數，使總分加起來為 1 。而後根據網頁瀏覽者的移動，來計算每個頁面的概率。

移動 n 次時出現在 A 中的概率表示未 PAn，移動 n 次時出現在 B 中的概率表示未 PBn。

舉一個例子，在移動 1 次之後求在 A 的概率 PA 1。

在 C 選擇移動的概率是 1-α。

其中，移動到 A 的一種場景是，C 中的佩奇選擇了移動而不是傳送。另外，這裡選擇了 A 而不是 B 作為目的地。並且，根據上面的 當有多個網頁的連結時，連結分數均勻分佈 這條規則，從 A 或 B 選擇 A 的概率是 0.5 。

因此，從 C 移動到 A 的概率是 PC0 ✖️ （1-α） ✖️ 0.5。

A 被選為傳送目標的概率是 0.25 ，根據前面的理論：在 A、B、C、D 中小佩奇選擇傳送的概率為 α。因此，通過傳送移動到 A 的概率為 α ✖️ 0.25。
所以，移動一次後在 A 的概率為
PA1 = PC0 ✖️ （ 1 - α ) ✖️ 0.5 + α ✖️ 0.25

其中 PC0 = 0.25 ， α = 0.15，代入計算後 PA1 = 0.14375。

這樣，通過計算後 B 、 C 、D 頁的概率也更新了。

上面在移動 1 次之後這四個頁面的概率更新情況，根據上述相同的方法計算 2 次後小佩奇瀏覽在每個頁面的概率。

同樣的，經過大量的移動，在每個頁面上的概率逐漸趨於固定值。當數值固定是，計算也就完成了。

End

佩奇排名就是這樣一種通過訪問概率代替連結的權重來計算的機制。

你知道“啥是佩奇”，卻不一定了解佩奇排名演算法
2019-01-24
演算法
啥是佩奇？Python 285 行程式碼而已！
2019-01-25
Python行程
學習《模型思維》-斯科特·佩奇筆記 9.26
2020-09-26
模型筆記
使用Python畫小豬佩奇社會人標配
2018-06-02
Python
啥啥啥，服務治理是個啥
2021-02-01
除了畫佩奇我們還要玩點更高階的
2019-01-19
用小豬佩奇說明Javascript的原型和原型鏈
2018-05-10
JavaScript原型
阿里大資料架構師必備技能，你“佩奇”了嘛？
2019-05-28
阿里大資料架構
啥是雲主機，雲主機是啥樣的？
2020-10-22
記：css繪製小豬佩奇的專案及踩過的坑
2019-02-24
CSS
【小豬佩奇漫畫】| 複雜度分析原來那麼簡單！
2019-01-26
複雜度
谷歌創始人兼CEO拉里·佩奇不為人知的故事
2019-05-11
谷歌
到底啥是JavaScriptMock
2018-06-30
JavaScriptMock
Spring是個啥？
2020-10-29
Spring
RPC框架是啥？
2019-04-20
RPC框架
排名演算法（一）--PageRank
2018-12-31
演算法
到底啥是JavaScript Mock
2019-02-27
JavaScriptMock
啥是Gossip協議？
2022-01-04
Go協議
有一千種方法騙社畜，我用“防騙佩奇”平息你的無助
2019-02-18
用 Python 20 秒畫完小豬佩奇“社會人”！附效果視訊+完整程式碼
2018-06-04
Python
Webhook到底是個啥？
2018-12-02
WebHook
MQTT 協議是個啥？
2024-02-21
MQQT協議
resnet到底是個啥
2019-02-20
等保2.0？？？這是啥？
2024-10-08
靜態頁面是啥
2022-12-19
socket 到底是個啥
2023-04-13
給女朋友講ActiveMQ是啥？
2019-08-20
MQ
Linux是啥?我們來聊聊？
2022-10-29
Linux
Web前端是啥專業呢？
2021-09-17
Web前端
att&ck是什麼，特點是啥
2020-09-30
Redis的字串底層是啥？為了速度和安全做了啥？
2020-07-20
Redis字串
COVID-19 口罩佩
2020-11-26
傳奇手遊盒子十大排名傳奇手遊平臺app哪個好
2022-11-05
APP
堡壘機是什麼意思？別稱是啥？
2022-05-07
[譯] Flutter 元件到底是個啥？
2018-07-12
Flutter元件
spring security為啥是個垃圾框架？
2023-09-21
Spring框架
啥是資料庫正規化
2020-11-06
資料庫
大資料：protobuf是啥玩意兒
2019-05-11
大資料