李彥巨集的搜尋技術傳奇

期待一片自己的藍天發表於2014-04-30
【文章摘要】 這一專利名為“超鏈分析技術”,其作者是百度創始人、董事長兼執行長李彥巨集。這份15年前毫不不起眼的專利,現在被業界稱為當代搜尋引擎的奠基石,它不僅為搜尋引擎的大規模應用提供了理論基礎,更預言了當今世界搜尋市場格局。世界,逐漸因搜尋而改變。

    位於弗吉尼亞州的美國專利局總部檔案庫的一角,存放著幾頁看似毫不起眼的紙張。但如果拿出去拍賣的話,這幾頁紙將價值連城。因為其上記載著的,或將是全球最值錢的技術專利之一,正是它,催生並且支撐起了一個市值近600億美金、位列全球市值第三的網際網路公司——百度。

http://images.enet.com.cn/2011/0810/58/9397313.jpg


    這一專利名為“超鏈分析技術”,其作者是百度創始人、董事長兼執行長李彥巨集。這份15年前毫不不起眼的專利,現在被業界稱為當代搜尋引擎的奠基石,它不僅為搜尋引擎的大規模應用提供了理論基礎,更預言了當今世界搜尋市場格局。世界,逐漸因搜尋而改變。
李彥巨集和他的“超鏈分析”
    人們今天使用的搜尋其實已經非常智慧,搜尋結果按相關性排列有序,甚至可以根據使用者歷史記錄進行個性化定製。但在九十年代中期,還沒有真正意義上的搜尋引擎,搜尋結果冗雜,如何識別網站質量、防止作弊成為了一個難以突破的技術瓶頸。
    彼時,28歲的的李彥巨集正在道-瓊斯公司擔任高階技術顧問,他已經牽頭開發了《華爾街日報》網路版實時金融資訊系統,這也是全球第一個網路實時金融資訊系統。當時每天有15萬條資訊,如此海量的資訊,使用者很難快速找到自己想要的資訊,迫切需要一種快速準確的檢索技術來化解這樣的難題。
    李彥巨集在思索如何解決搜尋準確性技術時,突然想到,自己在北大所學的科技論文索引方法。“科學論文通過索引被引用次數的多寡來確定一篇論文的好壞,超鏈就是對頁面的引用。”李彥巨集回憶,“超鏈上的文字就是對所連結網頁的描述,通過這個描述可以計算出超鏈和頁面之間的相關度。”
    這讓李彥巨集非常興奮,他立即反覆論證這一理論並整理成稿,1996年正式提出“超鏈分析”概念並發表了相關文章,1997年2月申請了專利——“超鏈分析技術”(Hypertext document retrieval system and method,專利號5,920,859)。超鏈分析技術的發明,一改網際網路搜尋雜亂無章、資訊冗餘的局面,使搜尋效果大幅提升。
    在一次學術會議上,李彥巨集請時任Infoseek CTO威廉•張觀看超鏈分析的實踐。李彥巨集輸入chinatimes,排在第一位的就是中國時報的網站,再搜IBM,IBM官方網站排在第一。威廉•張驚呼:“任何一個流行的搜尋引擎都做不到。”
    值得一提的是,李彥巨集的超鏈分析中特別指出了不同文字連結的關聯性,這種思想前瞻性地預言:未來不同語種搜尋引擎可能將在主要技術上不盡相同。現在,這種預言已經成為現實,目前中文、英文、俄文、韓文等區別較大的語系已經有各自不同的搜尋引擎,雖然技術體系各有千秋,但其本質與超鏈分析卻都有千絲萬縷的聯絡,例如Google。
往事揭祕:佩奇和布林或受李彥巨集啟發
    中國古代文人墨客以文會友,常會彼此稱呼“一字師”,即對方的一個字給予自己巨大的啟發和靈感。在網際網路世界,百度創始人李彥巨集其實是Google創始人拉里•佩奇(Larry Page)和塞爾吉•布林(Sergey Brin)的一言師。
    前谷歌中國區總裁李開復曾在微博中提及,李彥巨集和佩奇等三人是搜尋引擎排序演算法的最早的提出者。但他也許不知道,在李彥巨集和佩奇之間,還有一段鮮為人知的往事。
    1997年2月李彥巨集提交了超鏈分析的專利申請;1998年4月李彥巨集赴澳大利亞演講搜尋前瞻技術,其中聽眾席上就有佩奇和布林;1998年10月Google上線,同年申請了PageRank的專利,但由於Pagerank與李彥巨集之前申請的超鏈分析專利具有相似性,美國專利商標局2001年9月才獲准了PageRank專利申請。
    根據曝光的李彥巨集論文,超鏈分析(ESP)技術的本質是一種“投票”機制,一個連結可以看作一個網頁對另一個網頁的投票,票數決定排序。除了基本的投票機制,該技術還具有兩方面特徵:將連結文字作為重要資訊加以利用,使搜尋引擎更準確地理解目標網頁的內容,從而有效地提高了搜尋結果的相關性;根據投票者自身的權威性、推薦方式等屬性調整投票權重,從而有效地提高了搜尋結果的權威性。
    李彥巨集的超鏈分析為現代搜尋引擎發展指明瞭趨勢和方向,標誌著網際網路搜尋引擎進入了快速發展時代。而李彥巨集相關超鏈分析的論文也被各種研究大篇幅引用,至今超鏈分析已被211件國際專利引用,並被世界各大搜尋引擎普遍採納。打個比方就是,超鏈分析搭起搜尋新平臺,其他人藉助這個新平臺衍生個性化的發展。
    在1997至2000年間,李彥巨集對自己的超鏈理論也通過論文著作逐步解析和完善,先後在IEEE(美國電氣與電子工程師協會)刊物上發表,並不斷在網際網路搜尋領域研究新的解決方案,隨後李彥巨集的新技術發明又申請了數項專利。1999年底,李彥巨集回到祖國,建立中國人自己的搜尋引擎公司——百度。如今,百度成長為全球最大的中文搜尋引擎及最大的中文網站,超鏈分析功不可沒。
    在李彥巨集率領百度拿下中國八成搜尋市場份額時,很多人認為是卓越的商業管理才能成就了李彥巨集和百度,但在李彥巨集看來,對搜尋技術的專注和創新,才是百度成長的關鍵。他說:“在中國,無聲的不是管理,是技術。太少人真正關心技術的進步,太多的人醉心於把管理當戰爭。

相關文章