雅虎開源 Web 爬取工具 Anthelion

JORDAN NOVET發表於2022-11-27

Web 爬取工具是 Yahoo 很重要的核心,甚至超過了其他應用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。

上一年在上海的一次會議中,Yahoo 也詳細提到了 Anthelion:“Anthelion 最初專注於語義資料,使用標記語言嵌入到 HTML 頁面,比如 Microdata,Microformat 或者 RDFa。”這次會議還提到了爬取技術是如何實現的,為什麼能提供更高數量的特定搜尋查詢相關的結果。

Microdata 和 RDFa 是結構資料關於不同主題的語法格式,相容 schema.org 詞彙(一個 Google,Yahoo 和 Bing 搜尋引擎都在研究的專案)。

Anthelion 的程式碼現在以 Apache 開源授權協議託管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整原始碼。

Anthelion 可以根據設定目標爬取特定頁面,比如,包括標記描述影片和至少兩個不同屬性(比如電影標題和演員)。 

相關文章