雅虎開源 Web 爬取工具 Anthelion
Web 爬取工具是 Yahoo 很重要的核心,甚至超過了其他應用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。
上一年在上海的一次會議中,Yahoo 也詳細提到了 Anthelion:“Anthelion 最初專注於語義資料,使用標記語言嵌入到 HTML 頁面,比如 Microdata,Microformat 或者 RDFa。”這次會議還提到了爬取技術是如何實現的,為什麼能提供更高數量的特定搜尋查詢相關的結果。
Microdata 和 RDFa 是結構資料關於不同主題的語法格式,相容 schema.org 詞彙(一個 Google,Yahoo 和 Bing 搜尋引擎都在研究的專案)。
Anthelion 的程式碼現在以 Apache 開源授權協議託管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整原始碼。
Anthelion 可以根據設定目標爬取特定頁面,比如,包括標記描述影片和至少兩個不同屬性(比如電影標題和演員)。
相關文章
- 雅虎開放4個API 方便開發者使用雅虎工具API
- Learun,已開源,一個.net web快速開放工具Web
- 開源高效能 web 快取伺服器 nusterWeb快取伺服器
- 爬取微信公眾號文章工具
- 雅虎開源釋出/訂閱訊息平臺Pulsar
- 雅虎開源的Kafka叢集管理器(Kafka Manager)Kafka
- Web 開發會用到的20款優秀的開源工具Web開源工具
- 爬蟲爬取資料如何繞開限制?爬蟲
- 分享個人開源爬蟲框架爬蟲框架
- 使用這個開源工具獲取本地天氣預報開源工具
- 33款你可能不知道的開源爬蟲軟體工具爬蟲
- Python爬蟲開發(二):整站爬蟲與Web挖掘Python爬蟲Web
- 爬蟲開源專案及其思想爬蟲
- 開源爬蟲軟體彙總爬蟲
- 使用Python進行Web爬取和資料提取PythonWeb
- 考研大資料爬取與分析工具二次開發進行中。。。大資料
- 節約 Web 開發時間的 67 個工具、庫和資源Web
- Java開源建站工具Java
- Web靜態資源快取及優化Web快取優化
- Java爬蟲快速開發工具:uncsJava爬蟲
- Web開發輔助工具Web
- Python爬蟲開源專案合集Python爬蟲
- tengine 淘寶開源的web serverWebServer
- Web是開源最大的成功Web
- 回顧 Web 開發者熟悉的 10 個經典開源專案和工具Web
- 上天的Node.js之爬蟲篇 15行程式碼爬取京東資源Node.js爬蟲行程
- 為爬蟲獲取登入cookies:charles工具的使用爬蟲Cookie
- Java開源工具 網站開發工具清單Java開源工具網站
- 雅虎宣佈停止開發YUIUI
- 開源工具、平臺列表開源工具
- Excel導表工具(開源)Excel
- grafana開源報表工具Grafana
- 開源安全工具彙總
- 爬取薅羊毛網站百度雲資源網站
- 使用 puppeteer + nodejs 爬取喜歡的動漫資源NodeJS
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 爬蟲爬取微信小程式爬蟲微信小程式
- 爬蟲之股票定向爬取爬蟲