網頁可讀內容抽取 API 資料介面

Parry發表於2024-08-31

網頁可讀內容抽取 API 資料介面

智慧提取文章關鍵元素資訊,智慧抽取,多種元素資訊。

gugudata_api_cover

1. 產品功能

  • 智慧提取網頁可閱讀內容;
  • 提供網頁可閱讀內容的 HTML 程式碼;
  • 支援傳遞網頁 HTML 或網頁 URL 引數;
  • 支援多種元素資訊抽取,包括文章標題、作者、文字方向、語言、內容、內容(不包含 HTML 標籤,按段落分割)、文章長度、文章摘要、網站名稱、文章釋出時間;
  • 秒級解析效能,支援高併發;
  • 資料持續更新與維護;
  • 全介面支援 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面相容 Apple ATS;
  • 全國多節點 CDN 部署;
  • 介面極速響應,多臺伺服器構建 API 介面負載均衡;
  • 介面呼叫狀態與狀態監控

2. API 文件

介面詳情: https://www.gugudata.com/api/details/readability

介面地址: https://api.gugudata.com/websitetools/readability

返回格式: application/json; charset=utf-8

請求方式: POST

請求協議: HTTPS

請求示例: https://api.gugudata.com/websitetools/readability

資料預覽: https://www.gugudata.com/preview/readability

介面測試: https://api.gugudata.com/websitetools/readability/demo

3. 請求引數

引數名 引數型別 是否必須 預設值 備註
appkey string YOUR_APPKEY 付費後獲取的 APPKEY
html string YOUR_VALUE 需要抽取的網頁 HTML 內容,與引數 url 二選一
url string YOUR_VALUE 需要抽取的網頁 URL 地址,與引數 html 二選一。(我們不處理因源站反爬而不能正常請求網頁內容進行後續處理的問題)

4. 返回引數

引數名 引數型別 備註
DataStatus.RequestParameter string 介面請求引數
DataStatus.StatusCode int 介面返回狀態碼
DataStatus.StatusDescription string 介面返回狀態說明
DataStatus.ResponseDateTime string 介面資料返回時間
DataStatus.DataTotalCount int 此條件下的總資料量,一般用於分頁計算
Data.Title string 文章標題
Data.Byline string 文章作者
Data.Dir string 文章文字方向
Data.Lang string 文章語言
Data.Content string 文章內容
Data.TextContent string 文章內容(不包含 HTML 標籤,按段落分割)
Data.Length int 文章長度
Data.Excerpt string 文章摘要
Data.SiteName string 網站名稱
Data.PublishedTime string[] 文章釋出時間

相關文章