網頁可讀內容抽取 API 資料介面
智慧提取文章關鍵元素資訊,智慧抽取,多種元素資訊。
1. 產品功能
- 智慧提取網頁可閱讀內容;
- 提供網頁可閱讀內容的 HTML 程式碼;
- 支援傳遞網頁 HTML 或網頁 URL 引數;
- 支援多種元素資訊抽取,包括文章標題、作者、文字方向、語言、內容、內容(不包含 HTML 標籤,按段落分割)、文章長度、文章摘要、網站名稱、文章釋出時間;
- 秒級解析效能,支援高併發;
- 資料持續更新與維護;
- 全介面支援 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
- 全面相容 Apple ATS;
- 全國多節點 CDN 部署;
- 介面極速響應,多臺伺服器構建 API 介面負載均衡;
- 介面呼叫狀態與狀態監控
2. API 文件
介面詳情: https://www.gugudata.com/api/details/readability
介面地址: https://api.gugudata.com/websitetools/readability
返回格式: application/json; charset=utf-8
請求方式: POST
請求協議: HTTPS
請求示例: https://api.gugudata.com/websitetools/readability
資料預覽: https://www.gugudata.com/preview/readability
介面測試: https://api.gugudata.com/websitetools/readability/demo
3. 請求引數
引數名 | 引數型別 | 是否必須 | 預設值 | 備註 |
---|---|---|---|---|
appkey | string | 是 | YOUR_APPKEY | 付費後獲取的 APPKEY |
html | string | 否 | YOUR_VALUE | 需要抽取的網頁 HTML 內容,與引數 url 二選一 |
url | string | 否 | YOUR_VALUE | 需要抽取的網頁 URL 地址,與引數 html 二選一。(我們不處理因源站反爬而不能正常請求網頁內容進行後續處理的問題) |
4. 返回引數
引數名 | 引數型別 | 備註 |
---|---|---|
DataStatus.RequestParameter | string | 介面請求引數 |
DataStatus.StatusCode | int | 介面返回狀態碼 |
DataStatus.StatusDescription | string | 介面返回狀態說明 |
DataStatus.ResponseDateTime | string | 介面資料返回時間 |
DataStatus.DataTotalCount | int | 此條件下的總資料量,一般用於分頁計算 |
Data.Title | string | 文章標題 |
Data.Byline | string | 文章作者 |
Data.Dir | string | 文章文字方向 |
Data.Lang | string | 文章語言 |
Data.Content | string | 文章內容 |
Data.TextContent | string | 文章內容(不包含 HTML 標籤,按段落分割) |
Data.Length | int | 文章長度 |
Data.Excerpt | string | 文章摘要 |
Data.SiteName | string | 網站名稱 |
Data.PublishedTime | string[] | 文章釋出時間 |