自建搜尋引擎-基於美麗雲

peterjxl發表於2024-07-09

原文網址 : https://www.cnblogs.com/PeterJXL/p/18291039

Meilisearch 是一個搜尋引擎，主程式完全開源，除了使用官方提供的美麗雲服務（收費）進行對接之外，還可以透過自建搜尋引擎來實現完全獨立的搜尋服務。

由於成本問題，本部落格採用自建的方式，本文就講講怎麼搭建。

‍

本文主要參考：

meilisearch 全接入指南 | 二丫講梵：講了怎麼使用官方提供的服務，也講了怎麼自建
Meilisearch Documentation：官網文件

‍

前置工作

部落格已配置 sitemap 功能，參考 VuePress 部落格之 SEO 最佳化（一）之 sitemap 與搜尋引擎收錄 - 知乎
自建時要用到自定義的域名，因此額外購買了一個二級域名的 SSL 證書，例如我用的是 search.peterjxl.com

‍

安裝和啟動美麗雲

首先需要在伺服器上安裝美麗雲搜尋：

curl -L https://install.meilisearch.com | sh

‍

我在用 curl 安裝的時候，發現有報錯，推測是 GFW 的問題，改為用 Docker 安裝（有很多安裝方式，參考安裝指南）：

docker pull getmeili/meilisearch:v1.6

‍

然後啟動命令格式為：

docker run -itd --name meilisearch -p 7700:7700 \
  -e MEILI_ENV="production" -e MEILI_NO_ANALYTICS=true \
  -e MEILI_MASTER_KEY="自定義一個不少於16位元組的秘鑰" \
  -v $(pwd)/meili_data:/meili_data \
  getmeili/meilisearch:v1.6

注意修改 master-key，該金鑰用於爬蟲抓取使用（就是爬取你的部落格內容並做好分詞、索引等）。

啟動後可以用 docker ps 檢視容器狀態，或者用 telnet 檢查埠是否被監聽。

‍

配置 Nginx

首先去阿里雲上配置 DNS 解析記錄：

‍

這個結合自身情況新增配置（例如我用的是 Nginx）：

server {
		listen 80;
		listen 443 ssl;
		server_name search.peterjxl.com;

		ssl_certificate /conf/search.peterjxl.com.pem;
		ssl_certificate_key /conf/search.peterjxl.com.key;
		ssl_ciphers ECDHE-RSA-AES128-GCM-SHA256:ECDHE:ECDH:AES:HIGH:!NULL:!aNULL:!MD5:!ADH:!RC4;
		ssl_protocols TLSv1 TLSv1.1 TLSv1.2;
		ssl_prefer_server_ciphers on;

		location / {
			proxy_set_header Host $host;
			proxy_set_header   X-Forwarded-Proto $scheme;
			proxy_set_header   X-Real-IP         $remote_addr;
			proxy_pass http://127.0.0.1:7700;
		}
	}

‍

配置後記得重啟 Nginx，並且記得開通防火牆，然後嘗試訪問子域名，可以看到正常轉發了請求：

‍

建立索引

接下來，我們透過美麗雲提供的爬蟲功能，將部落格資料建立成索引，相關文件請見：Integrate a relevant search bar to your documentation — Meilisearch documentation。

其中，提供了一個關於 VuePress 的配置檔案模板：

If you use VuePress for your documentation, you can check out the configuration file we use in production. In our case, the main container is theme-default-content and the selector titles and subtitles are h1, h2...

{
  "index_uid": "docs",
  "sitemap_urls": ["https://docs.meilisearch.com/sitemap.xml"],
  "start_urls": ["https://docs.meilisearch.com"],
  "selectors": {
    "lvl0": {
      "selector": ".sidebar-heading.open",
      "global": true,
      "default_value": "Documentation"
    },
    "lvl1": ".theme-default-content h1",
    "lvl2": ".theme-default-content h2",
    "lvl3": ".theme-default-content h3",
    "lvl4": ".theme-default-content h4",
    "lvl5": ".theme-default-content h5",
    "text": ".theme-default-content p, .theme-default-content li, .theme-default-content td"
  },
  "strip_chars": " .,;:#",
  "scrap_start_urls": true,
  "custom_settings": {
    "synonyms": {
      "relevancy": ["relevant", "relevance"],
      "relevant": ["relevancy", "relevance"],
      "relevance": ["relevancy", "relevant"]
    }
  }
}

‍

注意如上的配置內容很重要，如果你的部落格不是常規預設的，那麼需要根據自己的情況對元素進行辨別，詳細配置項說明，參考官方文件：更多可選欄位。

‍

我用的配置如下：

{
    "index_uid": "VuePressBlog",
    "sitemap_urls": ["https://www.peterjxl.com/sitemap.xml"],
    "start_urls": ["https://www.peterjxl.com"],
    "selectors": {
        "lvl0": {
            "selector": "h1",
            "global": true,
            "default_value": "Documentation"
        },  
        "lvl1": ".theme-vdoing-content h2",
        "lvl2": ".theme-vdoing-content h3",
        "lvl3": ".theme-vdoing-content h4",
        "lvl4": ".theme-vdoing-content h5",
        "lvl5": ".theme-vdoing-content h6",
        "text": ".theme-vdoing-content p, .theme-vdoing-content li"
    },  
    "strip_chars": " .,;:#",
    "scrap_start_urls": true,
    "selectors_exclude": ["iframe", ".katex-block", ".md-flowchart", ".md-mermaid", ".md-presentation.reveal.reveal-viewport", ".line-numbers-mode", ".code
-group", ".footnotes", "footer.page-meta", ".page-nav", ".comments-wrapper"]

‍

index_uid ：為索引名稱，如果服務端沒有，則會自動建立。接下來我們將這個配置檔案放到伺服器上，然後透過如下命令執行爬蟲對內容進行抓取（注意修改相關引數）：

docker run -t --rm \
  --network=host \
  -e MEILISEARCH_HOST_URL='二級域名，例如我的是search.peterjxl.com' \
  -e MEILISEARCH_API_KEY='剛剛建立的Master Key' \
  -v 配置檔案完整路徑:/docs-scraper/config.json \
  getmeili/docs-scraper:v0.12.7 pipenv run ./docs_scraper config.json

‍

執行過程中可以看到每個頁面都進行了抓取（爬取過程會比較久，這取決於部落格的內容數量）：

‍

建立搜尋用的 key

在美麗雲中，有兩種金鑰：

master-key：許可權很大，例如建立，更新，刪除索引。
API Key：許可權很小，一般只用於搜尋，可以有多個

更多說明可以參考官網文件：Master key and API keys — Meilisearch documentation。

由於 master-key 許可權很大，不宜暴露，因此我們可以建立一個只有搜尋許可權的 API Key（用來搜尋），命令格式：

curl \
  -X POST 'http://localhost:7700/keys' \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer 剛剛自定義的master-key' \
  --data-binary '{
    "description": "peterjxl.com search_key",
    "actions": ["search"],
    "indexes": ["剛剛建立的index_id"],
    "expiresAt": "2099-01-01T00:00:00Z"
  }'

‍

然後會返回一串 JSON，其中的 key 就是我們需要的（已脫敏）：

{
  "name": null,
  "description": "peterjxl.com search_key",
  "key": "xxxx",
  "uid": "xxxx",
  "actions": [
    "search"
  ],
  "indexes": [
    "wiki"
  ],
  "expiresAt": "2099-01-01T00:00:00Z",
  "createdAt": "2024-01-17T12:54:42.357819802Z",
  "updatedAt": "2024-01-17T12:54:42.357819802Z"
}

‍

測試搜尋

我們可以使用 Postman 來測試搜尋效果（如果使用了美麗雲的服務，可以在其官網進行搜尋測試）

相關文件：Postman collection for Meilisearch — Meilisearch documentation

配置好後，可以進行搜尋，效果如下：

‍

配置 VuePress

接下來就是在 VuePress 中整合美麗雲了。

客戶端的配置相對簡單，因為 meilisearch 的官方文件用的也是 Vuepress，因此官方也維護了一個 Vuepress 的外掛，安裝：

npm install vuepress-plugin-meilisearch

‍

然後在配置外掛的部分新增相關配置：

// 全文搜尋外掛 meilisearch
  [
    'vuepress-plugin-meilisearch',
      {
          hostUrl: 'https://search.peterjxl.com',        // meilisearch 服務端域名
          apiKey: "剛剛建立的搜尋key", // 只有搜尋許可權的 key
          indexUid: 'VuePressBlog',
          placeholder: '支援全文搜尋',           // 在搜尋欄中顯示的佔位符
          maxSuggestions: 9,                      // 最多顯示幾個搜尋結果
          cropLength: 30,                         // 每個搜尋結果最多顯示多少個字元
      },
  ],

‍

然後本地執行，試試效果：

‍

配置 GitHub Action

如果每次更新了部落格，都重新執行建立索引的命令，也太麻煩了。我們可以指令碼化，或者使用 GitHub Action。例如，新增如下配置：

  scrape-docs:
    needs: test_website
    runs-on: ubuntu-20.04
    steps:
        - uses: actions/checkout@v2
        - uses: actions/setup-node@v2
          with:
              node-version: 14
              registry-url: https://registry.npmjs.org/
        - name: Run docs-scraper
          env:
              API_KEY: ${{ secrets.MEILISEARCH_API_KEY }}
              CONFIG_FILE_PATH: ${{ github.workspace }}/docs/.vuepress/public/data/docs-scraper-config.json
          run: |
              docker run -t --rm \
                -e MEILISEARCH_HOST_URL="https://search.peterjxl.com" \
                -e MEILISEARCH_API_KEY=$API_KEY \
                -v $CONFIG_FILE_PATH:/docs-scraper/config.json \
                getmeili/docs-scraper:v0.12.7 pipenv run ./docs_scraper config.json

‍

注意這 3 個配置：

secrets.MEILISEARCH_API_KEY：就是 Master key
CONFIG_FILE_PATH：爬蟲抓取時的配置檔案，可以選擇放在專案原始碼的某個指定目錄（例如我的是 docs/.vuepress/config/）
MEILISEARCH_HOST_URL：美麗雲的域名，例如我的是 https://search.peterjxl.com

‍

配置完後，當我們提交了新的程式碼，就會自動爬取部落格資料並更新索引了，GitHub Action 執行情況：

‍

（完）

Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
基於 Elasticsearch 的站內搜尋引擎實戰
2019-03-04
Elasticsearch
搜尋引擎-03-搜尋引擎原理
2024-04-04
基於 Mysql 實現一個簡易版搜尋引擎
2021-08-29
MySql
海量資料搜尋---搜尋引擎
2018-11-13
基於 SAP Spartacus 的 SAP 電商雲 SEO 搜尋引擎優化的一個例子
2021-08-07
優化
自建網站寫部落格，怎麼被百度等搜尋引擎搜到？
2019-03-06
網站
python 手把手教你基於搜尋引擎實現文章查重
2020-09-13
Python
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
sphinx 全文搜尋引擎
2019-02-16
高效利用搜尋引擎
2018-08-17
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
百度雲盤、BT種子搜尋引擎
2019-05-11
百度雲盤搜尋引擎【升級版】
2019-05-11
高效的使用搜尋引擎
2018-11-07
搜尋引擎與前端SEO
2018-05-24
前端
python 寫的搜尋引擎
2019-08-31
Python
Shodan搜尋引擎介紹
2020-08-19
搜尋引擎優化（SEO）
2020-05-17
優化
BTFILM電影搜尋引擎
2019-05-11
Django整合搜尋引擎Elasticserach
2019-06-04
DjangoAST
搜尋引擎框架介紹
2019-05-13
框架
認識搜尋引擎 Elasticsearch
2021-07-15
Elasticsearch
直播開發app，實時搜尋、搜尋引擎框
2022-03-29
APP
elasticsearch實現基於拼音搜尋
2023-01-15
Elasticsearch
57_初識搜尋引擎_分散式搜尋引擎核心解密之query phase
2024-10-02
分散式解密
分散式搜尋引擎Elasticsearch基礎入門學習
2023-05-10
分散式Elasticsearch
Mac上神奇的內建搜尋引擎——Spotlight(聚焦搜尋)
2020-12-14
Mac
Lucene輕量級搜尋引擎,真的太強了!!!Solr 和 ES 都是基於它
2024-03-11
Solr
搜尋引擎-01-概覽
2024-04-02
設定搜尋引擎遮蔽 CSDN
2022-02-15
知乎搜尋/（引擎）的故事
2021-02-28
基於Elasticsearch實現搜尋建議
2018-07-27
Elasticsearch
bt引擎-螞蟻磁力搜尋教程大全，如何使用搜尋引擎查詢磁力連結
2024-07-10
使用Google百度等搜尋引擎的常用搜尋技巧
2019-03-18
Go
127盤搜網網盤資源搜尋引擎
2019-05-11
OpenAI新AI搜尋將顛覆谷歌等傳統搜尋引擎
2024-02-22
OpenAI谷歌
開放搜尋開源相容版，支援Elasticsearch做搜尋召回引擎
2021-09-25
Elasticsearch