在ef core中使用postgres資料庫的全文檢索功能實戰

wjsgzcn發表於2020-05-14

原文網址 : https://www.cnblogs.com/wjsgzcn/p/12890077.html

資料庫

起源

之前做的很多專案都使用solr/elasticsearch作為全文檢索引擎，它們功能全面而強大，但是對於較小的專案而言，構建和維護成本顯然過高，尤其是從關聯式資料庫/文件資料庫到全文檢索引擎的資料同步工作非常繁瑣，且容易出錯。

記得很久以前就知道postgresql資料庫內建全文檢索，最近發現這個資料庫越來越火，於是就又研究了一番，欣喜的發現居然支援ef core，於是對其進行了一些研究，並整理心得如下。

前提

本文假設讀者熟悉entity framework core的基本概念和基本使用。

目的

建立dotnet core專案，使用postgres資料庫和ef core，實現常見的全文檢索功能，包括

建立索引欄位
基本查詢
查詢結果排名
查詢結果高亮顯示

步驟1 - 新建專案並引入packages

<Project Sdk="Microsoft.NET.Sdk">

  <PropertyGroup>
    <OutputType>Exe</OutputType>
    <TargetFramework>netcoreapp3.1</TargetFramework>
  </PropertyGroup>

  <ItemGroup>
    <PackageReference Include="EFCore.NamingConventions" Version="1.1.0" />
    <PackageReference Include="Microsoft.Extensions.Logging.Console" Version="3.1.4" />
    <PackageReference Include="Npgsql.EntityFrameworkCore.PostgreSQL" Version="3.1.3" />
    <PackageReference Include="Microsoft.EntityFrameworkCore.Design" Version="3.1.3" />
  </ItemGroup>

</Project>

注意NamingConventions包是可選的，其作用是將表和欄位名稱翻譯成蛇形，如MyData -> my_data，這樣比較方便手寫sql，不用寫煩人的引號。

步驟2 - 建立model和dbcontext

using System.ComponentModel.DataAnnotations;
using System.ComponentModel.DataAnnotations.Schema;
using NpgsqlTypes;

public class Article
{
    public int Id { get; set; }

    [Required]
    [MaxLength(128)]
    public string Title { get; set; }

    [MaxLength(512)]
    public string Abst { get; set; }

    public NpgsqlTsVector TitleVector { get; set; }
    public NpgsqlTsVector AbstVector { get; set; }

    [NotMapped]
    public string TitleHL { get; set; }

    [NotMapped]
    public string AbstHL { get; set; }
}

本model中的TitleVector和AbstVector分別用來存放Title和Abst欄位的分詞結果，便於後續的查詢。不必擔心程式碼會不小心改掉這些欄位以至於查詢出錯，因為後續會設定一個觸發器，每次更改資料的時候都會自動更新這些欄位的內容。

using Microsoft.EntityFrameworkCore;

public class MyDbContext : DbContext
{
    protected override void OnConfiguring(DbContextOptionsBuilder optionsBuilder) => optionsBuilder
        .UseNpgsql("Host=localhost;Database=ft;Username=postgres;Password=123456")
        .UseLoggerFactory(PgFtSearch.Program.MyLoggerFactory)
        .UseSnakeCaseNamingConvention();

    protected override void OnModelCreating(ModelBuilder modelBuilder)
    {
        base.OnModelCreating(modelBuilder);

        modelBuilder.Entity<Article>().HasIndex(p => p.TitleVector).HasMethod("GIN");
        modelBuilder.Entity<Article>().HasIndex(p => p.AbstVector).HasMethod("GIN");
    }

    public DbSet<Article> Articles { get; set; }
}

首先UseNpgsql設定了要連線哪個資料庫，然後UseLoggerFactory用來列印日誌，主要是sql語句。MyLoggerFactory是怎麼來的，參考後續的程式碼。

GIN的兩行，用來告訴資料庫這兩個欄位是採用倒排索引。

步驟3 - 生成migration並手動新增觸發器

dotnet ef migrations add Init

然後，在生成的migration檔案中手動新增觸發器，在新增或者修改資料時，自動修改索引欄位的內容，應用程式不必擔心索引同步的問題。

migrationBuilder.Sql(
            @"CREATE TRIGGER article_title_search_vector_update BEFORE INSERT OR UPDATE
              ON articles FOR EACH ROW EXECUTE PROCEDURE
              tsvector_update_trigger(title_vector, 'pg_catalog.english', title);");

migrationBuilder.Sql(
            @"CREATE TRIGGER article_abst_search_vector_update BEFORE INSERT OR UPDATE
              ON articles FOR EACH ROW EXECUTE PROCEDURE
              tsvector_update_trigger(abst_vector, 'pg_catalog.english', abst);");

步驟4 - 編寫程式

using System;
using System.Collections.Generic;
using System.Linq;
using Microsoft.EntityFrameworkCore;
using Microsoft.Extensions.Logging;

namespace PgFtSearch
{
    class Program
    {
        public static readonly ILoggerFactory MyLoggerFactory
            = LoggerFactory.Create(builder => { builder.AddConsole(); });
    
        static void Main(string[] args)
        {
            using (var db = new MyDbContext())
            {
                if (!db.Articles.Any())
                {
                    var articles = new List<Article>{
                        new Article{Title="testing is ok", Abst="this is a test about postgre full text searching"},
                        new Article{Title="tested all bugs", Abst="there is no bug exists in this app"}
                    };

                    db.AddRange(articles);
                    db.SaveChanges();
                }

                var query = "test";

                var data = db.Articles
                    .Where(p => p.TitleVector.Matches(query) || p.AbstVector.Matches(query))
                    .OrderByDescending(p=>p.TitleVector.Rank(EF.Functions.ToTsQuery(query)) * 2.0 + p.AbstVector.Rank(EF.Functions.ToTsQuery(query)))
                    .Select(p=>new Article{
                        Title = p.Title,
                        Abst = p.Abst,
                        TitleHL = EF.Functions.ToTsQuery(query).GetResultHeadline(p.Title),
                        AbstHL = EF.Functions.ToTsQuery(query).GetResultHeadline(p.Abst),
                    });

                foreach (var article in data)
                {
                    Console.WriteLine($"{article.Title}\t{article.Abst}\t{article.TitleHL}\t{article.AbstHL}");
                }
            }
        }
    }
}

首先，如果沒有資料，插入幾條測試資料。

下面到了最關鍵的地方，編寫資料查詢的程式碼，實現的具體功能是：

使用test關鍵字在title或abst欄位中查詢資料
對查詢結果進行排序，title欄位排序權重=2.0，高於abst欄位權重=1.0
檢索結果的title和abst進行高亮顯示

最終生成的SQL如下：

SELECT 
　　a.title AS "Title", 
　　a.abst AS "Abst", 
　　ts_headline(a.title, to_tsquery(@__query_0)) AS "TitleHL", 
　　ts_headline(a.abst, to_tsquery(@__query_0)) AS "AbstHL"
FROM articles AS a
WHERE (a.title_vector @@ plainto_tsquery(@__query_0)) OR (a.abst_vector @@ plainto_tsquery(@__query_0))
ORDER BY (ts_rank(a.title_vector, to_tsquery(@__query_0))::double precision * 2.0) + ts_rank(a.abst_vector, to_tsquery(@__query_0))::double precision DESC

程式碼在這兒，相信大家都能看懂，有問題歡迎交流。

總結

目前還未研究中文分詞的支援情況，也沒有測試效能。不過大致看來，完全可以在中小型專案中使用postgres資料庫的內建全文檢索功能替代solr/es等搜尋引擎，減少系統的複雜程度，提升全文檢索功能的穩定性。

在ef core中使用postgres資料庫的全文檢索功能實戰之中文支援
2020-05-15
資料庫
全文檢索庫 bluge
2021-12-20
AI Agent實戰：智慧檢索在Kingbase資料庫管理中的優勢應用
2024-07-01
AI資料庫
基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
ASP.NET Core使用EF Core操作MySql資料庫
2018-11-30
ASP.NETMySql資料庫
配置全文檢索
2019-07-20
基於Lucene的全文檢索實踐
2021-11-07
EF Core連線PostgreSQL資料庫
2024-08-07
SQL資料庫
全文檢索的轉義
2019-07-20
讀書筆記：從Lucene到Elasticsearch:全文檢索實戰
2019-01-08
筆記Elasticsearch
php + MongoDB + Sphinx 實現全文檢索
2019-02-16
PHPMongoDB
【轉載】【EF Core】Code first 之使用新資料庫
2024-04-11
資料庫
Kibana 全文檢索操作
2021-07-08
ElasticSearch 億級資料檢索案例實戰
2019-12-06
Elasticsearch
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
資料庫的檢索語句
2020-04-05
資料庫
【asp.net core 系列】8 實戰之利用 EF Core 完成資料操作層的實現
2020-06-09
ASP.NET
solr全文檢索學習
2020-11-14
Solr
EF Core助力信創國產資料庫
2023-12-20
資料庫
IM全文檢索技術專題(四)：微信iOS端的最新全文檢索技術優化實踐
2022-03-02
iOS優化
Oracle的全文檢索技術(轉)
2019-05-15
Oracle
全文檢索技術lucene的demo
2022-10-27
.net core EF Core 檢視的應用
2019-05-07
openGauss每日一練（全文檢索）
2024-03-30
【搜尋引擎】Solr Suggester 實現全文檢索功能-分詞和和自動提示
2019-06-26
Solr分詞
如何使用 EF Core 7 批次刪除資料
2022-12-22
萬字詳解PHP+Sphinx中文億級資料全文檢索實戰（實測億級資料0.1秒搜尋耗時）
2024-03-29
PHP
EF.Functions是EF Core提供的函式功能
2024-05-13
Function函式
oracle全文索引之配置全文檢索環境
2019-05-23
Oracle索引
springboot ElasticSearch 簡單的全文檢索高亮
2019-01-19
Spring BootElasticsearch
.NET 5/.NET Core使用EF Core 5連線MySQL資料庫寫入/讀取資料示例教程
2021-04-28
MySql資料庫
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
時序資料庫的秘密 —— 快速檢索
2022-12-05
資料庫
使用EF 連線資料庫 SQLserver、MySql 實現 CodeFirst
2024-07-03
資料庫ServerMySql
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
學術檢索資料庫總結
2021-01-05
資料庫
Mysql 如何實現全文檢索，關鍵詞跑分
2020-08-25
MySql
資料庫安全審計在資料安全中的功能
2019-12-05
資料庫

在ef core中使用postgres資料庫的全文檢索功能實戰

起源

前提

目的

步驟1 - 新建專案並引入packages

步驟2 - 建立model和dbcontext

步驟3 - 生成migration並手動新增觸發器

步驟4 - 編寫程式

總結

相關文章