dotnet 將本地的 Phi-3 模型與 SemanticKernel 進行對接

lindexi發表於2024-06-20

在本地完成 Phi-3 模型的部署之後,即可在本地擁有一個小語言模型。本文將告訴大家如何將本地的 Phi-3 模型與 SemanticKernel 進行對接,讓 SemanticKernel 使用本地小語言模型提供的能力

在我大部分的部落格裡面,都是使用 AzureAI 和 SemanticKernel 對接,所有的資料都需要傳送到遠端處理。這在離線的情況下比較不友好,在上一篇部落格和大家介紹瞭如何基於 DirectML 控制檯執行 Phi-3 模型。本文將在上一篇部落格的基礎上,告訴大家如何將本地的 Phi-3 模型與 SemanticKernel 進行對接

依然是和上一篇部落格一樣準備好 Phi-3 模型的資料夾,本文這裡我放在 C:\lindexi\Phi3\directml-int4-awq-block-128 路徑下。如何大家下載時拉取不下來 https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-onnx/tree/main?clone=true 倉庫,可以傳送郵件向我要,我將透過網盤分享給大家

準備好模型的下載工作之後,接下來咱將新建一個控制檯專案用於演示

編輯控制檯的 csproj 專案檔案,修改為以下程式碼用於安裝所需的 NuGet 包

<Project Sdk="Microsoft.NET.Sdk">

  <PropertyGroup>
    <OutputType>Exe</OutputType>
    <TargetFramework>net8.0</TargetFramework>
    <ImplicitUsings>enable</ImplicitUsings>
    <Nullable>enable</Nullable>
  </PropertyGroup>
  <ItemGroup>
    <PackageReference Include="Microsoft.ML.OnnxRuntimeGenAI.DirectML" Version="0.2.0-rc7" />
    <PackageReference Include="feiyun0112.SemanticKernel.Connectors.OnnxRuntimeGenAI.DirectML" Version="1.0.0" />

    <PackageReference Include="Microsoft.Extensions.Configuration.UserSecrets" Version="8.0.0" />
    <PackageReference Include="Microsoft.Extensions.Logging" Version="8.0.0" />
    <PackageReference Include="Microsoft.Extensions.Logging.Console" Version="8.0.0" />
    <PackageReference Include="Microsoft.SemanticKernel" Version="1.13.0" />
  </ItemGroup>
</Project>

這裡的 feiyun0112.SemanticKernel.Connectors.OnnxRuntimeGenAI.DirectML 是可選的,因為最後咱將會自己編寫所有對接程式碼,不需要使用大佬寫好的現有元件

先給大家演示使用 feiyun0112.SemanticKernel.Connectors.OnnxRuntimeGenAI.DirectML 提供的簡單版本。此版本程式碼大量從 https://github.com/microsoft/Phi-3CookBook/blob/0a167c4b8045c1b9abb84fc63ca483ae614a88a5/md/07.Labs/Csharp/src/LabsPhi302/Program.cs 抄的,感謝 Bruno Capuano 大佬

定義或獲取本地模型所在的資料夾

var modelPath = @"C:\lindexi\Phi3\directml-int4-awq-block-128";

建立 SemanticKernel 構建器時呼叫 feiyun0112.SemanticKernel.Connectors.OnnxRuntimeGenAI.DirectML 庫提供的 AddOnnxRuntimeGenAIChatCompletion 擴充套件方法,如以下程式碼

// create kernel
var builder = Kernel.CreateBuilder();
builder.AddOnnxRuntimeGenAIChatCompletion(modelPath);

如此即可完成連線邏輯,將本地 Phi-3 模型和 SemanticKernel 進行連線就此完成。接下來的程式碼就是和原來使用 SemanticKernel 的一樣。這一點也可以看到 SemanticKernel 的設計還是很好的,非常方便進行模型的切換

嘗試使用 SemanticKernel 做一個簡單的問答機

var kernel = builder.Build();

// create chat
var chat = kernel.GetRequiredService<IChatCompletionService>();
var history = new ChatHistory();

// run chat
while (true)
{
    Console.Write("Q: ");
    var userQ = Console.ReadLine();
    if (string.IsNullOrEmpty(userQ))
    {
        break;
    }
    history.AddUserMessage(userQ);

    Console.Write($"Phi3: ");
    var response = "";
    var result = chat.GetStreamingChatMessageContentsAsync(history);
    await foreach (var message in result)
    {
        Console.Write(message.Content);
        response += message.Content;
    }
    history.AddAssistantMessage(response);
    Console.WriteLine("");
}

嘗試執行程式碼,和自己本地 Phi-3 模型聊聊天

以上為使用 feiyun0112.SemanticKernel.Connectors.OnnxRuntimeGenAI.DirectML 提供的連線,接下來嘗試自己來實現與 SemanticKernel 的對接程式碼

在 SemanticKernel 裡面定義了 IChatCompletionService 介面,以上程式碼的 GetStreamingChatMessageContentsAsync 方法功能核心就是呼叫 IChatCompletionService 介面提供的 GetStreamingChatMessageContentsAsync 方法

熟悉依賴注入的夥伴也許一下就看出來了,只需要注入 IChatCompletionService 介面的實現即可。在注入之前,還需要咱自己定義一個繼承 IChatCompletionService 的型別,才能建立此型別進行注入

如以下程式碼,定義繼承 IChatCompletionService 的 Phi3ChatCompletionService 型別

class Phi3ChatCompletionService : IChatCompletionService
{
    ...
}

接著實現介面要求的方法,本文這裡只用到 GetStreamingChatMessageContentsAsync 方法,於是就先只實現此方法

根據上一篇部落格可以瞭解到 Phi-3 的初始化方法,先放在 Phi3ChatCompletionService 的建構函式進行初始化,程式碼如下

class Phi3ChatCompletionService : IChatCompletionService
{
    public Phi3ChatCompletionService(string modelPath)
    {
        var model = new Model(modelPath);
        var tokenizer = new Tokenizer(model);

        Model = model;
        Tokenizer = tokenizer;
    }

    public IReadOnlyDictionary<string, object?> Attributes { get; set; } = new Dictionary<string, object?>();
    public Model Model { get; }
    public Tokenizer Tokenizer { get; }

    ... // 忽略其他程式碼
}

定義 GetStreamingChatMessageContentsAsync 方法程式碼如下

class Phi3ChatCompletionService : IChatCompletionService
{
    ... // 忽略其他程式碼

    public async IAsyncEnumerable<StreamingChatMessageContent> GetStreamingChatMessageContentsAsync(ChatHistory chatHistory,
        PromptExecutionSettings? executionSettings = null, Kernel? kernel = null,
        CancellationToken cancellationToken = new CancellationToken())
    {
        ... // 忽略其他程式碼
    }
}

這裡傳入的是 ChatHistory 型別,咱需要進行一些提示詞的轉換才能讓 Phi-3 更開森,轉換程式碼如下

        var stringBuilder = new StringBuilder();
        foreach (ChatMessageContent chatMessageContent in  chatHistory)
        {
            stringBuilder.Append($"<|{chatMessageContent.Role}|>\n{chatMessageContent.Content}");
        }
        stringBuilder.Append("<|end|>\n<|assistant|>");

        var prompt = stringBuilder.ToString();

完成之後,即可構建輸入,以及呼叫 ComputeLogits 等方法,程式碼如下

    public async IAsyncEnumerable<StreamingChatMessageContent> GetStreamingChatMessageContentsAsync(ChatHistory chatHistory,
        PromptExecutionSettings? executionSettings = null, Kernel? kernel = null,
        CancellationToken cancellationToken = new CancellationToken())
    {
        var stringBuilder = new StringBuilder();
        foreach (ChatMessageContent chatMessageContent in  chatHistory)
        {
            stringBuilder.Append($"<|{chatMessageContent.Role}|>\n{chatMessageContent.Content}");
        }
        stringBuilder.Append("<|end|>\n<|assistant|>");

        var prompt = stringBuilder.ToString();

        var generatorParams = new GeneratorParams(Model);

        var sequences = Tokenizer.Encode(prompt);

        generatorParams.SetSearchOption("max_length", 1024);
        generatorParams.SetInputSequences(sequences);
        generatorParams.TryGraphCaptureWithMaxBatchSize(1);

        using var tokenizerStream = Tokenizer.CreateStream();
        using var generator = new Generator(Model, generatorParams);

        while (!generator.IsDone())
        {
            var result = await Task.Run(() =>
            {
                generator.ComputeLogits();
                generator.GenerateNextToken();

                // 這裡的 tokenSequences 就是在輸入的 sequences 後面新增 Token 內容

                // 取最後一個進行解碼為文字
                var lastToken = generator.GetSequence(0)[^1];
                var decodeText = tokenizerStream.Decode(lastToken);

                // 有些時候這個 decodeText 是一個空文字,有些時候是一個單詞
                // 空文字的可能原因是需要多個 token 才能組成一個單詞
                // 在 tokenizerStream 底層已經處理了這樣的情況,會在需要多個 Token 才能組成一個單詞的情況下,自動合併,在多個 Token 中間的 Token 都返回空字串,最後一個 Token 才返回組成的單詞
                if (!string.IsNullOrEmpty(decodeText))
                {
                    return decodeText;
                }

                return null;
            });

            if (!string.IsNullOrEmpty(result))
            {
                yield return new StreamingChatMessageContent(AuthorRole.Assistant, result);
            }
        }
    }

如此即可完成對接的核心程式碼實現,接下來只需要將 Phi3ChatCompletionService 注入即可,程式碼如下

var modelPath = @"C:\lindexi\Phi3\directml-int4-awq-block-128";

// create kernel
var builder = Kernel.CreateBuilder();
builder.Services.AddSingleton<IChatCompletionService>(new Phi3ChatCompletionService(modelPath));

這就是完全自己實現將本地 Phi-3 模型與 SemanticKernel 進行對接的方法了,嘗試執行一下專案,或者使用以下方法拉取我的程式碼更改掉模型資料夾,試試執行效果

本文程式碼放在 githubgitee 上,可以使用如下命令列拉取程式碼

先建立一個空資料夾,接著使用命令列 cd 命令進入此空資料夾,在命令列裡面輸入以下程式碼,即可獲取到本文的程式碼

git init
git remote add origin https://gitee.com/lindexi/lindexi_gd.git
git pull origin 39a65e0e6703241bdab0a836e84532bddd4385c7

以上使用的是 gitee 的源,如果 gitee 不能訪問,請替換為 github 的源。請在命令列繼續輸入以下程式碼,將 gitee 源換成 github 源進行拉取程式碼

git remote remove origin
git remote add origin https://github.com/lindexi/lindexi_gd.git
git pull origin 39a65e0e6703241bdab0a836e84532bddd4385c7

獲取程式碼之後,進入 SemanticKernelSamples/BemjawhufawJairkihawyawkerene 資料夾,即可獲取到原始碼

相關文章