langchain chatchat執行機制原始碼解析

郑某發表於2024-03-19

langchain chatchat的簡介就不多說了，大家可以去看github官網介紹，雖然當前版本停止了更新，下個版本還沒有出來，但作為學習還是很好的。

一、關鍵啟動過程：

1、start_main_server 入口

2、run_controller 啟動fastchat controller 埠20001

3、run_openai_api啟動fastchat對外提供的類似openai介面的服務，埠20000

4、run_model_worker 建立fastchat的model_worker，其中又執行了以下過程：

4.1、create_model_worker_app，根據配置檔案，建立並初始化對應的model_workder，初始化過程中，model_worker會透過self.init_heart_beat()將自己註冊到fastchat controller中，以供fastchat管理呼叫。最後create_model_worker_app方法取出model_workder的fastaip物件app，將app返回。

4.2 、uvicorn.run(app, host=host, port=port, log_level=log_level.lower())，啟動模型對應的model_workder服務，這裡的app來自model_workder的app。

二、chat過程

1、app.post("/chat/chat",

tags=["Chat"],

summary="與llm模型對話(透過LLMChain)",

)(chat)

2、本地模型LLM對話

model = get_ChatOpenAI(

model_name=model_name,

temperature=temperature,

max_tokens=max_tokens,

callbacks=callbacks,

)

get_ChatOpenAI：

model = ChatOpenAI(

streaming=streaming,

verbose=verbose,

callbacks=callbacks,

openai_api_key=config.get("api_key", "EMPTY"),

openai_api_base=config.get("api_base_url", fschat_openai_api_address()),

model_name=model_name,

temperature=temperature,

max_tokens=max_tokens,

openai_proxy=config.get("openai_proxy"),

**kwargs

)

在這裡指定了fastchat的openai_api介面地址，這樣就獲得了指定介面地址的langchain ChatOpenAI物件

然後建立LLMChain:

chain = LLMChain(prompt=chat_prompt, llm=model, memory=memory)

後面省略

3、線上模型LLM對話

線上模型的呼叫並沒有直接發起，還是和上面一樣，透過獲取ChatOpenAI物件，來和fastchat進行互動，但是fastchat是不支援自定義呼叫線上模型的，langchain chatchat是怎麼實現的呢？

原來，對應線上模型呼叫，langchain chatchat還是透過類似建立本地模型一樣建立model_worker，但是對model_worker進行了繼承，互動部分進行了重寫，如qwen線上呼叫：

class QwenWorker(ApiModelWorker):
而ApiModelWorker來自BaseModelWorker，BaseModelWorker就是fastchat的worker_model的基類。（本地模型例項化時用的ModelWorker本身也是繼承自BaseModelWorker）

class ApiModelWorker(BaseModelWorker):
    DEFAULT_EMBED_MODEL: str = None # None means not support embedding

    def __init__(
        self,
        model_names: List[str],
        controller_addr: str = None,
        worker_addr: str = None,
        context_len: int = 2048,
        no_register: bool = False,
        **kwargs,
    ):
        kwargs.setdefault("worker_id", uuid.uuid4().hex[:8])
        kwargs.setdefault("model_path", "")
        kwargs.setdefault("limit_worker_concurrency", 5)
        super().__init__(model_names=model_names,
                        controller_addr=controller_addr,
                        worker_addr=worker_addr,
                        **kwargs)
        import fastchat.serve.base_model_worker
        import sys
        self.logger = fastchat.serve.base_model_worker.logger
        # 恢復被fastchat覆蓋的標準輸出
        sys.stdout = sys.__stdout__
        sys.stderr = sys.__stderr__

        new_loop = asyncio.new_event_loop()
        asyncio.set_event_loop(new_loop)

        self.context_len = context_len
        self.semaphore = asyncio.Semaphore(self.limit_worker_concurrency)
        self.version = None

        if not no_register and self.controller_addr:
            self.init_heart_beat()


    def count_token(self, params):
        prompt = params["prompt"]
        return {"count": len(str(prompt)), "error_code": 0}

    def generate_stream_gate(self, params: Dict):
        self.call_ct += 1

        try:
            prompt = params["prompt"]
            if self._is_chat(prompt):
                messages = self.prompt_to_messages(prompt)
                messages = self.validate_messages(messages)
            else: # 使用chat模仿續寫功能，不支援歷史訊息
                messages = [{"role": self.user_role, "content": f"please continue writing from here: {prompt}"}]

            p = ApiChatParams(
                messages=messages,
                temperature=params.get("temperature"),
                top_p=params.get("top_p"),
                max_tokens=params.get("max_new_tokens"),
                version=self.version,
            )
            for resp in self.do_chat(p):
                yield self._jsonify(resp)
        except Exception as e:
            yield self._jsonify({"error_code": 500, "text": f"{self.model_names[0]}請求API時發生錯誤：{e}"})

    def generate_gate(self, params):
        try:
            for x in self.generate_stream_gate(params):
                ...
            return json.loads(x[:-1].decode())
        except Exception as e:
            return {"error_code": 500, "text": str(e)}


    # 需要使用者自定義的方法

    def(self, params: ApiChatParams) -> Dict:
        '''
        執行Chat的方法，預設使用模組裡面的chat函式。
        要求返回形式：{"error_code": int, "text": str}
        '''
        return {"error_code": 500, "text": f"{self.model_names[0]}未實現chat功能"}

    # def do_completion(self, p: ApiCompletionParams) -> Dict:
    #     '''
    #     執行Completion的方法，預設使用模組裡面的completion函式。
    #     要求返回形式：{"error_code": int, "text": str}
    #     '''
    #     return {"error_code": 500, "text": f"{self.model_names[0]}未實現completion功能"}

    def do_embeddings(self, params: ApiEmbeddingsParams) -> Dict:
        '''
        執行Embeddings的方法，預設使用模組裡面的embed_documents函式。
        要求返回形式：{"code": int, "data": List[List[float]], "msg": str}
        '''
        return {"code": 500, "msg": f"{self.model_names[0]}未實現embeddings功能"}

    def get_embeddings(self, params):
        # fastchat對LLM做Embeddings限制很大，似乎只能使用openai的。
        # 在前端透過OpenAIEmbeddings發起的請求直接出錯，無法請求過來。
        print("get_embedding")
        print(params)

    def make_conv_template(self, conv_template: str = None, model_path: str = None) -> Conversation:
        raise NotImplementedError

    def validate_messages(self, messages: List[Dict]) -> List[Dict]:
        '''
        有些API對mesages有特殊格式，可以重寫該函式替換預設的messages。
        之所以跟prompt_to_messages分開，是因為他們應用場景不同、引數不同
        '''
        return messages


    # help methods
    @property
    def user_role(self):
        return self.conv.roles[0]

    @property
    def ai_role(self):
        return self.conv.roles[1]

    def _jsonify(self, data: Dict) -> str:
        '''
        將chat函式返回的結果按照fastchat openai-api-server的格式返回
        '''
        return json.dumps(data, ensure_ascii=False).encode() + b"\0"

    def _is_chat(self, prompt: str) -> bool:
        '''
        檢查prompt是否由chat messages拼接而來
        TODO: 存在誤判的可能，也許從fastchat直接傳入原始messages是更好的做法
        '''
        key = f"{self.conv.sep}{self.user_role}:"
        return key in prompt

    def prompt_to_messages(self, prompt: str) -> List[Dict]:
        '''
        將prompt字串拆分成messages.
        '''
        result = []
        user_role = self.user_role
        ai_role = self.ai_role
        user_start = user_role + ":"
        ai_start = ai_role + ":"
        for msg in prompt.split(self.conv.sep)[1:-1]:
            if msg.startswith(user_start):
                if content := msg[len(user_start):].strip():
                    result.append({"role": user_role, "content": content})
            elif msg.startswith(ai_start):
                if content := msg[len(ai_start):].strip():
                    result.append({"role": ai_role, "content": content})
            else:
                raise RuntimeError(f"unknown role in msg: {msg}")
        return result

    @classmethod
    def can_embedding(cls):
        return cls.DEFAULT_EMBED_MODEL is not None

　　從程式碼中可以看到ApiModelWorker重寫了generate_stream_gate，並且呼叫了do_chat方法，該方法要求子類去實現實際的chat過程。我們再回到class QwenWorker(ApiModelWorker):

def do_chat(self, params: ApiChatParams) -> Dict:
        import dashscope
        params.load_config(self.model_names[0])
        if log_verbose:
            logger.info(f'{self.__class__.__name__}:params: {params}')

        gen = dashscope.Generation()
        responses = gen.call(
            model=params.version,
            temperature=params.temperature,
            api_key=params.api_key,
            messages=params.messages,
            result_format='message',  # set the result is message format.
            stream=True,
        )

        for resp in responses:
            if resp["status_code"] == 200:
                if choices := resp["output"]["choices"]:
                    yield {
                        "error_code": 0,
                        "text": choices[0]["message"]["content"],
                    }
            else:
                data = {
                    "error_code": resp["status_code"],
                    "text": resp["message"],
                    "error": {
                        "message": resp["message"],
                        "type": "invalid_request_error",
                        "param": None,
                        "code": None,
                    }
                }
                self.logger.error(f"請求千問 API 時發生錯誤：{data}")
                yield data

　　至此，qwen線上模型完成了呼叫。

三、總結

不得不說，這種設計還是很精妙的，藉助fastchat，不僅實現了fastchat支援的幾個本地大模型的呼叫，對於線上模型，即使不同的線上模型有不同的api介面定義，但只需要去定義實現一個新的繼承ApiModelWorker的類，就可以遮蔽掉介面之間的差異，透過fastchat對齊介面，統一對外提供類openai api介面服務，這樣在langchain不做修改的情況下，langchain就可以正常呼叫市面上各類介面迥異的線上大模型。

三、後續計劃

1、嘗試langchain chatchat和ollama的對接
2、Agent應用實踐

我建了一個langchain交流群，歡迎加入一起交流學習心得：

React-原始碼解析-setState執行機制
2018-06-21
React原始碼
Langchain-Chatchat 0.3 -- miniconda
2024-11-11
LangChain
本地部署 Langchain-Chatchat & ChatGLM
2024-03-17
LangChain
Android AccessibilityService機制原始碼解析
2018-06-20
Android原始碼
ConcurrentHashMap執行緒安全機制以及原始碼分析
2020-10-24
HashMap執行緒原始碼
Dubbo原始碼解析之SPI機制
2019-04-02
原始碼
執行緒池執行模型原始碼全解析
2019-03-24
執行緒模型原始碼
Volley 原始碼解析之快取機制
2019-01-06
原始碼快取
JDK原始碼解析之Java SPI機制
2019-04-01
JDK原始碼Java
Spark Shuffle機制詳細原始碼解析
2020-11-12
Spark原始碼
Spring事件監聽機制原始碼解析
2022-03-27
Spring事件原始碼
[原始碼解析] 並行分散式框架 Celery 之容錯機制
2021-05-17
原始碼並行分散式框架
Vue原始碼閱讀 – 檔案結構與執行機制
2018-10-10
Vue原始碼
Vue原始碼閱讀 - 檔案結構與執行機制
2018-07-01
Vue原始碼
JavaScript的程式碼執行機制
2019-09-16
JavaScript
Python記憶體管理機制-《原始碼解析》
2020-06-06
Python記憶體原始碼
Android 9.0 原始碼_機制篇 -- 全面解析 Handler
2021-09-09
Android原始碼
原始碼深度解析 Handler 機制及應用
2020-12-02
原始碼
從原始碼的角度解析執行緒池執行原理
2019-04-25
原始碼執行緒
Hystrix 原始碼解析 —— 命令合併執行
2019-02-27
原始碼
Java原始碼解析 ThreadPoolExecutor 執行緒池
2019-01-25
Java原始碼thread執行緒
Java原始碼解析 - ThreadPoolExecutor 執行緒池
2019-01-19
Java原始碼thread執行緒
Java執行緒池ThreadPoolExecutor原始碼解析
2023-12-27
Java執行緒thread原始碼
Langchain-Chatchat開源庫使用的隨筆記（一）
2024-03-14
LangChain筆記
Netty原始碼死磕一（netty執行緒模型及EventLoop機制）
2020-05-19
Netty原始碼執行緒模型OOP
Android 事件分發機制原始碼解析-view層
2019-02-25
Android事件原始碼View
[原始碼解析] 從TimeoutException看Flink的心跳機制
2020-06-23
原始碼Exception
Netty原始碼解析 -- 零拷貝機制與ByteBuf
2020-11-15
Netty原始碼
Handler訊息處理機制原始碼解析上
2018-04-05
原始碼
Spring 原始碼解析一：SpringMVC 的載入機制
2021-10-09
原始碼SpringMVC
ConcurrentHashMap原始碼解析，多執行緒擴容
2020-10-12
HashMap原始碼執行緒
Mybatis原始碼解析之執行SQL語句
2022-12-13
MyBatis原始碼SQL
【JVM原始碼解析】虛擬機器解釋執行Java方法（下）
2021-12-10
JVM原始碼虛擬機Java
【JVM原始碼解析】虛擬機器解釋執行Java方法（上）
2021-12-04
JVM原始碼虛擬機Java
Go執行指令碼命令用例及原始碼解析
2021-12-12
Go指令碼原始碼
JavaScript執行機制
2019-04-01
JavaScript
Javascript 執行機制
2022-01-17
JavaScript
從原始碼的角度解析Mybatis的會話機制
2019-03-20
原始碼MyBatis會話

langchain chatchat執行機制原始碼解析

相關文章