將LLM整合到專案所花費的成本主要是我們透過API獲取LLM返回結果的成本,而這些成本通常是根據處理的令牌數量計算的。我們如何預估我們的令牌數量呢?Tokeniser包可以有效地計算文字輸入中的令牌來估算這些成本。本文將介紹如何使用Tokeniser有效地預測和管理費用。
大語言模型(如GPT)中的"tokens"是指模型用來處理和理解文字的基本單位。令牌是語言模型處理文字時的基本單位,可以是單詞、子詞(subwords)、字元或者其他更小的文字單元。所以我們在計算令牌時不能簡單的將單詞按照空格分隔,而將一段文字分解成令牌的過程稱為"tokenization",這是預處理文字的重要步驟。
https://avoid.overfit.cn/post/064552e1902b468d834e7d65399dcd04