使用gettext模組翻譯Python3原始碼以支援國際化

yottatiana發表於2015-01-16

你寫了一個Python 3程式，還想要它適用於其他語言。你能複製全部程式碼庫，然後刻意地檢查每個.py檔案，替換掉所有找到的文字字串。但這意味著你有兩份你程式碼的獨立副本，每當你要做出個改動或修復個bug，你的工作量會加倍。而且如果你想要程式還適用於其他語言，就更糟了。

幸運的是，Python給了一個解決辦法，就是用gettext模組。

一個Hack解法

你應該把你自己的解決辦法統一改變。例如，你可以把你程式中的每個字串替換為一個函式呼叫（函式名簡單些，比如像_()一樣），這會返回被翻譯為該正確語言的字串。舉個例子，如果你的程式原本是：

print('Hello world!')

1	print('Hello world!')

……你可以將它改為：

print(_('Hello world!'))

1	print(_('Hello world!'))

……函式_()會返回'Hello world!'的翻譯，它基於程式設定有的語言。比如，如果這個語言設定之前被存在一個叫LANGUAGE的全域性變數中，函式_()看起來像這樣：

def _(s):
    spanishStrings = {'Hello world!': 'Hola Mundo!'}
    frenchStrings = {'Hello world!': 'Bonjour le monde!'}
    germanStrings = {'Hello world!': 'Hallo Welt!'}

    if LANGUAGE == 'English':
        return s
    if LANGUAGE == 'Spanish':
        return spanishStrings[s]
    if LANGUAGE == 'French':
        return frenchStrings[s]
    if LANGUAGE == 'German':
        return germanStrings[s]

def _(s):

spanishStrings = {'Hello world!': 'Hola Mundo!'}

frenchStrings = {'Hello world!': 'Bonjour le monde!'}

germanStrings = {'Hello world!': 'Hallo Welt!'}

if LANGUAGE == 'English':

return s

if LANGUAGE == 'Spanish':

return spanishStrings[s]

if LANGUAGE == 'French':

return frenchStrings[s]

if LANGUAGE == 'German':

return germanStrings[s]

這可以，但是你這是在重複造輪子。Python的gettext模組可以做更多。gettext是一系列工具，檔案格式在20世紀90年代被髮明出來，來規範軟體國際化（也叫I18N）。gettext是個作為對於所有程式語言的系統化的設計，但是我們會在本篇文章中只專注於Python。

程式例子

設想你有個想要翻譯的用Python3寫的簡單“猜數字”遊戲。程式的原始碼在這裡。有四步來使這個程式國際化：

調整這個.py檔案的原始碼，這樣使字串輸入進一個名為_()的函式。
用和Python一起安裝的pygettext.py文字，從原始碼建立一個”pot”檔案。
用這個免費的跨平臺Poedit軟體，從pot檔案建立.po和.mo檔案。
再次調整你的.py檔案原始碼匯入gettext模組的程式碼，設定語言。

第一步：新增 _() 函式

首先，檢查你程式中的所有需要被翻譯和用_()的呼叫來替代的字串。針對Python使用的gettext系統用_()作為得到翻譯了的字串的通用名，因為它是個短名。

注意：用格式型字串而不是連線型字串會是你的程式翻譯起來更簡單。例如，用連線型字串你的程式會像這樣：

print('Good job, ' + myName + '! You guessed my number in ' + guessesTaken + ' guesses!')
print(_('Good job, ') + myName + _('! You guessed my number in ') + guessesTaken + _(' guesses!'))

1 2	print('Good job, ' + myName + '! You guessed my number in ' + guessesTaken + ' guesses!') print(_('Good job, ') + myName + _('! You guessed my number in ') + guessesTaken + _(' guesses!'))

This results in three separate strings that need to be translated, as opposed to the single string needed in the string formatting approach:
這會導致三個獨立的字串都需要翻譯，然而相反的是在格式型的字串中，只需翻譯一個字串：

print(&#039;Good job, %s! You guessed my number in %s guesses!&#039; % (myName, guessesTaken))
print(_(&#039;Good job, %s! You guessed my number in %s guesses!&#039;) % (myName, guessesTaken))

1 2	print('Good job, %s! You guessed my number in %s guesses!' % (myName, guessesTaken)) print(_('Good job, %s! You guessed my number in %s guesses!') % (myName, guessesTaken))

當你改完“猜數字”原始碼後，它會像這樣。你並不能執行它，因為_()函式還沒定義。這個變化只是讓pygettext.py文字可以找到所有需要翻譯的字串。

第二步：用pygettext.py提取字串

在你Python安裝（Windows上的C:Python34Toolsi18n）中的Tools/i18n就是pygettext.py文字。對於可譯字串普通 gettext unix 命令解析 C/C++ 原始碼並且 xgettext unix 命令可以解析其他語言，而pygettext.py則知道怎樣去解析Python原始碼。它會找到所有字串併產生個”pot”檔案。

在Windows上我已經執行了這個文字像這樣：

C:&gt;py -3.4 C:Python34Toolsi18npygettext.py -d guess guess.py

1	C:>py -3.4 C:Python34Toolsi18npygettext.py -d guess guess.py

這建立了一個pot檔案，叫guess.pot。這只是個普通純文字檔案，它列出來了全部的在原始碼中尋找_()的呼叫的要翻譯的字串。你可以在這兒看guess.pot檔案.

第三步：用Poedit翻譯字串

你可以用文字編輯器填寫翻譯但是免費的Poedit軟體會更容易從這兒下載http://poedit.net. 選擇 > New from POT/PO file… 然後選擇你的guess.po檔案。

Poedit會問你想要翻譯成什麼語言。我們舉例用西班牙語：

填寫翻譯吧。（我用 http://translate.google.com，所以對於真的使用西班牙語的人會感覺有點奇怪。)

現在儲存檔案在它的gettext形式的資料夾裡。儲存會建立.po檔案（一個人類可讀的文字檔案不同於原始.pot檔案，除了是有西語翻譯的）和一個.mo檔案（一個gettext會讀取的機器可讀版本。這些檔案會存在一個特定的資料夾內，為的是讓gettext能夠找到他們。他們看起來像這樣（比如西語檔案中的”es”和德語檔案中”de”）：

./guess.py
./guess.pot
./locale/es/LC_MESSAGES/guess.mo
./locale/es/LC_MESSAGES/guess.po
./locale/de/LC_MESSAGES/guess.mo
./locale/de/LC_MESSAGES/guess.po

./guess.py

./guess.pot

./locale/es/LC_MESSAGES/guess.mo

./locale/es/LC_MESSAGES/guess.po

./locale/de/LC_MESSAGES/guess.mo

./locale/de/LC_MESSAGES/guess.po

這些兩種性質的語言像西語中的”es”和德語中的 “de” 被稱作 ISO 639-1 codes 是語言的標準縮寫。你不一定要用他們，但是遵循標準是有道理的。

第四步：給你程式加上gettext程式碼

現在你有包含翻譯的.mo檔案，調整你的Python程式碼去用它。在你的程式中加上下面的：

import gettext
es = gettext.translation(&#039;guess&#039;, localedir=&#039;locale&#039;, languages=[&#039;es&#039;])
es.install()

import gettext

es = gettext.translation('guess', localedir='locale', languages=['es'])

es.install()

第一個 'guess' 是”定義域”，這其實是意味著guess.mo檔名中“猜”的部分。 localedir是你建立的locale資料夾的目錄地址。這會是相對或絕對的路徑。'es'描述在locale資料夾下面的檔案。LC_MESSAGES資料夾是個標準名

install()方法會導致呼叫_()返回翻譯為西語的字串。如果你想回到原始的英語只需要分配一個lambda函式值給_，這會返回當時輸入的字串：

import gettext
es = gettext.translation(&#039;guess&#039;, localedir=&#039;locale&#039;, languages=[&#039;es&#039;])
print(_(&#039;Hello! What is your name?&#039;))  # prints Spanish

_ = lambda s: s

import gettext

es = gettext.translation('guess', localedir='locale', languages=['es'])

print(_('Hello! What is your name?')) # prints Spanish

_ = lambda s: s

你可以檢查準備翻譯的”Guess the Number”原始碼。如果你想要執行此程式，下載並解壓這個壓縮檔案和它的locale資料夾和.mo安裝檔案。