下一秒我就是野生字幕君

Al發表於2020-09-23

原文網址 : https://www.cnblogs.com/alchemystar/p/13719528.html

下一秒我就是野生字幕君

最近劇荒，偶然翻出了曾經下載的電視劇回味一番，經典就是經典，不論是劇情還是臺詞，都那麼有魅力，咦？等等，臺詞，臺詞……作為一個IT從業者，我忽然靈光一現——現在語音識別技術這麼發達，能否有什麼辦法能幫我儲存下一些精彩橋段的臺詞呢？或許我也可以是個野生字幕君:p ,似乎也可以在此基礎上順手再翻譯一下個別難懂的臺詞！

略加思索，我大概有了個想法——做個視訊中提取音訊的程式，而後去請求一個開放的語音識別API來幫我把語音轉為文字。鑑於之前呼叫有道智雲的愉快經驗，我決定再次拿來為我所用，很快做出了這個demo（請忽略這醜醜的介面佈局，能用就行……）。

呼叫API介面的準備工作

首先，是需要在有道智雲的個人頁面上建立例項、建立應用、繫結應用和例項，獲取呼叫介面用到的應用的id和金鑰。具體個人註冊的過程和應用建立過程詳見文章分享一次批量檔案翻譯的開發過程

開發過程詳細介紹

下面介紹具體的程式碼開發過程。

首先分析有道智雲的API輸入輸出規範。根據文件來看，呼叫介面格式如下：

有道語音識別API HTTPS地址：

https://openapi.youdao.com/asrapi

介面呼叫引數:

欄位名	型別	含義	必填	備註
q	text	要翻譯的音訊檔案的Base64編碼字串	True	必須是Base64編碼
langType	text	源語言	True	支援語言
appKey	text	應用 ID	True	可在應用管理檢視
salt	text	UUID	True	UUID
curtime	text	時間戳（秒）	true	秒數
sign	text	簽名，通過md5(應用ID+q+salt+curTime+金鑰)生成	True	應用ID+q+salt+curTime+金鑰的MD5值
signType	text	簽名版本	True	v2
format	text	語音檔案的格式，wav	true	wav
rate	text	取樣率，推薦 16000 採用率	true	16000
channel	text	聲道數，僅支援單聲道，請填寫固定值1	true	1
type	text	上傳型別，僅支援base64上傳，請填寫固定值1	true	1

其中q為base64編碼的待識別音訊檔案，“上傳的檔案時長不能超過120s，檔案大小不能超過10M”，這點需要注意一下。

API的返回內容較為簡單：

欄位	含義
errorCode	識別結果錯誤碼，一定存在。詳細資訊參加錯誤程式碼列表
result	識別結果，識別成功一定存在

Demo開發：

這個demo使用python3開發，包括maindow.py，videoprocess.py，srbynetease.py三個檔案。介面部分，使用python自帶的tkinter庫，提供視訊檔案選擇、時間輸入框和確認按鈕；videoprocess.py來實現在視訊的指定時間區間提取音訊和處理API返回資訊的功能；srbynetease.py將處理好的音訊傳送到短語音識別API並返回結果。

介面部分：

介面部分程式碼如下，比較簡單。

root=tk.Tk()
root.title("netease youdao sr test")
frm = tk.Frame(root)
frm.grid(padx='50', pady='50')

btn_get_file = tk.Button(frm, text='選擇待識別視訊', command=get_file)
btn_get_file.grid(row=0, column=0,  padx='10', pady='20')
path_text = tk.Entry(frm, width='40')
path_text.grid(row=0, column=1)

start_label=tk.Label(frm,text='開始時刻：')
start_label.grid(row=1,column=0)
start_input=tk.Entry(frm)
start_input.grid(row=1,column=1)

end_label=tk.Label(frm,text='結束時刻：')
end_label.grid(row=2,column=0)
end_input=tk.Entry(frm)
end_input.grid(row=2,column=1)

sure_btn=tk.Button(frm, text='開始識別', command=start_sr)
sure_btn.grid(row=3,column=0,columnspan=3)
root.mainloop()

其中sure_btn的繫結事件start_sr()做了簡單的異常處理，並通過彈窗列印最終的識別結果:

def start_sr():
print(video.video_full_path)
if len(path_text.get())==0:
sr_result = '未選擇檔案'
else:
video.start_time = int(start_input.get())
video.end_time = int(end_input.get())
sr_result=video.do_sr()

   tk.messagebox.showinfo("識別結果", sr_result)


2. 在videoprocess.py中，我用到了python的moviepy庫來處理視訊，按指定起止時間擷取視訊，提取音訊，並按API要求轉為base64編碼形式：

```python
def get_audio_base64(self):
    video_clip=VideoFileClip(self.video_full_path).subclip(self.start_time,self.end_time)
    audio=video_clip.audio
    result_path=self.video_full_path.split('.')[0]+'_clip.mp3'
    audio.write_audiofile(result_path)
    audio_base64 = base64.b64encode(open(result_path,'rb').read()).decode('utf-8')
    return audio_base64

處理好的音訊檔案編碼傳到封裝好的有道智雲API呼叫方法中：

def do_sr(self):
    audio_base64=self.get_audio_base64()
    sr_result=srbynetease.connect(audio_base64)
    print(sr_result)
    if sr_result['errorCode']=='0':
        return sr_result['result']
    else:
        return "Something wrong , errorCode:"+sr_result['errorCode']

srbynetease.py中封裝的呼叫方法比較簡單，按API文件“組裝”好data{}傳送即可：

def connect(audio_base64):
    data = {}
    curtime = str(int(time.time()))
    data['curtime'] = curtime
    salt = str(uuid.uuid1())
    signStr = APP_KEY + truncate(audio_base64) + salt + curtime + APP_SECRET
    sign = encrypt(signStr)
    data['appKey'] = APP_KEY
    data['q'] = audio_base64
    data['salt'] = salt
    data['sign'] = sign
    data['signType'] = "v2"
    data['langType'] = 'zh-CHS'
    data['rate'] = 16000
    data['format'] = 'mp3'
    data['channel'] = 1
    data['type'] = 1

    response = do_request(data)

    return json.loads(str(response.content,'utf-8'))

效果展示

隨手開啟《甄嬛傳》第一集的某一小段試試：

效果可以，斷句的一點小瑕疵可以忽略。沒想到這短語音識別API博古通今，古文語音識別也這麼溜，厲害厲害！

總結

一番嘗試帶我開啟了新世界的大門，從今天開始我可以是一個不打字卻能搬運字幕的野生字幕君了，後面再有時間可以試試識別完翻譯成其他語言的操作，嗯，是技術的力量！

專案地址：https://github.com/LemonQH/SRFromVideo

雲廠商下一塊必爭之地就是它了！
2021-05-10
沒錯，我就是要吹爆Angular
2018-06-27
Angular
《我的世界》（Minecraft）就是元宇宙？ - clivethompson
2021-11-03
Raft元宇宙
搶先學鴻蒙（HarmonyOS）2.0，你就是下一個大咖！
2020-09-16
鴻蒙
麻辣君
2024-10-08
我就是要打螺絲！《關不住我吧》產品分析
2024-05-27
確認過眼神，你就是我的Promise~~
2018-05-15
Promise
3分鐘短文：Laravel寫個命令列，你就是下一個Geek！
2020-10-26
Laravel命令列
面試就是你來我往，互相瞭解！
2019-01-25
面試
學好風變程式設計，下一個職場小能手就是你
2022-06-10
程式設計
影片字幕製作Subtitle Studio如何輕鬆新增字幕
2021-01-05
你一個 F12 能秒我？
2020-07-29
Linux之父：我就是覺得蘋果太沒意思！
2019-07-19
Linux蘋果
曾經我認為C語言就是個弟弟
2021-05-13
C語言
邦芒簡歷：成功簡歷就是要10秒鐘內呈現重要內
2024-01-31
只需五秒！一鍵自動智慧摳圖，換背景就是這麼簡單！
2021-12-16
moviepy字幕移動
2024-12-06
事君盡禮
2019-02-17
Arctime怎麼翻譯字幕？Arctime批次翻譯字幕的技巧
2020-07-14
山有木兮木有枝，心悅君兮君不知
2018-07-30
PWN個痛快！我們就是要讓新基建更安全
2020-10-26
《動森》為何流行：“我就是想找個地方待著”
2020-04-03
【日記】我就是世界上最幸福的人！（1124 字）
2024-07-08
電腦就是我的安全感｜ONES 技術人
2022-03-22
我懂了，原來這就是4+1架構模型！
2022-12-02
架構模型
iOS使用AVFoundation在視訊上新增字幕以及控制字幕時間
2019-04-04
iOS
世上最汙技術解讀，我竟然秒懂了。
2019-02-02
《臘月別娟君》
2024-07-20
課時27：集合：在我的世界裡，你就是唯一
2018-08-16
無監督文字自動摘要野生技術
2018-09-19
秒殺系統架構如何設計之我見
2019-02-16
架構
秒、毫秒、微秒、納秒、皮秒
2024-08-16
用 Pinbox 輕鬆收藏程式碼，這就是我要的收藏工具
2019-01-17
不好意思，我就是覺得新寶可夢醜
2019-11-22
誰再悄咪咪的吃掉異常，我上去就是一 JIO
2020-06-23
【日記】我們行發工資真的就是 Black Box……（577 字）
2024-12-06
ASC倒數計時：我向你奔赴而來，你就是星辰大海
2021-05-06
Linux中編輯影片字幕
2020-03-17
Linux

下一秒我就是野生字幕君

下一秒我就是野生字幕君

呼叫API介面的準備工作

開發過程詳細介紹

效果展示

總結

相關文章