node.js爬蟲應用——前端程式設計師的詞典command-translator

孤狼醬發表於2018-05-06

 雖然高考英語考了135分,大學英語四級也過了,可到現在,寫了兩年程式碼,經常在寫一個變數的時候,想半天也想不出來對應的英文單詞是什麼,總不能很可 (sha) 愛(bi) 的去用拼音吧,最後還是隻能去求助有道了。雖然說開啟有道網頁,然後輸入詞語翻譯不算太麻煩,擔保每次都這樣,總覺得不夠方便,也不夠逼格。

 先來看看我現在用的工具好了,首先安裝command-translator:

cnpm i -g command-translator

 然後開啟一個命令列直接翻譯:

tl 翻譯
# 輸出如下
translate
interpret
translator
interpreter
複製程式碼

 夠簡單了吧,下面來看看怎麼實現的。

 在寫這個工具之前,我也用過一些外掛,如果你用Alfred, 那麼你應該已經用過一些翻譯外掛了。後來我覺得它顏值沒有自帶的spotlight高,所以就解除安裝了,然後裝了個flashlight, 然而那裡面的外掛太少了,有一個有道翻譯外掛,然而只能英文翻譯成中文,要它何用?最後打算自己寫一個,可折騰了兩天後,發現flashlight有問題,似乎是識別不了輸入的中文,大概有道那個外掛也是遇到這個問題,才沒有做中文翻譯英文吧。後來想著現在我們一般用vscode比較多,寫個vscode外掛也不錯吧。然而vscode外掛的命令中好像是帶不了引數,如果用一個命令來啟動外掛,然後再輸入要翻譯的詞語,最後再顯示翻譯結果,那還是太難用了。最後想著就寫個命令列裡面的翻譯工具吧,對於前端程式設計師而言,node肯定是裝了的,就用node來寫。

 其實有了思路後,就很簡單了。首先是要拿到翻譯的結果。直接呼叫介面的很多,有道官方也有,不過都需要去申請一個key,個人比較反感,就簡單點,直接爬網頁,分析dom。整個程式用了兩個第三方模組:cheerio處理dom,類似jquery的語法;commander用來簡化命令列互動,TJ大神的大作。

 首先爬取頁面,解析結果,這裡爬的是金山詞霸的頁面,之前寫論文時感覺對於一些專業詞彙,金山翻譯的更準確。幾行程式碼就能搞定,這裡直接上程式碼好了:

const http = require('http')
const cheerio = require('cheerio')
const baseUrl = "http://www.iciba.com/"
function spider(word){
  return new Promise((resolve,reject)=>{
    http.get(encodeURI(baseUrl+word),res=>{
      let html=''
      res.on('data',data=>html+=data)
      res.on('end',()=>resolve(html))
    })
  })
}
function parse(html){
  const ch = cheerio.load(html)
  const res = []
  ch(".js-base-info .in-base .base-list p span").each((i,el)=>{
    res.push(ch(el).text().replace(new RegExp(';'),''))
  })
  return res
}

module.exports = function(word){
  return new Promise((resolve,reject)=>{
    spider(word).then(html=> resolve(parse(html)))
  })
}
複製程式碼

 然後我麼呼叫匯出的方法,傳參為需要翻譯的詞語,中文英文都可以,最後返回的就是一個陣列,為翻譯結果。

 最後要解決的是命令列直接輸入tl <word>直接翻譯,這部分程式碼寫在一個js檔案中,我把它叫做bin.js, 然後在package,json配置一個key為"tl"的bin,指向bin,js即可。bin,js就是獲取tl後面的引數,然後呼叫上面匯出的那個方法來翻譯,最後把結果列印出來即可,程式碼:

#!/usr/bin/env node
const program = require('commander')
const translate = require('./translator')
program.version(require('./package.json').version)
  .action((arg,cmd)=>{
    translate(arg).then((res=[])=>{
      res.forEach(r=>console.log(r)
    })
  })
  .parse(process.argv)
複製程式碼

 OK了,以後翻譯只需快捷鍵開啟終端,輸入tl <word>就可以了。

 什麼?你不用node,你是寫java的?都什麼年代了,還不學我,來搞一波前端,當年我可是寫過C艹,後來C艹艹,再後來Android、Java,然後轉前端的。開玩笑啦,看完這篇文章,隨便你用什麼語言都能很快寫一個這樣的詞典出來。

 以後如果再看到你身邊的朋友還在開啟網頁來翻譯,或者用拼音的,直接把這篇文章丟給他把,

相關文章