事情的经过

事情是这样开始的,某年某月某日,有一个老同学找到我,问我能否翻译一个表格,当即我就表示,这么简单的问题,直接丢给谷歌爸爸的机翻不就好了吗?并带有一丝丝的嫌弃

然后,他说她发给我看看,嗯,我依旧不屑的打开了这个pdf,随便翻一番,emmmmm 199页。。。。

好的,我知道了,这不是简单的翻译可以搞得定的,得定制化服务了。

现在的情况:

  1. 文档为PDF文档,单词在表格里面安安静静的呆着

想法:

  1. 将PDF内的表格转换为Excel
  2. 写一个Python脚本可以翻译Excel
  3. 将Google翻译的所有词性的前两个意思爬出来

开始实现

1. 先转换一下

在这个网站下将PDF转换为Excel文档(记得勾选合并工作表,不然就有199个工作表)

2. 写Python翻译

调用GoogleAPI,有现成的轮子可以用,不过不太满足我的需要,我需要的是所有次性的前两个意思,所以需要自己改改轮子

话不多说直接抓包,发现通过一个API接口

https://translate.google.cn/translate_a/single?client=webapp&sl=en&tl=zh-CN&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss&dt=t&otf=1&ssel=0&tsel=0&kc=12&tk={}&q={}

里面的tk是一个token,q为所查单词,tk这个算不出来,但是googletrans有提供这个方法计算,所以直接用轮子了

import googletrans
translator = Translator(service_urls=['translate.google.cn'])
token = translator.token_acquirer.do(text)

之后他很和谐的返回了一个JSON数据,看的令人甚是开心,总之很长,不展示了,可以自己去试试

之后呢,在Python里面,将json数据转换为Python字典,最后就可以快速输出了

3.写入文件

本来想直接写入到指定对应的Excel表格里面,查了一圈下来发现Python无法同时读写Excel表格(如果有方法不吝赐教啊),所以只能以分隔符然后放到txt文档里面了

之后呢,导入到Excel、Mysql里面

最后的最后

最后的最后,我不想写下去了,所以直接放出最后导入到MySql后的写出来的网页:

原档PDF下载:
网站:http://eng.onionnet.work
Txt文档下载:
Mysql数据下载:

应该就这么多了。

最后修改:2019 年 04 月 13 日
如果觉得我的文章对你有用,请随意赞赏