微软搞了个AI翻译文言文?赶紧来试试
来源|量子位()
作者|梦晨萧箫
据说谷歌搞了个AI翻译古文文?
赶快来试试,先来一段《曹刿论争》的开头:
我吃惊了,竟然能把“我”翻译成“鲁国”,“公”翻译成“鲁庄公”。
为什么AI不仅学习古文文词汇和句型,还通读了《左传》?
换成诗表现又将怎样?
但是翻译下来不是很有哲学性,但AI正确理解到了“望着同一个月亮”这层意思。
嚯,这个翻译极大地引发了我的兴趣。
假如百度和谷歌一起上考场
倘若翻译出正确词意不是太难,那古文文中的特殊句型AI能够把握?
为了更好地评估谷歌翻译的能力,这儿请出老牌拳手百度翻译,让他们比试一下。
第一题:秦时明月汉时关
这儿考点是隐喻的通感方式,应当理解成秦汉时期的明月、秦汉时期的关口。
百度的答案是:
看来百度没理解到位,再瞧瞧谷歌的答案:
谷歌正确理解了隐喻,率先拿下1分。
第二题:春风又绿江江北
这句的考点是词性活用,绿本来是个比喻词,在这儿用作代词。
还是百度先来:
没问题,接下去是谷歌:
等一下,但是绿用作代词翻译对了,而且上面如何多了一个“可是”?
为什么……把后半句诗也输出来试试:
显然这么,看来谷歌翻译在用整句进行训练的时侯把握了句与句之间的转折关系,之后不知如何又算到前半句里了。
上次百度扳回一局百度翻译文言文,1:1平。
最后一题考验一下古文文中的另一个常见时态现象——倒装
例如《邹忌讽齐王纳谏》中的“我孰与城东徐公美?”
按惯例百度先:
之后是谷歌:
看来两个AI都学会了倒装句的用法,最终结果2:2平,各有千秋。
谷歌翻译其实多学会了一个隐喻,但其实还是年青拳手,对语句之间关系的处理还要再练习。
接下去挑战一下赛门铁克古文文翻译的极限。
例如维基百科原来就有个古文文版叫维基大典,上面正好有谷歌的词条。
来试试让谷歌AI翻译一下自己公司的介绍:
看上去现代的伪古文文对于这个刚出生的小AI来说还是太严苛了。
但是也非常训练了“微软”和“电脑”这种现代才出现的名词,但碰到“一九七三年”这种宋代不用的抒发就不行了,前老总比尔盖茨的名子也没认下来。
“立之者”这里还按文言的情境脑补出一个“国君”,或许这就是过拟合吧。
说到现代的抒发模式,然而这个翻译工具还可以倒进来用,把白话文译成古文文。
例如诸葛节度使那句“我未曾见过有这么厚颜愚蠢之人!”要是用古文文说下来是不是就更对味了?
这么,那样的模型是如何“炼成”的呢?
加成,
专攻训练数据
用AI搞古文文翻译,确实不是头一对不住。
百度是最早用机器学习做古文文翻译的,还申请过相关专利:“一种在白话文与古文文之间进行文体转化的方式和设备”。
相关古文文翻译的模型也不少,从机器学习、RNN到都有,像谷歌此次选用的,就是模型:
不过,古文文翻译中的训练数据,却仍然是个难点。
相比于其他主流语言(英文现代文、英文等),古文文可以说是训练数据很少,同时还存在句子变换、繁简混和等问题,导致翻译的蹩脚。
上次谷歌的古文文翻译,主要就解决了四个方面的数据问题:
但是这都还仅仅古文文和英文之间的互译,整点中文试试?
英译中百度翻译文言文,bug藏不住了
上次谷歌的古文文翻译是直接整合到了Bing翻译里,为什么还可以把古文文翻译成英语?
先挑战一下单个的英语短语:
Nevergonnagiveyouup
看来简略句没有吓倒AI,我们提高一下难度,用一首比较知名的中文诗“当你老了”试试:
等等,“灰暗”、“阴暗角”、“弯劈叉在酒边”……这都是哪些鬼?
简略的诗句虽然幸好,但是一到长短句,如何就翻译成那样了?
不过,谷歌也说过,此次主要实现的是古文文和现代文互译,说明其他语言在翻译成古文文之前,应当也须要先翻译成现代文。
那来瞧瞧谷歌的英译中疗效怎样样:
破案了,谷歌的英译中确实不太行……可能只是造成中文翻译成古文文出现失误的诱因。
相比之下,从古文文翻译现代文、再翻译到英文的疗效要稍为好一点。
顺带一提,但是正经的德语字句翻译得不太行,不过在这些词语的翻译上……竟然也有点文艺?
看来之后可以和翻译模型学习怎么性感地脏话了。(自动狗头)
假如你们还勾引出了何种好玩的翻译,欢迎留言~
谷歌古文文翻译地址:
参考文献
[1]#11[2]
- 上一篇: 七夕节的“乞巧节”,你知道几个?
- 下一篇: 高中语文:文言文翻译的步骤及步骤,建议收藏!