导语:2017年9月初,这家位于德国科隆的公司声称,DeepL 在盲测中以压倒性优势击败了谷歌、微软与 Facebook 的 NMT 系统。
简介
DeepL翻译,号称实现了 NMT 技术的新突破,打造出了“世界上最精确、语言组织最自然的机器翻译系统”;目前DeepL在最新版本增加了对日语和中文(简体)的支持,包括日语汉字,平假名和片假名以及数千个汉字。DeepL支持的语言数量增加到11种,虽然语言支持不如其他翻译服务广泛,如Google Translate和Bing Microsoft Translator均支持一百多种不同的语言,但翻译精度也是不可忽视的关键点。并发布 API,让开发者能够将 DeepL 翻译整合入其应用中。
公司前身
首先要说,这家公司的来历并不简单。
公司的前身是运营已近十年的在线外语词典 Linguee,DeepL 翻译也完全由 Linguee 团队打造。Linguee 在国内没什么存在感,至于在海外……有谷歌翻译专美于前,存在感也不是很高,但还是有一批认可它的用户。
不过,Linguee 的成败现在已经不重要,毕竟都换马甲了——Linguee 在今年正式更名 DeepL,以“Deep”提醒 VC 自己是一家正儿八经的深度学习公司。
真正重要的是 Linguee 的技术积累。Linguee 由前谷歌翻译研究员 Gereon Frahling 在 2007 年离职开发,2009 年正式上线。就雷锋网所知,Linguee 的核心优势是它的爬虫和机器学习系统,前者抓取互联网上的双语对照翻译,后者对这些翻译的质量进行评估。两者结合,使 Linguee 成为了当时“世界上首个翻译搜索引擎”。十年积累,Linguee 无论在数据和对算法的研究上都不可小觑。
三大优势
- 数据
Linguee 的数据集有逾十亿组对照翻译语句,号称是世界上最大的人工翻译数据集。 Linguee 能随时搜索近似翻译结果。 - 计算力
DeepL 在冰岛搭建了一台超算,号称在全球 HPC 中性能排名第 23 位,浮点运算能力达到 5.1 petaFLOPS。因而能实现令 DeepL 十分自豪的计算速度:每秒处理百万量级的词语翻译。 - 算法
采用 CNN 而不是 NMT 产品通用的 RNN。DeepL 宣称其技术积累使得它能够克服 CNN 的主要短板,因而能实现比基于 RNN 的竞品算法更精确、自然的翻译结果。
效果展示
DeepL 宣称其翻译系统的表现打败了谷歌翻译以及微软、Facebook 的 NMT 系统, 是基于两个指标:盲测反馈和 BLEU 分数。
盲测
DeepL 邀请了职业翻译者,对 DeepL 翻译、谷歌翻译、微软翻译以及 Facebook 的 NMT 系统进行了盲测,要求测试者选出所认为的最好的翻译结果。测试语言为三组,分别是英德、英法、英西互译,样本为 100 个句子。DeepL 并未公布每组参与测试的职业译者数量。测试结果如下:
BLEU
BLEU 是业内评估机器翻译质量最常用的打分算法,其得分被认为与人类的评判结果具有较大相关性。
DeepL 宣布,其英译德、英译法的 BLEU 得分超过了所有已发表的 NMT 研究,包括谷歌 Transformer。结果如下:
说了这么多,还是那句话,真真假假还是自己试了才知道,有兴趣的同学可以亲自动手试试。
官方链接:https://www.deepl.com/translator
写论文 deepl + Google 哈哈