【导读】近日,在极客公园大会上,搜狗同传最新版本 3.0 首次正式亮相。自 2016 年推出业内首个商用机器同传产品以来,经过数次迭代,搜狗同传 3.0 同样以业内首个“多模态”同传产品的身份出现在大家面前。相较之前的版本和市面上的竞品,搜狗同传 3.0 从技术层面进行了哪些变革性的改进?在媒体沟通会上,搜狗 AI 交互技术部总经理陈伟向我们解答了这些疑问。
整理 | 夕颜
出品 | AI科技大本营(ID:rgznai100)
业内首创语境引擎,会听、会看、会思考
在这样一套系统下,新的同传系统可以更像一个专家和内行一样的解读和翻译大会,提高同传的质量和效率。
陈伟将搜狗同传 3.0 总结为三个能力升级:
感知能力:单模态→多模态感知能力升级,结合语音、视觉等信息进行理解;
认知能力:可以理解、推理,在语境引擎帮助下理解语境信息,提取演讲核心与相关专属内容,并通过知识图谱对内容进行拓展,形成演讲者相关语境信息;
实时定制化:实时捕捉分析PPT核心词汇,为每个演讲生成定制引擎,并基于语音引擎生成的个性化知识做实时增强。
具体来说,搜狗同传 3.0 首创语境引擎,让翻译系统会听、会看、会思考。
“因为演讲过程中每个人都有一套自己的话语体系,如果可以自动化定制语境就可以提高翻译质量和效率。因此,搜狗同传 3.0 构建了 语境引擎,能够实时学习 PPT 内容,通过 OCR,从之前的智能获取语音信息变成语音信息+OCR 获取的 PPT 信息结合起来,在演讲嘉宾讲话过程中预测语境,在推理过程中利用搜狗百科等知识,并围绕关键词做周边拓展,变成个性化语境知识,从而提升同传效果。”陈伟解释道。
因为背靠搜狗搜索引擎,搜狗同传在构建自己的知识图谱方面天然地具有优势,搜狗基于大量的数据积累生成自己高精度的知识图谱,对于同传而言就是一个天然的壁垒。
从1.0到3.0,搜狗同传的技术迭代之路
从 1.0 到 3.0,搜狗同传经过多次技术迭代,才拥有了理解和推理的能力。一路以来,搜狗同传创造了很多业内“首个”。比如 2016 年 11 月推出的搜狗同传 1.0 通用语音同传是首个商用机器同传产品,实现了语音同传的功能;2018 年,搜狗同传 2.0 集成TTS,首次实现语音到语音同传,并可根据用户语料实时定制,同时它还用上了首个英译中同传引擎;到 3.0,搜狗同传已经是一款业内首创的多模态+自主学习的同传产品,能听、会看,能理解、会推理是它的特点。
2.0 时代,搜狗同传会首先对文本进行规则化,让文本变得流利,丢弃一些语义词和停顿词等,但会遇到延时很大的问题。
那么,低延迟是如何实现的呢?原来是他们做了一个基于上下流的解码。
“其实翻译就是文本到文本的信息转换,但是同传产品为了降低延迟,话说到一半的时候就要翻译,我们做了一个 2.0 中是没有用到的信息模块,可以实时检测一段话中应该从哪一个句子开始断句,这样就可以大大降低了延迟。”搜狗赵超解释道。
一个小小的改进,其实可以很大程度上提高用户的体验。
这是搜狗机器翻译模块的演进过程。1.0 时代,搜狗同传采用 RNN 模型结构,这种模型结构能记住文本的历史信息,但同时存在一些问题,固有的顺序属性不仅阻碍了训练样本间的并行化,而且存在梯度消失或者爆炸问题,对历史记忆能力欠佳2.0 时代,机器翻译模型升级成为Transformer,这种模型自注意力机制,很好的解决了远程依赖性。
3.0 时代,翻译系统再次升级,采用基于翻译历史的流式解码和搜狗百科知识图谱的方法,这样不仅翻译得比较流畅,同传系统延迟也降低了,之前的延迟为 7 秒左右,而现在为 5 秒左右,拉近了与人工同传的距离。
机器翻译行业现状:机器翻译与人工之间的差距在拉近
机器翻译的历史可能比大多数人想象中都要久远,1954 年初,乔治城大学的实验的一台电脑成功将四十多条俄文句子自动翻译成英文,这一事件成为机器翻译史中的一个里程碑,标志着现代机器翻译的开端。60 多年过去了,机器翻译产品已经走进每个人的日常生活,在大型会议等场景下被广泛采用。
虽然翻译效果仍有待提高,但机器翻译已经成为提高翻译效率不可或缺的工具,并催生了一大批从事 AI 翻译研究的企业,国内有搜狗、腾讯、科大讯飞等,国外有谷歌、微软等。
翻译领域有些工作是有重复性的,包括同传领域,机器在某些方面会优于人工,比如知识面、领域知识的拓展性上,机器比真人的知识面更广阔,并能够快速查询背后海量的知识体系,这比真人在某些领域的翻译上的准确率更高。
陈伟表示,在支持了上千场会议之后,他们发现从成本上来看,机器翻译的成本一定是低于人工的,且边际成本会随着使用量增加越来越低。与人相比,机器翻译成本更低,需要支持的设备也更少,一台笔记本,一条视频线、一条音频线,连上就可以工作。
离线翻译仍是刚需
虽然全球范围内网络部署情况在日益好转,但是在偏远地区和一些特殊地带存在联网问题,因此,离线翻译至少目前来说还是一个相对刚性的需求。
一般来说,离线翻译的实现途径有两种,一是私有化部署,在笔记本里运行;二是在手机端部署。目前,搜狗同传3.0 已经具备了私有化部署的能力,但是在手机上运行同传,效果会大打折扣。
解决常识翻译还需要更完善的常识知识库
尽管已经存在了将近一个世纪,但常识翻译如今仍然是一个难题。通过构建常识知识库是解决这个难题的途径之一。
当真正面向工业级的信息系统时,陈伟认为不应该用模型翻译,一个工业级的翻译机器系统里面一定要有一定要有知识库。搜狗同传经过两三年积累下来的常识知识库是最大的一笔财富,在不断的面向更多的领域做同传时搜狗积累了不同领域的术语库,目前已形成了 600 多万对专业术语中英对照表。
机翻和同传面临的难题
现在,基于海量数据训练机器翻译系统,使得机器在感知能力方面越来越强。但是,在翻译上,机器与人还是存在着明显的差距。
机器现在可以做到“信”,“达”也大致可以做到,但是“雅”还是人做得更好。同时,AI 同传还面临着直译的问题,比如是否能 get 到一个笑话并恰当地翻译出来,以及理解、翻译谚语等。“可以看到,机器与人翻译最大的差距还是在语言上,所以搜狗要把重心回归到语言这件事上,”陈伟说道。
他还认为,如果要进一步优化机器翻译的准确率和效果,多模态一定是未来要抓住的一个抓手。如何更好地把从大量数据中抽取出来的知识用在同传中,这也是搜狗的核心任务,如何把自然交互+知识计算做好,计算出更多的知识给同传所用,是搜狗一直努力的方向。
多模态是人机交互的未来
搜狗团队自 2019 年 9 月份做了架构调整升级成 AI 交互事业部后,部门的核心是打造搜狗面向人工智能战略, 即自然交互+机器计算,围绕如何如何更好地把人和机器结合起来,交互走在前台,机器计算走在后台,共同构建起人机交互的核心路径。
陈伟提到,有人说语音交互可能会成为下一代交互技术最主要的模态,因为语音是人与人交流最自然的方式,但是他认为多模态的方式才是更自然的模式。因为人与人交流是视觉和声音结合起来的过程,从这一点上来说多模态是交互的未来。
那么,如何让人机交互更自然?搜狗提出几个主张,第一是多模态,交互一定不是单一模态的方式;第二未来会有虚拟人的存在,即合成主播。
未来,搜狗同传产品一定会走向 VPA(个人虚拟助手),成为一个软件形态的助理,可能放在硬件上、搜狗输入法或搜狗搜索上等。搜狗 VPA 是一个任务导向的形态,以对话为主。同传场景下,搜狗同传就是一种具备了同传能力的VPA,可以与人进行交互。
而说到虚拟人,他认为未来虚拟人呈现的形态不是一条声波在讲话,而是会被赋予一个高度定制化、个性化的虚拟形象,理想中的机器一定是一个虚拟人,可以与人自由对话。
多模态技术研究热点和未来发展
意识到多模态技术重要性的不仅是搜狗,很多公司都意识到这一点,并将研究成果落地到各种应用中,比如腾讯、优酷等视频网站平台,快手等短视频平台都将多模态技术应用于内容理解上,在获取用户和加强与用户的互动交流上起到了重要作用。
未来,多模态技术会向哪些方向发展呢?会出现哪些技术研究热点呢?
在陈伟看来,现在关于多模态的研究课题还是要从产品和实际需求倒推功能。比如一个静态的图像和一个有时间标签的语音信号如何融合?这就涉及到异构数据融合的问题。再比如,一张图片配上 10 秒钟的语音描述,唇语和语言这两个数据如何实现完全同步融合,这又涉及到一个新的问题。
另一个研究热点是多模态数据的问题,多模态数据获取是有难度的。
第三,多模态表达,比如讲一句话,在语义上如何进行对齐,提取同一需求的多模态特征,如何更好地跨越语义的鸿沟,异构数据如何融合,都是多模态技术会遇到的问题。搜狗现在要做多模态的人机交互,需要用到哪些模态信息,模态信息上如何针对已有的信息做融合,都是他们要做的工作。任务不一样,解决办法也会有区别。
采访嘉宾:
陈伟,搜狗AI交互技术部总经理,主要负责搜狗多模态人机交互技术的研发和产品化工作,研究方向涵盖语音、图像、自然语言等多模态领域,带领团队实现了行业中最前沿的人机交互技术,并重点推动了搜狗人机交互核心能力在输入法、AI录音笔、AI翻译机的全面应用。同时还主导推出了搜狗分身、搜狗同传、搜狗变声等前沿性的AI创新产品,不断带领团队探索人机交互产品和技术的未来。返回搜狐,查看更多
责任编辑: