凭借听、读、译三大功能,对话式人工智能(AI)正逐渐深入人们的生活,成为解放双手和提高生产力的关键工具。
当你说话时,对话式 AI 能实时将你说的话记录成文字,甚至可以实时翻译成其他语言。
当你听不懂、记不住医生叮嘱的药物或治疗方案时,接受过海量医学文本训练的对话式 AI,能帮你准确地记下全部医嘱。
当你因为开车等原因不方便看手机时,对话式 AI 能将屏幕上的文字读给你听。
它既能做稳定的速记员,也能胜任专业的翻译官,越来越多企业采用对话式 AI 来改善工作效率与优化客户支持。
不过,要开发出一款优质的对话式 AI,并不是一件容易的事。如果只追求最快的响应速度,难免牺牲语音识别、语言理解、语音生成的质量,而如果过于重视质量,可能会响应的不够及时。
怎样能快速开发出高质量的对话式 AI,满足专业的转录和编译需求?知名硅谷芯片巨头 NVIDIA 刚刚推出了一个相当有用的工具。
一、降低实时对话式 AI 开发门槛的神器
2020 年初突然爆发的新冠肺炎疫情正刺激企业 AI 的应用,从远程教育、远程办公、客户服务到医疗健康,众多行业加速出现对 AI 的需求。
知名市场调研机构 IDC 的数据显示,2019 年全球对话式 AI 的支出约为 58 亿美元,这一数字有望到 2023 年攀升至 138 亿美元。其中,中国对话式 AI 市场规模有望从 2019 年的 5.761 亿美元增至 2023 年的 18.593 亿美元,年均复合增长率(CAGR)为 34.0%。
什么是对话式 AI?简单理解,就是一种能自动理解人类语言的系统,使得人与机器的交流像人与人之间的交流那样轻松、自然而高效。
想想我们的日常沟通过程,我们不会向对方发出固定的指令,而是用自然的语言进行交流。
而要让机器更加自然、拟人化的与人类互动,需要先让机器理解你所说的话,即时了解上下文和语言,判断话的意图和隐藏含义,并以最自然的对话方式做出回应。
在疫情刺激下,英国高性能语音识别服务供应商 Intelligent Voice 发展势头相当迅猛,几个月内即推出了新产品 Myna,能连接到虚拟会议工具,自动记录、将录音转换成文本并发送文本记录。
Myna 得以快速实现的秘密武器,即是 NVIDIA 去年 5 月首次公布的实时对话式 AI 模型工具 Jarvis。
Jarvis 是一个基于 NVIDIA GPU 提供实时性能的灵活、多模态对话式 AI 服务应用框架。
“Jarvis 采用多模态的方法,将自动语音识别的关键元素与实体和意图匹配相融合,满足需要高吞吐量和低延迟的新用例的需求。Jarvis API 不但易于使用,还能整合和自定义客户的工作流程,实现性能优化。”Intelligent Voice 首席技术官 Nigel Cannings 说。
另一家创建阿拉伯语虚拟助手的公司 InstaDeep 同样是 Jarvis 的早期采用者。通过 Jarvis 中的 NeMo 工具包,这家公司对阿拉伯语语音–文本模型进行微调,将单词错误率降低至 7.84%。
通过早期采用者的反馈与优化,Jarvis 逐渐实现了更高的吞吐量和更低的延迟。在打磨成熟后,NVIDIA 于昨日正式推出 GPU 加速的 Jarvis 1. 0 公测版。
二、延时小于 300 毫秒,开发速度提升高达 10 倍
Jarvis 1. 0 公测版中包含用于构建和部署实时对话式 AI 应用程序的端到端工作流程,使开发者能轻松实现实时语音识别、转录、翻译、封闭式字幕、虚拟助手和聊天机器人等功能。
它对于改善企业服务非常友好。如果从头开始构建对话式 AI 服务,必然需要深厚的 AI 专业知识、海量数据和充足的计算资源,而由 NVIDIA GPU 加速的 Jarvis 框架使开发者无需为这些成本而烦忧。
Jarvis 的一大能力是定制解决方案。基于 NVIDIA Jarvis,企业开发者能很容易地用专有的视频和语音数据,对最新模型进行微调,从而更深入地理解特定上下文,并对推理进行优化,从而构建针对其自身行业、产品和客户特征而量身定制的高质量、端到端实时对话式 AI 服务。
这些服务运行时间不到 300 毫秒,在 GPU 上的吞吐量比 CPU 高 7 倍。
如图是对话式 AI 的工作流程。首先是自动语音识别(ASR),整个系统需要先输入音频、提取特征,用声学模型尝试找出特定声音生成相应的等效词,从而识别语音音频并生成对应文本;然后借助 Jarvis,可以实现机器翻译、搜索、意图识别、语言分析、问答系统等自然语言理解(NLU)服务;最后从这些服务获得文本作为输出,通过语音合成(TTS)技术和语音编码模块生成像人类声音的对应语音。
此次发布的 Jarvis 提供有多个新型对话式 AI 预训练模型,包括基于数千小时语音数据训练的 ASR、NLU 和 TTS 模型,提供使用一行代码部署服务的端到端工作流程和工具,并支持迁移学习工具包(TLT),方便企业根据自己的具体用例和领域调整应用。
其迁移学习工具包是一个拖放界面,不需要任何先验编码经验,即可采用自定义数据通过零编码的方法,快速重新训练模型。
开发者可以再训练 TLT,也可以探索用于构建和训练 GPU 加速的对话式 AI 模型的 Python 工具包 NeMo,然后用 Jarvis 集成使用最先进的 AI 语言模型进行语音识别、语音合成、语义理解的虚拟助手,未来 Jarvis 还将支持计算机视觉服务。
通过 Jarvis,企业可以获得各种先进的模型、通过 TLT 迁移学习将开发速度提升高达 10 倍,以及全面优化的 GPU 加速流程,从而创建能理解每家公司独特专业术语的实时智能语言型应用。
其全面加速的深度学习流程经过优化,可作为可扩展服务运行。
即日起,NVIDIA Jarvis 和 TLT 可供 NVIDIA 开发者计划成员免费下载。
三、对话式 AI 正改变各行业服务体验
NVIDIA Jarvis 服务现有的三大功能分别是语音识别、语音合成、自然语言理解。
其语音识别服务有不同的模式选择,可以使用不同采样率,可用于语音识别的英语语音数据已经被训练了 7000 个小时,并提供有 Jasper、Quartznet 等不同声学模型,全流程端到端优化。
其语音合成有流模式和批处理模式,支持 22kHz 采样率,提供 acoTron2、Waveglow 等模型和完全端到端优化的流程。
如果要识别特定领域的实体,Jarvis 的自然语言理解模型即可提供帮助,该服务提供高级 NLP API 和低级 API,能满足命名实体识别、领域分类、分别标签等需要。
例如,在医疗健康领域,眼科医生进行远程诊疗时,自然语言理解服务能识别医学文本的实体,在对话过程中能检测出哪些医疗实体,辅助终端系统为患者进行诊断。
除了医疗健康外,NVIDIA Jarvis 也正为政务、金融、消费者服务等更多行业带来新的机遇。
企业和政府机构每天都要记录数以千万计的通话,但通过搜索提取这些通话中的关键信息几乎难以实现。而通过 Jarvis 把录音转换成文本,就可以利用 AI 工具快速搜索并分析这些数据。
在金融领域,以用 AI 颠覆金融分析行业而闻名的英国公司 Kensho 用 NVIDIA 对话式 AI 开发了金融和商业语音识别解决方案 Scribe,该方案据称在财报电话和财务音频方面的准确率比同类其他商业解决方案高出约 20%。
得益于在推荐引擎 Merlin、对话式 AI Jarvis 等关键框架的押注,NVIDIA 正不断强化其数据中心业务的软件优势。
本周 NVIDIA 刚刚公布的最新财报显示,其数据中心业务在截至 2021 年 1 月 31 日的第四季度创下 19 亿美元收入新纪录,同比增长 97%,全年收入创下 67.0 亿美元的纪录,同比增长 124%。
结语:加速对话式 AI 落地普及
通过虚拟助手、实时转录、聊天机器人等形态,对话式 AI 正带给企业客户更多沉浸式的体验。
随着越来越多企业及消费者拥抱数字化,更多中小型机构也开始在其联络中心部署更具个性化的对话式 AI 功能,而开发部署的成本与复杂性,往往是制约这一趋势的核心难题之一。
而 NVIDIA Jarvis 1. 0 公测版的推出,降低了实时对话式 AI 开发的准入门槛,有望推动未来对话式 AI 在更多行业的普及落地。