当前位置：首页 >新闻动态 >快手账号交易

除去唇语识别，AI还有什么方式悄悄听懂你的话

2019-05-20

小时候看特务电影时，特工们往往有一项必备的技能，就是隔着几百米远盯着正在说话的对象，从嘴型判断出对方在说什么。

有了这种记忆，导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂，算什么AI好汉。

不过最近一项专利申请表明，微软正在向特工学习，推出了无声语音识别技术。当AI也能像特工一样，无声之中辩人言，我们的世界究竟会有什么不同？

除去唇语识别，AI还有什么方式悄悄听懂你的话？

说起无声语音识别，可能很多人第一反应就是复制人类的方式，利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久，但是识别的准确率一直不算高。

DeepMind曾在2016年做过测试，经过1万小时的新闻视频训练，AI唇语准确率达到了46.8%。

国内有一家企业曾经提供过相关数据：在对中文新闻视频的识别中，准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别，因为涉及到的词汇量很少，准确率能够达到90%。

可以发现，相比现在主流语音识别动辄95%、97%的准确率，唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好，对于英文这种连音很多的语言来说，唇语识别要跨越的门槛确实不少。

另一方面来看，唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远，如果这种技术真的发展成熟，意味着天网之下的我们在交谈时将再无隐私。

在隐私焦虑越来越浓的今天，哪家企业公开研究这项技术，只怕是觉得自己家的公关部门过得太清闲。因此包括微软在内的产业和学界，都在寻找一种更精准也更隐私的无声语言识别。

目前看来，无声语音识别的技术方向可以被分为两个“派系”，一是“气宗”，另一个是“电宗”。

微软所提交的专利，就是典型的“气宗”——在终端上添加传感器，通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风，置于用户嘴边，用户在说话时形成的气流会在设备中形成反射，经过训练，可以将这些气流反射的信号和文字一一对应。