我们听到一声惨萌惨萌的猪叫声,解救了一只_猪的天敌

武汉疫情期间，我们通过电话总共筛查出1.4万有发热症状的人群，相当于帮医护人员把范围缩小了倍，可以更精准地找到这些人，提前为他们治疗。

我们听到一声惨萌惨萌的叫声。养猪户赶紧跑过去，一看，是大猪给小猪喂奶时没注意，把小猪压住了。

在公共场所的嘈杂环境下，如果需要用语音转文字，其实对手机说话时稍微隔远一点点距离，效果反而更好。

年11月15日，“科普中国-我是科学家”第29期“听！奇妙的声音”演讲现场，科大讯飞研究院院长助理、语音识别高级研究员孙境廷带来演讲：《让机器能听会说，我们来做一场“模仿游戏”》。

孙境廷演讲视频：

以下为孙境廷演讲实录：

.10.25合肥

我是孙境廷，来自一家专注于智能语音技术的人工智能公司——科大讯飞。

我昨天坐高铁时，听见候车厅里一直在播报：“旅客朋友们你们好，开往北京南的列车马上要发车了，请您赶紧去检票。”我记得，以前高铁候车厅里还有专门的播音员，一天下来要讲很多话，嗓子会很累，但现在，我们已经可以用语音合成技术来做这件事情。

今天肯定有很多朋友开车来现场。我们上车第一件事就是打开语音导航软件，然后选一个喜欢的明星语音包。现在的导航软件里，有上千万甚至上亿的地点名称。我们不可能真让这些明星来录制，往往都是通过语音合成手段合成出来的。

我晚上睡觉前喜欢听书——现在我们在手机软件上已经不叫看书，叫听书，因为这么多文字内容都可以通过语音合成出来。比如，得到App里罗振宇的声音就是科大讯飞合成出来的。还有学习强国App里的新闻播报，每天有非常多消息推送出来，央广网的老师不可能无休无止地读，也是我们模仿了他们的声音，在软件上合成。

现在，“语音合成”已经不是新鲜事。

来之前，我翻箱倒柜，在公司数据库里找到了一段年的音频。当时我的老板们还是中科大的学生，这是他们在实验室里做出来的一个声音。语音质量听起来还是有点惨的。

到了年，语音的自然度明显高了很多，比较连贯。这一年，我们老板觉得技术做得不错，可以创业了，于是就有了科大讯飞这家公司。

从年起，科大讯飞一直在做智能语音的基础研究。来听听这段年的语音效果，确实每年都在进步。

那么，我们有没有可能把声音的效果做到和播音员一样？也就是说，我们有没有可能让机器去复制一位播音老师的声音？

央视有一位非常著名的播音员李易。你可能不熟悉这个名字，但你一定听过他的声音。“用事实说话，焦点访谈”——这句话就是李易老师的声音。

年李易为纪录片《再说长江》配音

《再说长江》

年，有一档央视纪录片叫《创新中国》，讲的是科技。它的导演非常喜欢李易，很想用他的声音来配音。可是，李易已经于年去世了。

我们就让机器学习了几十个小时的李易的声音。后来我们用李易声音配音的这部纪录片效果怎么样？我们一起来听一听——

讯飞机器合成的李易配音

《创新中国》

这部纪录片播出时，很多央视的播音员、还有李易的学生都非常激动，因为能够重新听到老师的声音了。

可能会有从事播音工作的人担心，完了，以后我的工作是不是要被它替代了？实际上，我们做的事情是复刻和模仿。如果没有李易老师优美的声音作为声源让机器去学习，我们也没有办法去复刻。

既然可以让机器模仿播音员的声音，那我们有没有可能保留住亲友的声音？

音箱里的爸爸

CCTV13新闻

年，就发生过一个令我们难过的故事：一位身患肺癌的父亲，想通过人工智能技术把自己的声音留存下来陪伴家人。讯飞的工作人员通过对他的音频数据进行技术处理，可以让音箱在发声时，模拟出他的声音，就像他在和家人说话。

视频中这位父亲留给儿子一个音箱，第二天一大早又坐车回老家接着治疗，再也没有回来过。但我们相信，音箱里这个声音会一直陪伴他的孩子成长。

今年（年）大家共同经历了疫情。1月下旬，历史上号称“九州通衢”的武汉封城。那时大家都关在家里，没有办法出去，不能互相接触。那么，在无接触情况下，如何才能最有效地联系到尽可能多的人，问问他的情况怎么样，让医护人员可以精准地找到这些人并提前给他们治疗？

我们能想到的最快的方法是打电话。我们没法让社区人员或工作人员打这么多电话，但机器可以。讯飞的机器可以在6个小时内打出万个电话。

智医助理电话随访机器人

科大讯飞×智医助理

在武汉疫情期间，我们总共通过电话筛查出1.4万有发热症状的人。武汉有一千万人口，我们相当于帮医护人员把范围缩小了倍，这样就不用先挨家挨户排查，而是可以更精准地找到这些人。

刚刚视频中的电话声音就是我们通过机器合成出来的。考虑到当时的情况，我们在合成时选用了比较温柔的女声，可以给大家安抚，同时在通话过程中询问些问题，比“您还在武汉吗？”“有没有发烧的情况？”等等。

现在大家接到的很多电话外呼，几句对话内都分辨不出来是人还是机器。其中有一个比较关键的技术点，就是要让机器“能听会说”，这样才是一个完整的模仿游戏。

如何让机器听得懂人在说什么呢？甚至在刚才的视频中，这位接电话的先生还带有武汉口音，我们又该如何解决机器识别口音的问题呢？

人在发音时，其实就是肺部把一股气流冲上来变成声波，再通过口腔形状产生变化。普通话老师也会教大家，发某个音时舌头要怎么放、口形应该是什么样，通过调整口腔和声波的波形，来发出各种音。

同样，机器也可以通过麦克风来实现这种机制：麦克风上面有一个振片，就像耳朵里的鼓膜一样随声音一起振动，把声音转化成电信号。

这是三个不同的人说“语音识别”这四个字的声音频谱，看起来样子差不多。我听说过去有专门研究语音的语言学专家，看了非常非常多的图片后，可以只靠看图就能大概猜到这个人说了什么字或什么话，非常厉害。

你可以大致这样理解：机器读这张图，它猜测，既然其他人说“语音识别”这四个字的时候，声音频谱都差不多是这样，那这个声音频谱对应的也是“语音识别”这四个字。

有时候情况会变得更复杂一点。比如，环境里有噪音。噪音是非常烦人的问题，就像一层灰蒙在语音上。既然机器做语音识别本质是“读图”，如果有层灰蒙在上面，就看不清了；如果噪音更大一点（比如图三），就像灰变得更厚，基本上已经看不出语音图像的原貌了。所以噪音对于语音识别来说是一个非常困难的问题。

语音识别的准确率能达到多少？现在带货的网红直播非常多，包括第一代网红罗永浩老师。其实，罗老师早在年就带过我们的讯飞输入法。当时在发布会上，罗永浩老师随口说了一段话，讯飞输入法一字不差识别了出来。

现在大家用

转载请注明地址:http://www.zhuadw.com/asjt/9389.html

上一篇文章：家里大猪蹄子必看准爸爸生存指南

下一篇文章：没有了

热点文章

没有热点文章

最新文章

热点文章

推荐文章