白癜风有什么症状图 http://baidianfeng.39.net/a_yqyy/140224/4342824.html
武汉疫情期间,我们通过电话总共筛查出1.4万有发热症状的人群,相当于帮医护人员把范围缩小了倍,可以更精准地找到这些人,提前为他们治疗。
我们听到一声惨萌惨萌的叫声。养猪户赶紧跑过去,一看,是大猪给小猪喂奶时没注意,把小猪压住了。
在公共场所的嘈杂环境下,如果需要用语音转文字,其实对手机说话时稍微隔远一点点距离,效果反而更好。
年11月15日,“科普中国-我是科学家”第29期“听!奇妙的声音”演讲现场,科大讯飞研究院院长助理、语音识别高级研究员孙境廷带来演讲:《让机器能听会说,我们来做一场“模仿游戏”》。
孙境廷演讲视频:
以下为孙境廷演讲实录:
.10.25合肥
我是孙境廷,来自一家专注于智能语音技术的人工智能公司——科大讯飞。
我昨天坐高铁时,听见候车厅里一直在播报:“旅客朋友们你们好,开往北京南的列车马上要发车了,请您赶紧去检票。”我记得,以前高铁候车厅里还有专门的播音员,一天下来要讲很多话,嗓子会很累,但现在,我们已经可以用语音合成技术来做这件事情。
今天肯定有很多朋友开车来现场。我们上车第一件事就是打开语音导航软件,然后选一个喜欢的明星语音包。现在的导航软件里,有上千万甚至上亿的地点名称。我们不可能真让这些明星来录制,往往都是通过语音合成手段合成出来的。
我晚上睡觉前喜欢听书——现在我们在手机软件上已经不叫看书,叫听书,因为这么多文字内容都可以通过语音合成出来。比如,得到App里罗振宇的声音就是科大讯飞合成出来的。还有学习强国App里的新闻播报,每天有非常多消息推送出来,央广网的老师不可能无休无止地读,也是我们模仿了他们的声音,在软件上合成。
现在,“语音合成”已经不是新鲜事。
来之前,我翻箱倒柜,在公司数据库里找到了一段年的音频。当时我的老板们还是中科大的学生,这是他们在实验室里做出来的一个声音。语音质量听起来还是有点惨的。
到了年,语音的自然度明显高了很多,比较连贯。这一年,我们老板觉得技术做得不错,可以创业了,于是就有了科大讯飞这家公司。
从年起,科大讯飞一直在做智能语音的基础研究。来听听这段年的语音效果,确实每年都在进步。
那么,我们有没有可能把声音的效果做到和播音员一样?也就是说,我们有没有可能让机器去复制一位播音老师的声音?
央视有一位非常著名的播音员李易。你可能不熟悉这个名字,但你一定听过他的声音。“用事实说话,焦点访谈”——这句话就是李易老师的声音。
年李易为纪录片《再说长江》配音《再说长江》
年,有一档央视纪录片叫《创新中国》,讲的是科技。它的导演非常喜欢李易,很想用他的声音来配音。可是,李易已经于年去世了。
我们就让机器学习了几十个小时的李易的声音。后来我们用李易声音配音的这部纪录片效果怎么样?我们一起来听一听——
讯飞机器合成的李易配音
《创新中国》
这部纪录片播出时,很多央视的播音员、还有李易的学生都非常激动,因为能够重新听到老师的声音了。
可能会有从事播音工作的人担心,完了,以后我的工作是不是要被它替代了?实际上,我们做的事情是复刻和模仿。如果没有李易老师优美的声音作为声源让机器去学习,我们也没有办法去复刻。
既然可以让机器模仿播音员的声音,那我们有没有可能保留住亲友的声音?
音箱里的爸爸CCTV13新闻
年,就发生过一个令我们难过的故事:一位身患肺癌的父亲,想通过人工智能技术把自己的声音留存下来陪伴家人。讯飞的工作人员通过对他的音频数据进行技术处理,可以让音箱在发声时,模拟出他的声音,就像他在和家人说话。
视频中这位父亲留给儿子一个音箱,第二天一大早又坐车回老家接着治疗,再也没有回来过。但我们相信,音箱里这个声音会一直陪伴他的孩子成长。
今年(年)大家共同经历了疫情。1月下旬,历史上号称“九州通衢”的武汉封城。那时大家都关在家里,没有办法出去,不能互相接触。那么,在无接触情况下,如何才能最有效地联系到尽可能多的人,问问他的情况怎么样,让医护人员可以精准地找到这些人并提前给他们治疗?
我们能想到的最快的方法是打电话。我们没法让社区人员或工作人员打这么多电话,但机器可以。讯飞的机器可以在6个小时内打出万个电话。
智医助理电话随访机器人科大讯飞×智医助理
在武汉疫情期间,我们总共通过电话筛查出1.4万有发热症状的人。武汉有一千万人口,我们相当于帮医护人员把范围缩小了倍,这样就不用先挨家挨户排查,而是可以更精准地找到这些人。
刚刚视频中的电话声音就是我们通过机器合成出来的。考虑到当时的情况,我们在合成时选用了比较温柔的女声,可以给大家安抚,同时在通话过程中询问些问题,比“您还在武汉吗?”“有没有发烧的情况?”等等。
现在大家接到的很多电话外呼,几句对话内都分辨不出来是人还是机器。其中有一个比较关键的技术点,就是要让机器“能听会说”,这样才是一个完整的模仿游戏。
如何让机器听得懂人在说什么呢?甚至在刚才的视频中,这位接电话的先生还带有武汉口音,我们又该如何解决机器识别口音的问题呢?
人在发音时,其实就是肺部把一股气流冲上来变成声波,再通过口腔形状产生变化。普通话老师也会教大家,发某个音时舌头要怎么放、口形应该是什么样,通过调整口腔和声波的波形,来发出各种音。
同样,机器也可以通过麦克风来实现这种机制:麦克风上面有一个振片,就像耳朵里的鼓膜一样随声音一起振动,把声音转化成电信号。
这是三个不同的人说“语音识别”这四个字的声音频谱,看起来样子差不多。我听说过去有专门研究语音的语言学专家,看了非常非常多的图片后,可以只靠看图就能大概猜到这个人说了什么字或什么话,非常厉害。
你可以大致这样理解:机器读这张图,它猜测,既然其他人说“语音识别”这四个字的时候,声音频谱都差不多是这样,那这个声音频谱对应的也是“语音识别”这四个字。
有时候情况会变得更复杂一点。比如,环境里有噪音。噪音是非常烦人的问题,就像一层灰蒙在语音上。既然机器做语音识别本质是“读图”,如果有层灰蒙在上面,就看不清了;如果噪音更大一点(比如图三),就像灰变得更厚,基本上已经看不出语音图像的原貌了。所以噪音对于语音识别来说是一个非常困难的问题。
语音识别的准确率能达到多少?现在带货的网红直播非常多,包括第一代网红罗永浩老师。其实,罗老师早在年就带过我们的讯飞输入法。当时在发布会上,罗永浩老师随口说了一段话,讯飞输入法一字不差识别了出来。
现在大家用