美丽家乡宁夏彭阳:大山深处播绿人 收获美丽家乡

作者:编辑部日期:

分类:时时彩平台/技巧/

其实,从多人对话的音频里,分辨出哪段话是哪个人说的,早就不是新鲜问题了。不过,可以有新鲜解法啊。

  央视网消息:黄土坡上绿“江南”,说的是在宁夏南部山区的彭阳县。36年前,彭阳县森林覆盖率不到3%,干旱、缺水困扰着黄土高原上的这片贫困山区。30多年后,这里的面貌已经焕然一新。这是怎么做到的呢?

  白色云雾环绕绿水青山,走进彭阳县,这里的清新空气沁人心脾。如今这里的大部分地区都已经覆盖了树木,县里正在加紧绿化一些遗留的死角,这些地方是常人很难落脚的陡峭山坡。青壮年劳动力大多数外出务工了,留守的妇女承担起了绿化家园的责任。

  在山风伴奏下,46岁的王小娥唱起了秦腔,大山是背景,舞台则是陡峭的山坡。

彭阳县草庙乡曹川村村民王小娥

  彭阳县草庙乡曹川村村民王小娥:唱一下子,精神就起来了,就不乏了。

  王小娥种树的地点距离她家有60多公里,,每天要花一个多小时的时间,乘车来这里种树。栽种一棵树能挣7毛钱,再加上搬运树苗的费用,每天大概能挣100块钱左右。

  彭阳县草庙乡曹川村村民王小娥:哎呦,今天尘土把眼睛填瞎了,背两大瓶子水都喝完了。

  和王小娥一起种树的还有这位65岁的老人王志梅,老人的孩子都外出打工了,老人也加入了种植队伍,盼着挣了钱能给孙子买礼物。

彭阳县草庙乡曹川村王志梅

  彭阳县草庙乡曹川村王志梅:挣下钱了,孙子回来了给买个这买个那,就给孙子了。

  在不远的一处山坡上,是王登萍姐妹三人的植树区,她们今天的主要任务是把带土丘的松树苗从公路背到植树的山坡上。在坡度60度左右的山坡上,王登萍背着40多斤的树苗,最远要走1000多米,来来回回搬运,陡峭的山坡都被踩出了一条路。

  彭阳县孟塬乡榆树村村民王登玲:580棵树,就背得剩上面哪几棵了,背得我不行了。

  从4月初到现在,彭阳县的植树工地上,每天都有500多人在忙碌着。他们被大家称为“播绿人”。栽种下树苗,收获的则是美丽的家乡,根据宁夏林业草原局统计,36年来,彭阳县累计造林203万亩,森林覆盖率从当初的3%增加到现在的28%。

8倍提升表现:谷歌新宁夏60算法,从多人对话里分清谁

凹非寺栗

量子位 报道 | 公众号 QbitAI

事实上,从多人对话的音频中区分哪个人说哪个段落并不是一个新问题。

不过,可以有新鲜解法啊 (毕竟从前的成绩不够好) 。

谷歌AI团队说,最近这20年套路都没变过,就分两步:

一是检测声谱的变化,确定说话人什么时候换了。

二是识别对话里的每个说话人。

他们不想被传统做法困住,开发了新方法:利用语音识别,把语言学线索和声学线索搭配食用,帮助区分。

团队还发现,要有机结合这两种线索,RNN-Transducer (RNN-T) 是最合适的架构。

最终结果,谷歌新模型把单词级的错误率 (WDER) ,从15.8%降到了2.2%。且多种错误情况皆有明显改善。

500多人在推特上发表了评论。

论文还中选了INTERSPEECH 2019。

传统方法缺陷在哪

谷歌团队总结了四个主要的局限:

第一,对话先要被拆解成单人片段。不然就没办法准确传达一个说话人的特征。

但事实上,现有的说话人变换检测方法不完美,会导致拆分出的片段里,还是有多个说话人。

第二,聚类的时候,必须要知道总共有多少个说话人。这个信息如果不准确,就会严重影响模型的表现。

第三,系统需要在拆分片段的大小上面,做一个艰难的权衡。

片段越长,嗓音名片的质量就越好,因为每个说话人的信息多了。但风险在于,短暂的插话 (Short Interjections) 容易被判断错误。

这在医疗或金融领域的对话上,都可能产生很严重的后果。

例如,医生问病人,“你按时吃药了吗?”

患者回答“有 (Yes.) ”,时时彩平台,和医生问“有么 (Yes?) ”,差别是很大的。

第四,传统方法没有一个简单的机制,来利用好语言学线索。

比如,“你用药多长时间了?”通常是医生问的,不是患者问的。

所以,这些坑要怎么填呢?

得天独厚的RNN-T

RNN-T这个架构,原本是在语音识别上大展拳脚。

而团队发现,它最适合用来把声学和语言学的线索整合到一起。注意,语音识别和说话人区分,不是暴力结合,是优雅地整合成了一个简单系统。

RNN-T模型,由三个不同的网络组成:

一个是转录网络,或编码器,它将每一帧音频映射到一个潜在的表示。

二是预测网络,负责根据前面的目标标签 (Target Labels) ,预测下个目标标签。RNN-T能预测的符号 (Symbol) 更丰富,如说话人角色 (Speaker Role) ,如发音 (Pronunciation) 。

三是联合网络,把前两个网络的输出结合起来,在输出标签的集合上,生成一个当前时间步的概率分布。

划重点,架构里有一个反馈循环 (Feedback Loop) 。在这里,先前识别出的单词都会作为输入,反馈回去。

这样,RNN-T模型就能利用语言学的线索了:比如一个问句结束,很可能是要换人了。

谷歌说,这个模型可以像训练语音识别系统那样训练:

训练样本,是一个人说的话加上一个标签 (Tag) ,用来定义说话人的角色。比如:

“作业什么时候交?”<学生>

“明天上课之前交。”<老师>

训练完成,就可以输入一段语音,得到每个字的分类结果了。

那么,和基线对比一下,来看成果如何。

主角是把语音识别 (Speech Recognition) 和说话人区分 (Speech Diarization) 结合成一个系统,基线是把两者分开再适配:

结果,说话人的单词二化错误率从基线的15.8%下降到新方法的2.2%。

此外,RNN-T可以有效避免各种原因导致的错误,包括:

说话人在很短的时间里发生变化,单词边界 (Word Boundaries) 处的切分,语音重叠造成的数据集说话人标注错误,以及音频质量差的问题。

红色是RNN丁字裤,蓝色是传统的方法。每个错误都大大减少了。

团队还补充说,RNN-T系统在各种不同的对话里,平均错误率比传统方法更稳定:方差更小。

传送门

论文在这里:

https://arxiv.org/abs/1907.05337

博客在这里:

https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speaker.html

本文标签:

相关阅读

关键词不能为空
技巧推荐

幸运标签

综合门户,更新快,资讯全