自动语音识别范文

2024-09-16

自动语音识别范文(精选10篇)

自动语音识别 第1篇

唇腭裂是我国发病率最高的先天性畸形性疾病之一,据国家出生缺陷检测中心公布的资料,我国新生儿唇腭裂的发生率为0.182%[(1),腭裂会导致腭裂语音的产生。腭裂语音辅音省略的识别对腭裂语音评估有十分重要的临床意义。目前,国外学者对于病理语音的识别评估研究主要集中于将病理语音与正常语音的区分上,对辅音省略的研究比较少。国内学者对腭裂语音辅音发音特点进行了研究,得出了腭裂语音存在辅音省略、辅音替代以及能量集中区偏移等现象(2)。但是没有对辅音发音错误类别进行客观判别的研究,也没有对腭裂语音具体属于辅音省略或者辅音替代进行进一步识别。针对这种现状,本文提出了基于HMM和LPCC的腭裂语音辅音省略自动识别算法,实现对腭裂语音辅音省略的自动识别,为临床腭裂语音评估提供了客观依据,具有十分重要的临床意义。

腭裂语音声学特性

汉语普通话中音节=声母+韵母+声调,共有21个声母,39个韵母和4类声调。声母是不包括辅音/ng/的剩余21个辅音。按照发音方式和发音部位的不同,将普通话声母进行分类,分为不送气塞音b、d、g;送气塞音p、t、k;不送气塞擦音j、zh、z;送气塞擦音q、ch、c;擦音f、h、x、sh、s、r;鼻音m、n和边音l。元音在语谱图模式中仅有体现共振峰特性的横杠来表示[3],而辅音在语谱图上由横杠、冲直条、空白间隙和擦音乱纹以及噪音横条五种纹样来表示。腭裂语音发生辅音省略时,语谱图只剩下表示元音的部分,表示辅音的冲直条不明显,且无声段减少,如图1所示为/na/的完整音节(a)与发生辅音省略(b)的语谱图。

腭裂语音辅音省略自动识别算法

本文提取腭裂语音信号的LPCC特征参数,利用HMM模式识别方法,建立基于LPCC和HMM的自动识别系统,实现对腭裂语音辅音省略的自动识别.首先将腭裂语音信号进行预处理。然后提取LPCC参数,通过HMM模型,将测试语音与参考模板进行匹配,概率最大的为识别结果输出。系统流程图如下:

1预处理

由于实验所用信号在语音诊疗室录制,录音中会含有部分杂音、噪音,包括患儿的口齿不清及吞咽声等,我们需要对语音信号进行预处理。预处理部分包括加窗、分帧和端点检测。

本文由于发音器官的惯性运动,语音信号一般在10ms~20ms的时间内某些物理特征参量近似不变,所以,将进行语音信号处理时进行分帧、加窗处理。帧移一般为帧长的0~0.5倍。本文选用汉明窗(Hamming),数据采样率fs=44100,所以设定帧长为880,帧移为440。

端点检测的目的是在一段含有语音的信号中区分出语音的起止点和终止点,从而将语音分离出来。本文采用基于短时能量和短时过零率的双门限法来检测语音信号的起始点和终止点。根据每帧信号平均能量和短时过零率分别设置能量、过零率的高、低门限。高门限数值较大,语音信号达到一定的强度才能被超过,高门限被超过则可以确信是由信号段引起的。低门限数值较小,对信号的变化较敏感,容易被超过,但是噪声也可能引起低门限被超过。高门限数值较大,语音信号达到一定的强度才能被超过,高门限被超过则可以确信是由信号段引起的。

2 LPCC特征参数提取

语音信号含有丰富的信息,特征参数提取就是从大量语音信息中提取有意义的信息,去除冗余信息。本论文选取线性预测倒谱LPCC作为特征参数[6]。线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)是经线性预测编码(LPC)推导出来的,线性预测(Linear Prediction,LP)基本思想是:利用语音信号各采样点之间的相关性,用若干个语音信号过去时刻抽样值的线性组合来无限逼近现时刻的抽样值。最终通过使实际语音抽样值与线性预测抽样值的均方误差最小,来确定反映语音信号特征的唯一一组系数,也就是线性预测系数,这组系数可作为特征参数用于语音识别领域。

LPC模型表示为:对于给定n时刻的语音信号采样值s(n),可以用p个取样值的线性加权组合来表示。a1,a2…….ap称为LPC系数。关系表达式为:

为了计算LPC参数,定义起点为n的短时语音信号和误差信号。

式中sn(m)为抽样点n附近的一个语音段。

根据最小均方误差准则可求得ak。

LPCC是由LPC系数经过倒谱运算推导出来的。在语音信号的LPCC参数求解过程中,由于LPC系数已经求出,LPCC参数lm与LPC系数ak之间的关系式如下:

其中l0为直流分量,在识别中通常不用。LPCC的阶数p一般为10~16。本文取p=16。

3 HMM隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model,HMM)用来描述一个含有隐含未知数参数的马尔科夫过程,它是一种统计模型。在隐马尔科夫模型中,状态对于观察者来说不是直接可见的,但是某些受状态影响的变量对观察者是可见的[8]。而每一个状态在可能输出的符号上都有一个概率分布,因此输出符号的序列能够透露出状态序列的信息。

HMM用两个状态集合和三个概率矩阵来描述。两个状态集合为:隐含状态S,和可观测状态O。三个概率矩阵组成HMM三元组,包括初始状态概率矩阵a、隐含状态转移概率矩阵A=[aij](1≤i,j≤N)其中i>j时,aij=0。以及观测状态转移概率矩阵B=B=[bj(x)](1≤j≤N)。采用GM(Gaussian Mixtures)来计算状态输出概率函数矩阵,计算公式如下:

其中bjm(x)符合N[x,μjm,Ujm]的正态多维高斯分布。

Cjm是混合加权系数,满足下式:

式中M为混合数,本文选取M=3。

考虑到本文实验所用的实验数据量相对较大,本文选择了K-means算法进行模型训练。K-means工作原理描述[9]为:首先随机选择K个点作为初始聚类中心,然后计算各个样本到聚类中心的距离,把样本归到离它最近的聚类中心所在的类,这样就把该状态下的全部语音帧分成了M类语音,最后用每一类中包含的语音帧除以该状态的语音帧总数,就得到连续状态下的高斯混元权重系数,即得到新的一个三元组。

训练过程中已建立各个参考数据的HMM参考模型,在识别过程中先对测试语音做与参考语音相同的预处理,并求出特征值,即观测序列。然后利用Viterbi算法求出参考模板输出该观测序列的概率,最大概率对应的参考模板即为识别结果

实验仿真

1数据库

本文数据库为四川大学华西口腔医院“腭裂术后语音治疗中心”语音数据库,其语音师评估水平被行业认定为“金标准”,患者数量充足,各腭裂语音发音障碍类型全覆盖。为普通话腭裂语音研究提供了一个良好的数据库平台。该中心为卫生部中华医学会指定的全国语音师培训基地。其语音师的评估水平、准确度经过统计检验,被视为行业的“金标准”。2实验结果及分析

依据辅音发音方式不同,将实验数据分为两组,数据如表1所示。每个参考模板包含80个腭裂患者的语音,参考模板与测试模板按照4:1的比例进行分配。

本文识别正确率Rate的计算公式为:

Rate=(完整音节识别为完整音节数+辅音省略识别为辅音省略数)/测试模板总数(7)

将所有数据进行统计,结果如表2所示:

可以看出本文算法识别率达到了90%,取得了很好的识别效果。

小结

在对语音信号进行声学分析的基础上,本文提出了基于HMM和LPCC的腭裂语音辅音省略自动识别算法。实验结果表明,提出的自动识别系统能较好实现腭裂语音辅音省略的识别。该系统可作为临床腭裂语音评估的辅助手段,有重大的临床意义。

注释

1雷丽,腭裂语音治疗学[M],湖北科学技术出版社,2004.

语音识别系统 第2篇

菜场门口卖拖鞋的大妈很萌,我问她拖鞋多少钱一双?她说20元。我问10元行不行?她说,行,你要左脚还是右脚?

我兄弟文哥用Xbox One打NBA2014,热火对湖人,打到最后30秒还是平分,热火拥有球权。最后时刻,他控制小皇帝扣篮,可惜被帽。当时气极了,顺口说了一句口头语。这时候,游戏的语音识别系统立功了,裁判飞奔过来,判他辱骂裁判,给了他一个技术犯规。两次罚球后比赛结束,热火输给了语音识别系统。

小志有天晚上睡到半夜醒来,紧紧抱住妈妈说:“老妈,这辈子太短了……”

老妈被小志吵醒,感动得掉下眼泪,将小志紧紧抱住。小志接着说:“我大概是长高了,脚都露出来了。”

老妈:“我给你发消息,你为什么不马上回我?”

笋笋:“可我马上回你,你又要马上回我,我再马上回你,这就没完了。”

老妈:“可是你不回我,我该有多着急啊?”

笋笋:“老妈你得这样想,我们在进行乒乓球比赛,你抽过来,我抽回去,你再回一记扣杀,没动静了,说明你得一分……”

父与子

我为了研究按摩椅的工作原理,将老爸的按摩椅给拆了。老爸对我说:“你若安好,便是晴天。”

我心想,老爸变得这么文艺了,肯定是原谅我了。

想不到,老爸又说:“安不好,打屁股!”

小学生语录

手机没人打,短信没人发,上个QQ没人理,我被遗忘了。

我妈被附体了吗,每次说我之前,必然要加一句:“不是我说你。”

快乐轶事趣多多

语音识别研究 第3篇

语言是人类特有的功能, 是人们思维最重要的寄托体, 是人类交流最主要的途径。语音是语言的声学表现, 是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。

语音识别技术是让机器接收, 识别和理解语音信号, 并将其转换成相应的数字信号的技术。它是一门交叉学科, 涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。

2 发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统, 标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划 (Dynamic programming) 和线性预测分析技术 (Liner Predictive) 等重要成果。20世纪70年代, 语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络 (Artificial Neural Network) 在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代, 近年来发展迅速, 并取得了一系列的成果。

3 具体应用

随着计算机技术、模式识别等技术的发展, 适应不同场合的语音识别系统相继被开发出来, 语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来, 语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构, 语音识别技术的应用, 可免除大量操作人员的重复劳动, 既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号 (168自动信息服务系统, 112、114、119等信息查询系统) 等。许多特定环境下, 如工业控制方面, 在一些工作环境恶劣、对人身有伤害的地方 (如地下、深水及辐射、高温等) 或手工难以操作的地方, 均可通过语音发出相应的控制命令, 让设备完成各种工作。

当今, 语音识别产品不仅在人机交互中, 占到的市场比例越来越大, 而且在许多领域都有了广阔的应用前景, 在人们的社会生活中起着举足轻重的作用。

4 语音识别系统原理

语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较, 得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍:

(1) 语音采集设备如话筒、电话等将语音转换成模拟信号。

(2) 数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。

(3) 预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4) 参数分析是对短时信号进行分析, 提取语音特征参数的过程, 如时域、频域分析, 矢量量化等。

(5) 语音识别是目标语音根据特征参数与模型库中的参数进行匹配, 产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

(6) 应用程序根据识别结果产程预定动作。

(7) 该过程是语音模型的学习过程。

5 现有算法介绍

语音识别常用的方法有:模板匹配法、人工神经网络法。

(1) 模板匹配法是语音识别中常用的一种相似度计算方法。

模板匹配法一般将语音或单词作为识别单元, 一般适用于词汇表较小的场合。在训练阶段, 对用户语音进行特征提取和特征维数的压缩, 这个过程常用的方法是采用矢量量化 (VQ) 技术。然后采用聚类方法或其他方法, 针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算, 将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性, 所以识别时必须对语音时间进行伸缩处理。研究表明, 简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法 (DTW) 很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。

设测试的语音参数共有M帧矢量, 而参考模板有N帧矢量, 且M≠N, 则DTW 就是寻找一个时间归整函数tn=f (tm) , 它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上, 并使该函数满足第k帧 (k=1, 2, …M) 测试矢量I和第f (k) 帧 (f (k) =1, 2…N) 模板矢量J之间的距离测度之和最小:

另外, 在实际识别系统中, 语音的起点或终点由摩擦音构成, 环境噪声也比较大, 语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在 (tm, tn) = (1, 1) , 称为固定起点;也可以选择在 (1, 2) 、 (2, 1) 等点, 称为松驰起点。同样, 中止点可以选择在 (M, N) 点, 称为固定终点;也可以选择在 (N一1, M) 、 (N, M一1) 等点, 称为松弛终点。松弛的DTW 算法的起始点从 (1, 1) 、 (1, 2) 、 (2, 1) 等点中选择一最小值, 终止点从 (M, N) 、 (M, N-1) 、 (M-1, N) 等点中选择一最小值, 两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差, 但运算量加大。

(2) 人工神经网络法。

现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的, 想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统, 以便可以适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型 (前馈型) 。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播 (Back Propagation) 学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外, 还有许多其它的识别方法以及改进算法。

6 尚未解决的问题及值得研究的方向

(1) 就算法模型方面而言, 需要有进一步的突破。

声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言, 就必须在这一点上取得进展。

(2) 语音识别的自适应性也有待进一步改进。

同一个音节或单词的语音不仅对随着的讲话者的不同而变化, 而且对同一个讲话者在不同场合, 不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

(3) 语音识别技术还需要能排除各种环境因素的影响。

目前, 对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行, 这对多数用户来说是不现实的。在公共场合中, 如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统, 但在未来几年内, 语音识别系统的应用将更加广泛, 各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步, 一步步朝着更加智能化的方向发展。

摘要:语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用, 语音识别技术取得了很大的进步, 许多产品已经得以实际的应用, 但在其进一步的发展进程中, 还有许多棘手的问题有待解决。

关键词:语音识别,动态时间规整算法,人工神经元网络

参考文献

[1]杨尚国, 杨金龙.语音识别技术概述[J].福建电脑, 2006, (8) .

[2]孙宁, 孙劲光, 孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程, 2006.

[3]Phil Woodland.Speech Recognition.Speech and Language Engi-neering-State of the Art (Ref.No.1998/499) .

自动语音识别 第4篇

飞康CDP成功救灾基金公司业务系统

日前,国内某基金公司的IT管理人员发现,由于前一天的误操作,导致其清算系统已经全面故障,严重地影响到了当天下午的清算业务。清算系统是这家基金公司生产系统中最为核心的系统之一,发生故障将直接影响到前台的业务交易正常运行。因此,IT管理人员决定启用CDP灾备系统,将系统恢复到误操作前的最近时间点,以最快的速度恢复系统正常运行。在飞康技术人员的协助下,该公司利用飞康CDP的全回滚和生产磁盘增量同步技术,在1小时内就将出现故障的清算系统全面恢复了正常运行,避免了不可估计的业务、资产及名誉损失。

博科降低虚拟化IT环境中的网络复杂性

日前,博科公司宣布推出Brocade ServerIron ADX 4000系列扩展产品,其中包括高性价比的入门级机箱解决方案ServerIron ADX 4000 ASM-4捆绑包,能够提供业界领先的4~7层交换功能,以帮助客户实现按需、自动化数据中心计算的承诺。专为中型市场企业环境而设计的ASM-4捆绑包使客户能够体验模块化平台的灵活性和可扩展性优势。ASM-4模块可以通过许可证激活的方式按需扩展,使客户能够采用“按需付费”的投资方式,在不增加硬件或从网络移除交换机的情况下,使吞吐量翻一番,构建面向未来的负载均衡网络。

昆腾发布新款重复数据删除设备

机载语音识别系统分析 第5篇

关键词:语音识别,语音数据库,实验平台,主程序界面

一、语音识别技术概述

语音交流是人们彼此沟通和获取信息最为便捷和有效的途径, 在特殊的环境下, 与键盘人机互动, 手写人机互动等方式相比有着十分独特的优势。因此实现用人类自然语音代替键盘和计算机进行自由的交互, 将是信息技术的一大飞跃。因此, 实现智能人机语音交互一直是几十年来的研究热点, 它主要依赖于自动语音识别 (Automatic Speech Recognition) , 语音理解 (Speech Understanding) , 语音合成 (Speech Synthesis) 等诸多关键技术。

自动语音识别技术是实现人机交互中最关键最具挑战性的技术之一, 它的功能就是让计算机完成将信息从“声音”到“文字”的转换, 通过将人的语音直接转换为相应的文本或命令, 便于被计算机理解并产生相应的操作, 并最终实现人与机器之间的自然交互。语音识别是语音信号处理的重要研究方向, 属于模式识别的一个分支, 同时也涉及到声学、生理学、信号处理、语言学、心理学等多学科知识的交叉融合。

21世纪是人机交互的时代, 在民品领域, 人性化的交互界面成为各种电子产品、软件的关键性能之一, 而比尔盖茨更是大胆的预测, 未来的计算机将不再有键盘和鼠标等传统的输入设备, 取而代之的是语音交互和触摸。让设备和机器变得更加的智能化和人性化也已经在军事领域被日益重视, 特别是随着以F-35战机等一批新型军事设备中大量的采用语音识别等人机交互技术, 语音交互在减轻作战人员工作压力, 提高作战效率方面的作用已经被广泛认可。具体来说, 语音识别在军事领域主要有以下应用:

1. 设备操作的语音控制

对于不涉及设备安全性和攻击性的操作进行语音控制, 用以作为作战人员手动操作的快捷操作。对于需要经过多次菜单调用的操作, 可以用语音进行控制, 更加迅速。

2. 参数和设备状态的查询

对于设备一些重要参数的查询通过按键或者触摸方式往往需要通过多级的菜单操作, 才能得到正确的数据。利用语音识别技术可以更为快捷的实现查询, 作战人员直接说出查询命令, 语音识别系统即可完成相应的参数查询, 完成人机的快速交互。

飞行员可以使用语音识别通过说一个命令来简单地执行功能。它允许飞行员保持在HOTAS位置, 而不必频繁地移动手去输入数据、选择或控制设备、或同时低头看座舱。因此, 飞行员可以长时间保持抬头和使用HOTAS, 以及在诸如起飞、进场和着陆、编队飞行、空中加油、对地攻击、目视识别和空战格斗等关键任务期间保持抬头和使用HOTAS。语音识别允许飞行员交替执行分离的任务, 也可并行地执行任务。另外, 它提供对那些需要通过显示格式和页面的多层次耗时访问的许多功能的捷径访问。

可以看出, 语音识别技术能有效的减轻飞行员的工作压力, 提高作战效率。但是语音识别技术目前还未在国内现有型号军机上得到具体应用, 但通过语音识别技术在国外军机上的成功使用, 能看出该技术在军机上应用的可行性与其带来的好处。因此, 在国内新型军机的研制方案中, 已经确定要把语音识别技术应用于新型军机上, 用以提高新型军机的作战性能。

虽然语音识别技术在国内许多民用领域已经得到大量的应用, 但在国内军机领域的应用目前还是一个空白。因此, 要将语音识别技术应用于新型军机上, 不但需要以现有民用语音识别技术作为技术基础, 还需要解决将该技术应用于新型军机上所面临的许多工程性问题, 例如:需要解决飞机座舱内的噪声对语音识别的影响, 需要解决军机系统对语音识别出现错误的容忍能力, 需要解决语音识别软件在机载计算机环境下的运行及其实时性等问题。

因此, 为实现语音识别技术在国内军机上的应用, 需要事先开在一系列的应用研究, 解决将语音识别技术应用于国内军机上所面临的技术问题与工程问题。这对提高我国军机的作战性能有着重要的影响意义。

二、机载环境下语音识别系统设计

1. 系统总体设计方案

本设计是实现以PC环境为基础的模拟机载语音识别系统。该系统主要应用于机载环境中识别飞行员的操控指令, 并将识别结果反馈于系统, 以实现对包括通讯、导航、飞控等其他机载系统的控制, 从而实现语音识别与控制。

本语音识别系统是机载环境下, 非特定人命令词的小词汇量识别系统, 基本结构如下图所示:

系统的功能:操作者使用麦克风 (有源话筒) , 通过麦克风输入模拟音频信号, 输入的信号经过预处理模块后形成语音特征, 语音特征传入识别引擎, 引擎加载相对应的语法, 根据语法网络进行匹配, 最后将得出的识别结果输出。

系统的输入:操作者在机载环境下的自然语言。

系统的输出:识别后的文本内容, 可作为通讯、导航、动力等系统的输入。

实施的过程:主要包括“模型训练”和“数据识别”两个阶段。模型训练阶段中, 通过Cool edit音频处理软件收集用于声学模型训练的音频流, 并按照句子进行切割处理, 通过得到训练的样本提取语音特征并形成训练模型参数。数据识别阶段中, 按照已训练好的模型为基础对被测试语音进行模型匹配, 最后, 将似然度最高的词序列作为识别结果输出。

2. 系统实验平台

软件平台:Microsoft Multimedia API;Hidden Markov Model Tookit;Visual Studio2012;Cool Edit 2.1。

硬件平台:麦克风:麦克风采用飞利浦SHM1000/97有源话筒;PC机:通用型计算机, 配备Realtek High Definition Audio集成声卡。

3. 语音数据库设计

对于特定环境下的语音识别系统, 为其设计对应的语料并建立简单高效的语法网络是系统设计过程中十分重要的步骤。机载语音识别系统中以飞控指令为例, 我们收集海量的飞行员控制指令并建立语法网络。飞控指令主要是命令词形式, 语料数量比较有限, 适合使用小词汇量命令词语音识别系统。分析命令词语音规则, 指令大概可分为五种类别, 为孤立词、一槽命令词、二槽命令词、三槽命令词、四槽命令词。命令词示例分别如下:

在命令词汇中引入“洞”、“幺”、“两”、“三”、“四”、“五”、“六”、“拐”、“八”、“钩”与数字混合使用, 很大程度上提高了数字之间的区分性, 大幅度提高识别准确性。按照建立的语料库, 共召集数十人录制语音, 录制总量达到数万条。我们将基于这批语音数据进行模型的训练, 以及系统识别性能的测试。

4. 语音识别主程序界面展示

本语音识别系统的主程序界面如下图所示, 包括音频源、参数、语法、结果和消息总共五个部分。

音频源:系统的语音输入方式通过音频源确定, 本识别系统支持两种输入方式:通过麦克风输入和通过加载本地音频文件输入。中部的框图中显示出加载的音频数据波形。在波形图下方显示的是音频格式、长度和文件路径。音频源最下方的操作按钮包括“开始识别”、停止识别”和“回放”。

参数:可以设置当前引擎的识别参数。“用户语音超时”设置范围为1000-20000ms, 默认为4000ms;“用户反应超时”设置范围为1000-5000ms, 默认为3000ms;“灵敏度”设置范围为0-100, 默认为35;“忽略语音长度”默认为0毫秒。

语法:通过菜单栏中的“语法”按钮实现语法加载, 当加载完成后在语法列表框中会显示语法列表。

结果:当识别完成后, 在结果中显示出本次识别的结果。

消息:显示用户的部分操作和内核识别时的调用情况, 或者当内核调用出现问题的情况下, 也可以通过消息显示出内核的返回值。

三、机载噪声环境的鲁棒性语音识别技术研究

1. 优化调型特征及双流建模技术

汉语是一种有声调语言, 汉语中的每一个字都是以一个音节作为基本的发音单位, 音节和声调决定了这个字的发音。正确的调型对区别不同字或词起到了很关键的作用。因此, 加入声调的特征信息会对中文语音识别起到较大的促进作用。

为使声调特征信息与现有的隐马尔可夫模型体系相结合, 采用双流建模技术, 在双流声学模型中, 每一个HMM的状态单元包含两个分布, 一个用以描述频谱参数, 另一个用于描述调型参数。在训练过程中, 输入特征向量tO (包含频谱特征和调型特征) 被当作两个独立的流, 独立估计每个流的混合高斯参数, 对于每一个状态, 频谱分布和调型特征分布是用不同的高斯数来描述的, 这样就可以通过不同的复杂度的模型的不同特征参数的分布实现最优建模。

采用优化的基频提取算法和双流建模方式, 已经在多个研究任务上进行了论证, 是一种提升识别准确性的切实有效的方式。

2. 基于差分双麦克的语音降噪方法

在分析模拟机载环境数据时, 发现由于面罩空间有限, 造成较严重的喷麦现象, 对语音识别带来了不利干扰。而喷麦的产生主要是由于麦克位于口唇正前方, 且距离过紧造成。为了尽量滤除强噪声干扰, 消除喷麦现象, 提高呼吸面罩中麦克风的语音接收质量, 采用差分双麦克降噪方法改进音频接收的硬件设备。具体实现方法为:以呼吸面罩腔内点声源作为参考中心, 将两个相同单麦克左右对称分布, 并使音频信号输出同相端首尾直接串联差分输出。差分双麦克降噪方法的理论基础为:两个左右对称分布相距L的麦克风对同一轴线上的信号源的信号拾取存在相位角差φ, 其关系式为以内信号叠加会衰减的原理。

3. 差分双麦克降噪效果验证

综合考虑氧气面罩空间和重量的限制条件, 我们采用双麦克串联的方案改造面罩。且双麦克风位置位于两端, 也避免了飞行员说话时气流喷麦克风引起内部磁片摩擦而产生的喷麦噪音。

为考察差分双麦克在氧气面罩中的语音降噪和增强效果, 我们采集了两批数据, 第一批数据采用传统形式的面罩, 其中无双麦克降噪装置, 采音设备为单麦克风, 第二批数据则采用加装差分双麦克的面罩。两批数据语音内容相同, 分别包含10名录音人 (8男2女) 。语音文件采用16000Hz采样率, 16Bits量化精度, 单PCI声-9846道, pcm编码格式存储。

两批数据总量15000句, 每个人750句数据。录音语料由飞行员执行日常任务常用的命令词构成。按照命令词的复杂度可分为孤立词、一槽、二槽、三槽、四槽五类。我们希望通过一系列测试, 评估两批数据的识别效果, 并根据识别结果对比差分双麦克的降噪效果。我们使用Aitalk4.0原始模型分别测试两批数据的识别性能。

从结果可以看出, 对第一批和第二批数据有一致的特性, 虽然从三槽到四槽识别率有小幅度提升, 但是总体来看, 随着槽数量的增加识别率急剧下降, 这与槽数量越多, 语法复杂度越高, 识别难度越大有关。

另外, 第二批数据的识别率比第一批数据有了较大的提高, 尤其是对二槽、三槽、四槽语料的提升效果较明显, 同时平均识别率提升了20个百分点。因此, 采用差分双麦克风能够起到较好的语音消噪和增强的作用, 后续的实验也是在差分双麦克设备收集的数据基础上进行。

四、小结

有关语音识别技术的研究 第6篇

语言是人类获取信息的主要来源之一,是人类与外界交流信息最方便、最有效、最自然的工具,随着计算机技术的快速发展,语音技术的研究也越来越受到重视。人类对语音的研究主要包括语音编码、语音合成、语音识别和说话人辨识等几个方面。

语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,设计到语言学、生理学、心理学、计算机科学以及信号处理等学科。语音识别的目的是为了使机器能够准确地听出人的语音及其内容,以便控制其他设备来满足人类的各种需要,它是发展人机有声通信和新一代智能计算机的重要组成部分。

1 概述

语音识别[1,2]研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在20世纪60年代末70年代初。这是因为计算机的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语言信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效地解决了语言信号的特征和不等长匹配问题。

实验室语音识别研究的巨大突破产生于20世纪80代末。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特征都集成在一个系统中,比较典型的是卡耐基美隆大学的Sphinx系统。

20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。我国的语音识别研究的起步比先进国家晚一点,但是进步很快,成果突出。

2 语音识别系统原理

语音识别系统大体上可以划分为:孤立语音和连续语音识别系统、大词汇量和小词汇量语音识别系统、特定人和非特定人语音识别系统。

不同的语音识别系统,尽管设计和实现细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统基本原理框图如图1所示。

从图1可看出,语音识别系统包括预处理、特征提取、模型的训练和匹配、后处理等几个部分。下面分别介绍这几个部分。

2.1 预处理

预处理对输入的原始语音信号进行处理,滤除其中不必要的信息及噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧和预加重处理等工作[3]。

2.2 特征参数提取技术

特征提取负责计算语音声学参数,提取出反映信号特征的关键特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术,合理地选择特征参数不仅对系统的识别率有很大的提高,同时对系统的实时性能也至关重要[4]。

特征提取的目的是对原始语音信号进行处理,计算语音信号对应的特征参数,主要包括以下几个步骤:

(1)采样与量化。

首先将模拟语音信号以采样周期T采样,将其离散化为S(n)。采样周期的选取根据模拟语音信号的带宽(根据奈奎斯特采样定理定),以避免信号的频域混叠失真。对离散后的语音信进行量化处理过程中会带来一定的量化噪声和失真。

(2)预加重处理。

对输入的原始语音信号进行预加重,其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。一般通过一个传递函数为H(z)=1-αz-1的滤波器对其加以滤波。其中:α为预加重系数且0.9<α<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为:

y(n)=x(n)-αx(n-1),0.9<α<1.0

(3)分帧与加窗。

语音具有短时平稳的特点通过对语音进行分帧操作后,可以提取其短时特性,从而便于模型的建立。然后将每帧信号用某种窗相乘,以减少帧起始和结束处的信号不连续性。常用的加窗函数有汉明窗和汉宁窗。

(4)特征参数计算。

实践证明有效的特征参数有线性预测编码(LPC)系数,线性预测编码倒谱(LPCC)系数和Mel频率倒谱系数(MFCC)。

2.3 声学模型与模式匹配

语音识别系统的第二级是建立声学模型与模型匹配。首先通过学习算法,将训练语音的特征通过学习过程形成声学模型。声学模型是语音识别系统中最底层的模型并且也是识别系统最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量系列与每个发音模板的距离。因为发音在每个时刻都受到其前后发音的影响,为了模仿自然连续语音中的协同发音的作用和鉴别这些协同发音,通常要使用复杂的声学模型。声学模型单元的大小(字发音模型、半发音模型或音素模型)对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。对于大词汇量语音识别系统,通常识别单元小,则计算量也小,所需的模型存储量也小,但带来的问题是对应语音段的定位和分割较困难,识别模型规则也变得复杂。通常大的识别单元在模型中应包括协同发音(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异),这有利于提高系统的识别率,但要求的训练数据相对增加。近几十年比较成功的识别方法有:动态时间规整(DTW)技术、隐式马尔可夫模型(HMM)、人工神经网络(ANN)。

(1)动态时间规整(DTW)技术[5,6]。

由于在训练或识别过程中,即使同一个人发同一个音时,不仅其持续时间长度会随机地改变,而且各音素的相对时长也是随机变化的。因此在匹配时如果只对特征向量系列进行线性时间规整,其中的音素就有可能对不准。20世纪60年代日本学者板仓提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正,DTW的具体实现方法是采用动态规划技术(DP),方法简单有效,对小词表孤立词别系统非常有效。

(2)隐式马尔可夫模型(HMM)[7]。

隐式马尔可夫模型(HMM)是20世纪80年代引入语音识别的理论,其出现使自然语音识别系统取得了实质性的突破HMM方法现已成为语音识别的主流技术,目前大多数成功的连续语音识别系统都是采用这种方法。HMM是对语音信号的时间系列结构建立统计模型,将其看作一个数学上的双重随机过程,一个是用具有有限状态的Markov链来模拟语言信号统计特征变化的隐含的随机过程,前者通过后者表现出来,但前者的具体参数(如状态数)是不可观测的。

人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变系列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性。

(3)人工神经网络(ANN)[2]。

是采用大量的简单处理单元广泛地连接起来构成的一种复杂的信息处理网络,其中处理单元及其相互连接模式借鉴人脑神经元的结构及连接机制设计的。这种网络具有与人脑相似的学习记忆能力,知识概括和输入信息特征抽取能力。其本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性。目前语音识别神经网络主要有多层感知器网,Kohonen自主织神经网和预测神经网。

基于人工神经网络语音识别系统具有很大的发展空间,但普遍存在训练,识别时间过长的缺点,目前许多学者正致力于利用神经网络同传统方法相互结合的语音识别系统的研究并取得一定进展。

2.4 后处理[1,2]

在中、大词汇量的语音识别系统特征中后处理显得特别重要,当分类发生错误时,可以根据语音学模型,语法结构,语义学进行判断纠正。特别是一些同音字则必须要通过上下文结构才能确定词义,语音学理论包括发音学、音律学、语义结构,语言的数学描述模型等有关方面。把语言模型应用于语音识别要解决的几种结构,如何把它和模式识别器结合找出一种有效的识别算法。

语言模型主要分为规则模型和统计模型两种,目前比较成功的语言模型通常是采用统计语法的。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第N个词的出现只与前面N-1个词相关,而与其任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

3 语音识别系统面临的问题

虽然语音识别的研究工作已有60多年,语音识别产品层出不穷,但与语音识别的最终目标还有一定的距离,各方面的困难依然存在,主要表现在:

(1)环境影响问题。

这是各种语音识别系统普遍存在的顽健性如何提高的共性问题,包括环境噪声影响、说话人距离和位置变化的影响以及说话人心理和生理变化的影响等[1,2]。有效解决这些难题实际上是各种语音识别技术共同面临的艰巨任务。克服环境噪声影响问题的方法通常有:谱减法消噪技术、环境归正技术噪声建模技术、识别模型修正技术等;克服说话人距离和位置变化的影响可采用多话筒跟踪拾音技术。对于克服说话人心理和生理变化引起的语言变异造成的影响,以引入模仿人类语音听觉感知机理的人工智能技术对模式识别部分进行增强和改进的方法较有效

(2)语音识别系统的适应性差。

全世界有近百种官方语言,每种语言有多达几十种方言,同种语言的不同方言在语音上相差悬殊,这样,随着语言环境的改变,系统性能会变得很差。

(3)端点检测。

研究表明,即使在安静的环境下语音识别系统一半以上的错误来自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数[7]。

(4)词与词的特征空间混叠。

语音识别的常规方法是利用语音信号的短时平稳特性将语音时域采样信号分为若干帧,计算出每一帧的相应特征矢量,从而得到该帧语音的一个特征矢量序列。

但从这些矢量的空间分布来看,很多不同词语的矢量序列在特征空间存在混叠现象。克服这个问题的主要思路是,首先应当基本准确地找出该发音者发音的大致短时周期,并尽量使用合理的特征,同时充分利用特征序列的时序特征[7]。

4 结语

这里通过对语音识别技术的学习和研究,意识到语音识别技术在人类生活和工作等各方面的重要性。但是由于语音识别技术还面临着很多困难,所以研究者最先大都是在实验室即环境很安静的情况下进行的,而且是选取某一种语言(比如英语)对某一或者某几个国家的学生或者某一特定职业的人进行实验,有些还专门对孩子进行实验[8](因为孩子的发音和成年人是有很大区别的)等。那么以后人类是否可以研究出一种语音识别系统能够适用于世界上各种语言各种各样的人,是值得思考的。

另一方面如何将语音识别技术应用到人们生活的各个方面。比如学习方面,学习外语的时候老师不可能纠正每个学生的发音,而有一个系统可帮助纠正;娱乐方面,开始学唱歌时,不需要别人的点评唱的如何,而有一个评分的系统可以帮助打分,并纠正哪里唱的跑调了。还有国家的普通的话测试需要有一个系统可以帮助测试,考生自己就可以给自己大概的估分了。

参考文献

[1]唐尧.基于DSP平台的语音识别算法的研究与实现[D].南京:南京航空航天大学,2007.

[2]周茉.基于HMM和ANN得汉语数字语音识别算法[D].武汉:华中师范大学,2006.

[3]梁芳泉,张雪英.一种抗噪语音识别算法的DSP实现[J].电脑开发与应用,2006,19(4):12-14.

[4]HACKER C,CINCAREK T,GRUHN R,et al.Pronunci-ation feature extraction[C]//Pattern Recognition.27DAGMSymposium.Berlin:Springer,2005:141 148.

[5]王倩,吴国平,陈琳.特定人语音识别算法-DTW算法[J].软件导刊,2005(20):48-50.

[6]吕军,曹效英.基于语音识别的汉语发音自动评分系统的设计与实现[J].计算机工程与设计,2007,28(5):1232-1235.

[7]李锦,何培宇.一种改进的基于小波去噪HMM非特定人语音识别算法[J].四川大学学报:自然科学版,2007,44(1):69-72.

[8]HACKER C,CINCAREK T,MAIER,A,et al.Boostingof prosodic and pronunciation features to detect mispronun-ciations of non-native children[C].[S.l.]IEEEInternation-al Conference on Acoustics,Speech and SignalProcessing,2007.

[9]FRANCO H,NEUMEYER L,DIGALAKIS V,et alCombination of machine scores for automatic grading ofpronunciation quality[J].Speech Communication,200030(2-3):121-130.

[10]HU Rile,ZONG Cheng-qing.An approach to automaticacquisition of translation templates based on phrase struc-trure extraction and alignment[J].IEEE Trans.on Audi-o,Speech,and Language Processing.2006,14(5):1656-1663.

[11]WITT S M,Young Steve J.Language learning based onnon-native speech recognition[J].Eurospeech,1997:633636.

通话中的语音识别技术 第7篇

一、语音识别基本原理

语音识别系统本质上是一种模式识别系统, 包括特征提取、模式匹配、参考模式库等三个基本单元, 未知语音经过话筒变换成电信号后加在识别系统的输入端, 首先经过预处理, 再根据人的语音特点建立语音模型, 对输入的语音信号进行分析, 并抽取所需的特征, 在此基础上建立语音识别所需的模板, 然后根据此模板的定义, 通过查表就可以给出计算机的识别结果。[1]

二、通话中语音识别技术

2.1技术原理:

1、基本架构:

Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务, 并加以对手机GPS位置、通讯录、社交软件信息的分析, 在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。

2、基本平台:

本系统基于APIcloud开发, 兼容云端和第三方SDK, 可跨平台 (Android、IOS、Windows等) 使用, 采用标准的c++语言实现。

2.2功能实现:

1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务, 包括在线语音服务、短信服务、视频服务、会议服务等, 开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。

2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网, 使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。

3、语音识别与云端大数据结合分析:利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别, 加以云端大数据的结合, 和实时的分析用户当前的需求和问题, 及时的跟用户产生交流反馈, 并根据用户长期的使用时间分析智能提前推送相关信息。

2.3未来展望:

基于大数据和互联网+技术的日益发展与完善, 并随着通信传输速度的逐渐提高, 可在实时的条件下分析与推送更多丰富的内容, 加以与即时聊天软件的结合, 将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送, 并对听力有障碍的人士有更为重要的意义, 未来的市场前景广阔。

三、语音识别技术应用

3.1语音指令控制在汽车上的应用:

语音控制人员只需要用嘴说出命令控制字, 就可以实现对系统的控制。在汽车上, 可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。

3.2语音识别技术在医疗系统中的应用:

医疗语音识别技术, 已有厂商开发了基于云平台的语音识别系统, 可直接内嵌到医院电子病历系统中, 让医生通过语音输入病人信息, 填写医疗记录, 下达医嘱信息。

四、相关市场调研

1、国内外市场分析:

2015年全球智能语音产业规模达到61.2亿美元, 较2014年增长34.2%。其中, 中国智能语音产业规模达到40.3亿元, 较2014年增长增长41.0%, 远高于全球语音产业增长速度预计到2016年, 中国语音产业规模预计达到59亿元。[2]

2、相关应用发展:

拉斯维加斯消费电子展 (CES) 上展示的Mind Meld。在通话中, 如果参与者点击应用的一个按钮, 那么Mind Meld将利用Nuance的语音识别技术, 分析此前15至30秒对话。随后, Mind Meld将确定对话中的关键词, 以及其他多个信息来源, 查找具有相关性的信息, 并在屏幕上向用户提供图片和链接地址。[3]

摘要:手机是我们日常生活中最常使用的工具之一, 但在通话过程中的语音技术还没有相对成熟的解决方案, 可智能识别通话过程中涉及的数字, 地点, 人名等关键信息, 来自动判断你所需要的信息和安排你的行程, 并可应用于语音聊天、视频通话甚至在语音聊天、视频聊天中与云端大数据整合。

关键词:语音识别,通话,大数据,互联网

参考文献

[1]吴坚.基于web的salt语音识别技术应用研究[D].湖北工业大学, 2006

[2]武勤.2015中国智能语音产业发展白皮书.计算机与网络2016, 42 (8)

智能电视语音识别技术专利分析 第8篇

语音交互是目前最被业界看好的人机交互方式之一,微软、苹果、IBM等国际巨头争相投以巨资进行研发,三星、松下、创维、长虹、TCL等多个品牌所销售的智能电视均已植入了语音识别功能,语音识别功能对智能电视多样性产生了重大影响[4,5]。本文重点研究了语音识别交互技术的国内外专利情况,对技术总体发展趋势、国家分布、专利权人、重点发明人等进行分析,以期对国内企业知识产权决策提供支撑。

1数据与方法

本文的专利文献数据主要来自汤森路透的Thomson Innovation德温特专利数据库和国家知识产权局中外专利数据库,数据统计截止日期为2014年4月1日,检索结果为全球共1 555项专利族和599件中国专利,利用TDA等专利分析软件对这些专利进行分析。

2全球专利分析

2.1全球语音识别交互技术进入第二技术成长期

全球语音识别交互技术从20世纪70年代初开始出现首件专利申请以来,经历了20世纪80年代的技术孕育期、 1996—2000年的第一技术成长期和2001—2009年的技术瓶颈期。2010年起,产业技术出现新的突破,厂商对于市场价值有了新的认知,竞相投入技术研发,专利申请量与专利权人数急速上升,语音识别交互技术进入第二技术成长期(见图1)。

2.2语音控制及语音输入/输出是语音交互的研究热点

语音输入/输出、语音数据处理系统、语音软件产品、语音分析系统、语音识别、语音控制是智能电视语音交互的几大关键技术。从各项关键技术的发展趋势来看,除语音识别及语音分析技术专利申请量持续下滑外,语音输入/输出、语音数据处理、语音软件产品、语音控制技术的专利申请量处于明显增长态势。从语音交互技术热点迁移图中可以看出(见图2),语音控制技术成为智能电视语音交互的研究热点,其次是语音输入/输出的研究。

2.3美国、日本、中国和韩国是主要技术产出国家

美国、日本、中国和韩国的专利量各占全球专利总量的37.7%、24.5%、13.3%、13.0%,其他国家合计占11.6%。美国起步最早,20世纪70年代即开始专利申请,2000年后专利增长迅速,目前仍处快速增长态势,其发展重点是语音输入/ 输出、语音数据处理系统及语音软件产品开发。日本于20世纪90年代起开始该领域的技术探索,2000—2007年期间专利产出量较大,与美国申请量相当,但2008年以后,专利量开始迅速减少,呈现下滑趋势。日本的研发重点是语音输入/输出、语音数据处理系统。中国和韩国涉足时间较晚, 2000年前后开始该领域的专利申请,2010年后专利快速增长,年度申请量已超过日本。韩国侧重于语音输入/输出、语音分析系统的研究,中国的研发重点在于语音输入/输出、语音控制技术。

2.4重点企业集中于美国、日本和韩国,微软居全球首位

表1显示,微软公司以80项专利申请位居全球首位,其后依次是松下(68项)、三星(64项)和索尼(46项)。在排名前25位公司中,日本公司数量及专利申请量占全球近四成比例。我国长虹、TCL、康佳、海尔分列全球第18位、20位、21位、24位。

从表2显示的主要申请人概况来看,三星、LG近3年的申请量占申请总量的比例较大(分别占55%、41%),远远超过了微软、索尼和松下,说明这2家公司在近3年来技术发展较快,企业正在崛起。日本松下近3年专利产出乏力,濒临衰退。

微软于1999年首次进行专利申请,主要产出期间在2003—2006年,2004年达最高记录(16件),其他年均在5件以下,近几年的年均申请量维持在3~4项,未出现明显增长。 专利技术主要集中于语音输入/输出,语音软件产品和语音数据处理系统。形成了以邓立博士和宋歌平博士为核心成员的两个研发团队,团队主要成员概况见表3。

2.5重要发明人主要分布于微软、三星、松下等公司

语音交互技术发明人主要分布于微软、船井电机、三星、韩国电子通信硏究院、松下等公司,主要发明人情况见表4。

2.6重要专利主要被美国掌握,其次是日本和法国

根据Innography专利强度统计的全球20项重点专利中有16项来自美国,主要来自微软、英特尔、IBM、惠普、美国电话电报公司等;其次是来自日本三星、索尼公司,及法国公司Thomson专利授权公司和阿尔卡特朗讯。全球前10项重点专利见表5。

3中国专利分析

3.1中国语音识别交互技术快速发展

中国语音识别相关技术20世纪90年代中期开始萌芽, 经历2000—2007年间的缓慢增长阶段后,于2008年起开始出现较快增长。目前专利增长率还比较低,尚处于技术成长期(见图3)。

3.2国内技术实力还较为薄弱,广东申请量居全国首位

国内申请人的申请量占中国专利的67.4%,主要由TCL (24件)、长虹(22件)、康佳(18件)、海尔(14件)、海信(13件)、创维(12件)等公司申请。按专利数量排名依次为广东 (141件)、山东(39件)、北京(33件)、四川(29件)、天津(28件)、上海(23件)、江苏(19件)、浙江(18件)、台湾(18件)、福建(14件),广东省以23.7%独占鳌头。山东占中国专利总量的6.5%,排名国内第二位。

3.3国外来华申请不足中国专利量的四成,主要来自日本、美国、韩国和荷兰

日本、美国、韩国和荷兰的申请量,分别占国外申请量的31.4%、25.8%、18.0%、8.8%。来华公司主要有三星(44件)、 微软(20件)、索尼(18件)、飞利浦(17件)、松下(15件)、LG(9件)等,三星公司的申请量居各公司首位,微软公司授权数量 (11件)最多。

4结语

外语口语训练中语音识别技术研究 第9篇

【关键词】外语口语训练      语音识别技术     关键技术     研究

一、引言

随着我国外语教学的不断发展,各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点,当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学,并且因为外语口语学习者的学习水平不一,在学习过程中很难将自己的不正确发音找出来。于是,在外语口语学习中就可以应用语言识别技术,该系统具备外语口语发音的纠正功能,学习者通过该系统进行外语口语的学习与练习,就能纠正自己错误的发音,避免因为多次错误发音而形成不良习惯。因此,对外语口语训练中语音识别技术进行研究,能够提高外语口语学习者的学习效率。

二、外语口语学习中语音识别技术应用的重要意义

随着中国改革开放程度的深化以及全球经济一体化的飞速发展,世界各国的交往越来越频繁,学习并掌握一门外语,对于人们的工作与生活而言,已经成为必不可少的工具。在学习外语的需求不断增长的情况下,出现了各种外语教学方法、教学工具以及语言学校等,然而国人在外语学习过程中,外语的口语教学与学习一直是较难突破的难题,其主要原因有以下几个方面:

(一)各种外语发音的特点与汉语发音的特点存在较大差异,因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。

(二)目前在国内合格的外语口语教师还是很少,自己发音标准又能够准确地指导别人进行口语学习的外语教师,即便是在一些大中城市的中小学中也相当缺乏。同时,一般的媒体教学也不能够针对学生的特定情况,有效地让学生与教师互动进行口语训练,只能够单方面地进行传授,所以起到的作用也不是很有效。

外语口语训练中语音识别技术的应用,让软件具备了矫正错误发音的功能,能够为学习者及时改正错误的发音提供帮助,从而有效避免错误反复而变成一种恶性习惯,并使外语学习者口语学习的效率与效果得到一定程度的提高,获得更大的市场价值与社会效益。

三、外语口语训练中语音识别的关键技术

(一)语音识别

在语音识别技术中,语音识别是第一步也是最重要的一步,接下来几个步骤的精确度都会受其影响,它能够在语法与音素模型的基础上,将输入的语音信号翻译成单词串。同时,许多基于计算机的语言训练活动都可以应用这一部分,比如基于语音的选择题或者是与计算机的对话训练等等。

(二)语音评分

在基于语音识别技术的外语口语学习系统中,语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况,可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下,按照语音评分技术,目前的外语口语学习系统主要可以分为两种:一种是基于语音特征比较的评分方法,它通过将学习者的发音与标准语音进行对比参考,从一个较为主观的角度对一段语音质量进行评价,通常采用动态时间规整技术实现,因为其具备运算量小的特点,因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法,它能够通过语音识别技术将以计算发音质量所需的小单元切割出来,然后再通过事先训练好的声学模型与其进行对比,最后根据评分机制对其评分,因为该方式较为客观,目前主流的外语口语学习系统中均采用这种技术,其主要是基于隐马尔可夫模型(HMM)技术实现。

如图1,基于HMM的语音评分流程图所示,其语音评分的关键技术分为以下几步:

图1  基于HMM的语音评分流程图

1.首先,对学习者所输入的语音进行特征提取;

2.其次,将已经训练好的HMM作为模板,再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割,并强制对齐;

3.最后,采用不同的评分机制对不同的需要进行评分,将评分结果得出。同时,在某些情况下,要注意将说话验证在语音评分开始时加入,从而将学习者发音内容与标准发音完全不同的部分挡下,保证整个口语学习系统的可信度更高。此外,由于同样的声音可能代表的意义不同,因而在这些更加复杂的应用中,需要将各种词发生概率的大小、上下文的关系进行综合考虑,并将语言模型加入,从而为声学模型的判断提供更好的辅助。

(三)发音错误检测与错误纠正

对于外语学习者而言,虽然知道系统能够评价其发音质量,但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到,对这个错误也不知道如何进行纠正。因而,外语口语学习者需要通过系统对发音的错误进行检测与定位,并将相应的错误纠正建议提供给学习者进行有效纠正。

1.发音错误的检测与定位

在外语口语训练中,导致错误发音的因素有很多。例如学习者不会发某种声音,或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法,比如用母语训练的语音识别器,但是因为在没有使用自适应技术的情况下,学习者发音的识别错误也有可能会当成是发音错误,因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以,目前对错误发音的检测比较合理的一种做法是:首先以发音专家的知识为依据,严格将容易出错的发音进行合理的分类,然后以不同的错误类型为依据,将其相应的检测算法设计出来,最后用各种错误检测算法对学习者的发音分别进行检测。

2.发音错误的纠正

系统将发音错误检测出来后,同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中,对于这些发音专家知识的构建而言,是通过事先收集大量的经验数据而积累而成的,例如不同学习者的发音特点等,然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来,再由专家客观地评判分类的发音,最后将各聚类的改进建议提出来。

(四)回馈展示

在基于语音识别技术的外语口语学习系统中,这一部分是整个系统对用户的窗口,上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块,外语学习者才能够从基于语音识别技术的外语口语学习系统中获益,所以,整个系统的可用度都通过这一模块设计的好坏来决定。

四、结语

总而言之,随着社会经济与科学技术的快速发展,各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中,为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统,有效地提高了外语学习者的学习效率与学习效果,相信在未来,也能够为外语学习者们提供更快、更好的电子学习手段。

【参考文献】

[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术,2014(04):836-837,843.

[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012.

[3]涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海:上海交通大学,2011.

[4]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(05):65-66.

浅析语音识别技术的发展及趋势 第10篇

关键词:语音识别技术,发展,趋势

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程, 经过50多年的积累研究, 获得了巨大的进展。特别是近20年来, 语音识别技术取得了显着的进步, 并逐步的走向市场。在未来的日子里, 语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。

1 语音技术的发展历史

50年代, 研究人员多数致力于声学和语音学的基本概念。1952年, 在AT&T Bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统, 方法主要是度量每个数字的元音音段的共振峰。1956年, RCA Lab开展了另外一项独立研究, 试图识别单一发音的10个不同的音节, 同样采用了度量共振峰的方法。1959年, 英国University College的研究人员开始尝试另外一种思路, 用谱分析和模板匹配方法构建音素识别器, 用来识别4个元音和9个辅音。60年代, 相继出现并发表了语音识别的几个重要的思想。1962年, 东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分, 并进行识别。1963年, 日本NEC Lab对数字进行语音识别的尝试可以算得上最值得注意的工作, 因为它不仅是NEC研究语音识别的开端, 还导致一个长期的和卓有成效的研究计划。在60年代中, 3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在RCA Lab开始于60年代后期, 目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上, 发展了一套时间归正的基本方法。

2 语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力, 经历半个多世纪的研究, 目前已经发展到了接近实用的阶段。在实验室环境下, 大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后, 语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现, 使“语音识别”逐步进入大众视线, 引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间, 这样便降低语音识别的优势。同时, 由于使用的环境或讲话口音习惯等因素的影响, 语音识别的内容大大降低, 识别的内容不能达到100%的正确, 所以很多人认为目前的语音识别系统还无法满足实用要求。

目前, AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上, 如电话自动转接、电话查询、数字串识别的任务中, 当讲话的内容是系统所存储的内容存在的, 且使用环境的声学特性与训练数据的声学特性相差不太大时, 语音识别的正确识别率可以接近100%。但是, 在实际使用中如果这些条件被破坏, 则会对识别系统造成一定的影响。

3 语音识别技术发展趋势

虽然语音识别在过去的20年里有了很大的发展, 但是, 仍然存在很多的不足, 有待于进一步的探索, 具体可分为以下几个方面:

1) 提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中, 人的意识会有意识的排除非需要的声学环境因素, 这对语音识别系统而言, 是很难做到的。另外, 在日常生活中, 人类的语言常常具有较大的不确定性, 比较随意, 并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前, 在提高语音系统在不同环境中的可靠性, 同时要应用现代技术让语音识别系统更加智能化, 掌握人们语言随意性的部分规律, 以达到最佳的识别效果。

2) 增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限, 当用户所讲的词汇超出系统已知的范围时, 则语音识别系统不能准确的识别出相应的内容, 比如, 当突然从中文转为英文、法文、俄文时, 计算机就会常常输出混乱奇怪的结果。但是, 随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展, 未来的语音识别系统可能会做到词汇量无限制和多种语言混合, 这样用户在使用的时候可以不必在语种之间来回切换, 这样就能大大减少词汇量的对语音识别系统的限制。

3) 应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事, 比如, 当人们出现手忙、手不能及以及分身无术的场景时, 通过语音识别系统的模型构造, 则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面, 语音识别技术可能带动一系列崭新或更便捷功能的设备出现, 更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活, 更重要的会带来生产方式的革命, 是下一代智能化控制的基础。

4) 降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径, 其推广程这取决于语音识别技术本身进步的程度, 同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上, 可以大幅度降低产品成本和体积, 产品必然受到消费者的青睐, 语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代, Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现, 会让人更加自由的沟通, 让人在任何地方, 任何时间, 对任何事都能够通过语音交互的方式, 方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

(下转第206页) (上接第209页) (上接第216页)

[2]周忠谟, 易杰军, 周琪.GPS卫星测量原理与应用.北京:测绘出版社, 1997.

[3]章红平, 温宇斌, 张志勇, 等.静态GPS测量与RTK测量实例分析[J].测绘通报, 2006 (1) .

[4]黑志坚, 周秋生, 曲建光, 等.GPS RTK测量成果的精度估计及应用探讨[J].哈尔滨工业大学学报, 2006, 38 (8) .

[5]刘大杰, 施一民, 过静珺.全球定位系统 (GPS) 的定位原理与数据处理[M].同济大学出版社, 1999.

参考文献

[1]杨尚国, 杨金龙.语音识别技术概述[J].福建电脑, 2006 (8) .

上一篇:运输过程的透明化管理下一篇:建筑室内装修工程