端到端模型传统语音识别系统的

Reddi2 · Post by **Reddi2** » Tue Feb 18, 2025 8:34 am

因此，严格意义上的三音子精细建模不太现实，往往通过状态绑定策略来减小建模单元数目，典型的绑定方法有模型绑定、决策树聚下面将着重介绍三类声学模型，包括基于-的声学模型、基于-的声学模型以及端到端模型。基于-的声学模型是种统计分析模型，它是在马尔可夫链的基础上发展起来的，用来描述双重随机过程。的理论基础在年前后由等人建立，随后由的和的等人应用到语音识别中，..和.等人进步推动了的应用和发展。有算法成熟、效率高、易于训练等优点，自世纪年代开始，被广泛应用于语音识别、手写字识别和天气预报等多个领域，目前仍然是语音识别中的主流技术。

基于-的声学模型尽管具有拟合任意复杂分布的能力，但它也有个严重的缺陷，即对非线性数据建模效率低下。因此，很久以前相关研究人员提出采用人工神经网络代替，建模状态后验概率。但是由于当时计算能力有限，很难训练两层爱沙尼亚 whatsapp 号码列表以上的神经网络模型，所以其带来的性能改善非常微弱。世纪以来，机器学习算法和计算机硬件的发展使得训练多隐层的神经网络成为可能。实践表明，在各种大型数据集上都取得了远超过的识别性能。因此，-替代-成为目前主流的声学建模框架。

声学建模般通过发音单元、声学模型、词典等信息源，建立从声学观察序列到单词之间的联系。每部分都需要单独的学习、训练，步骤较为烦琐。端到端（--,结构使用个模型把这三个信息源囊括在起，实现从观察序列到文字的直接转换。最新的些进展甚至把语言模型的信息也囊括进来，取得了更好的性能。自年以来，端到端模型日益成为语音识别的研究热点。二、语言模型主流语言模型般采用基于统计的方法，通常是概率模型。