深度学习笔记1:神经网络端到端学习笔记

许多重要问题都可以抽象为变长序列学习问题(sequence to sequence learning),如语音识别、机器翻译、字符识别。这类问题的特点是,1) 输入和输出都是序列(如连续值语音信号/特征、离散值的字符),2) 序列长度都不固定,3)并且输入输出序列长度没有对应关系。因此,传统的神经网络模型(DNN, CNN, RNN)不能直接以端到端的方式解决这类问题的建模和学习问题。

解决变长序列的端到端学习,目前有两种主流的思路:一种是 CTC (Connectionist Temporal Classification,连接时序分类);另一种是 Encoder-Decoder(以下简称 En-De)的思路。CTC 最早用于手写体字符识别上[19],并且一度是语音识别的研究热点[20-23]。这里,我们关注的是后一种思路。

变长序列学习的 En-De 方法中,本文重点关注 Google 和 Yoshua Bengio 两个团队的工作。这两个团队这个方向上研究都比较早,也分别能代表性工业界和学界的风格。

下面首先介绍 Google 的 seq2seq 模型,然后介绍 Bengio 团队的 RNNenc 模型。可以看到两种模型基本思路一致,但在具体细节上,有着显著的不同。至于 attention-base encoder-decoder,则会在将来另文讨论。

1 seq2seq模型

1.1 模型结构

http://blog.csdn.net/jackytintin/article/details/53352063

你可能感兴趣的:(深度学习)