循环神经网络
为什么需要RNN
在深度学习兴起之前,NLP 领域一直都是统计模型的天下,最常用的模型如 n-gram,但是其难以捕捉中长距离信息,Bengio 团队将 N-GRAM 融入前馈神经网络中,但是提升有限。
在 NLP 中,输入的数据是一段段 序列
,而序列中的信息存在着相互关系,显然,输入与输出独立的全连接层已然不能胜任 NLP 的各种任务。我们需要一种能够正确建模序列关系的网络,RNN 便由此应运而生。
基础结构
对于一个序列

最常见的序列有一段音乐、一句话、一段视频等
RNN的基础结构为

A 接收序列的某一个 ,输出一个 ,这个 被称为隐状态(Hidden State),他会与下一步的输入 共同输入 A,以此来建模序列关系。
这是一种自回归模型(AR),前一步的预测会添加到下一步当中,因此其只能单独注意下文或者上文的信息
为了更直观的理解 RNN,对于