序列模型
如果说卷积神经网络可以有效地处理空间信息, 那么循环神经网络则可以更好地处理序列信息。我们不仅仅可以接收一个序列作为输入,而是还可能期望继续猜测这个序列的后续,比如文本生成、音乐生成、股价预测等。
循环神经网络和隐变量
以文本生成为例,我们要预测的 xt 取决于此前全部 xt−1 个词元,然而我们不可能将不定长的历史数据简单地构建成参数,所以我们引入隐状态 H 。
在第 t 步隐藏层的计算表示为:
Ht=ϕ(XtWxh+Ht−1Whh+bh)
其中 Xt 为当前输入,Ht−1 为上一时刻的隐状态,Wxh 和 Whh 为模型权重。
而输出层的计算:
Ot=HtWhq+bq