Yoshua Bengio 等人提出了一种新型循环神经网络,该网络由前向和反向循环网络组成,并且前向和反向隐藏状态之间有一定的紧密度而共同预测相同的符号。因为前向 RNN 包含了前面序列的信息,而反向 RNN 在同一位置包含了未来的信息,所以利用正则项连接这两种信息将有助于 RNN 获取学习长期依赖的能力。
公司主营业务:做网站、网站建设、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联建站是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联建站推出赣县免费做网站回馈大家。
论文地址:https://arxiv.org/abs/1708.06742
对序列数据(如文本)的长期依赖(long-term dependencies)建模一直是循环神经网络中长期存在的问题。这个问题和目前循环神经网络架构没有明确的规划是严格相关的,更具体来说,循环神经网络只是在给定前一个符号(token)的基础上预测下一个符号。在本论文中,我们介绍了一种鼓励 RNN 规划未来的简单方法。为了实现这种规划,我们引进了一种反向训练和生成序列的附加神经网络,并且要求前向 RNN 和反向 RNN 中的状态有一定的紧密度以预测相同的符号。在每一步中,前向 RNN 的状态要求匹配包含在反向状态中的未来信息。我们假设这种方法简化了长期依赖关系的建模,因此更有助于生成全局一致的样本。该模型在语音识别任务上实现了 12% 的相对提升(相对于基线 7.6,CER 达到了 6.7)。
模型
给定数据集 X = {x^1 , . . . , x^ n },其中 x={x_1, . . . , x_T } 为观察序列,RNN 模型对序列空间的概率 p(x) 及其概率密度进行建模,通常我们会训练 P 以***化观察数据的对数似然函数 :
RNN 会将序列的概率分解为:
也就是说,RNN 在给定前面所有元素的情况下预测下一个元素。在每一步中,RNN 迭代地总结时间步 t 之前的序列值而更新一个隐藏状态(下文用 h_ft 代表)。即,其中 f 代表网络前向地读取序列,而Φ_f 为典型的非线性函数,如 LSTM 单元。预测值 x_t 在 h_ft 的顶部执行另一个非线性转换,即 p_f(x_t|x 如上图 1 所示,前向和反向网络独立地预测序列 {x1, ..., x4}。正则化罚项将匹配前向(或前向参数函数)和反向隐藏状态。前向网络会从对数似然目标函数接收到梯度信号,并且状态之间的 L_i 是预测相同的符号。反向网络仅通过***化数据对数似然度而进行训练。在评估阶段中,部分网络(蓝色表达)将会被丢弃。L_i 的成本为欧几里德距离或通过仿射变换 g 学到的度量。 正则化损失 我们最开始试验是使用 L2 损失来匹配前向和反向隐藏状态。虽然这给我们一定的提升,但是我们发现这种损失太严格而不允许模型有足够的灵活性来生成稍微不同的前向和反向隐藏状态。因此,我们试验了参数方程以匹配前向和反向状态。这种情况下,我们简单地使用了一个参数仿射转换(parametric affine transformation),以允许前向路径不一定精确地匹配反向路径。虽然不一定完全精确,但这种方法只允许前向隐藏状态包含反向隐藏状态的信息。实验上,我们发现参数损失在语音-文本生成任务中给模型很大的提升。具体来说,我们首先使用 L2 正则项为,而我们使用的参数正则项为,其中 g(·) 为 h_ft 上的简单仿射变换。 表 1:WSJ 数据集上的平均字符错误率(CER%) 我们在表 1 中总结了实验结果。从仿射变换学到的度量方法展现了非常好的性能,并且我们从网络中解码并没有使用任何外部的语言模型,这进一步强调了该正则化方法的重要性。我们的模型相对于基线模型在性能上提升了 12%。 【本文是专栏机构“机器之心”的原创译文,微信公众号“机器之心( id: almosthuman2014)”】
分享名称:将未来信息作为正则项,TwinNetworks加强RNN对长期依赖的建模能力
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源:
贝锐智能
标题URL:http://www.mswzjz.cn/qtweb/news38/55288.html