深度好奇(DeeplyCurious.ai)近日在 arXiv 上发布的论文提出了一种基于神经符号智能(Neural-symbolic)的特定领域文本解析框架:
从网站建设到定制行业解决方案,为提供成都网站设计、网站制作服务体系,各种行业企业客户提供网站建设解决方案,助力业务快速发展。创新互联将不断加快创新步伐,提供优质的建站服务。
Object-oriented Neural Programming(OONP)。
论文题目:用于文档理解的面向对象神经规划
论文链接:https://arxiv.org/pdf/1709.08853.pdf
该框架借用面向对象编程(OOP)的思想,利用解析出来的实体组成对象和对象间关系(如图 1),构成结构清晰的本体图。每个对象 (object) 都是一个类 (class) 的实例化,类的概念规定了其具有的内部属性、外部关系和可执行的操作,以及与其他对象的关系类型。如图 1 所示,左边为叙事文本,右边为经过 OONP 解析生成的本体图。图例中共包含三个类的对象,分别为事件、人物、物品。人物类有姓名、性别、年龄属性,同时与事件对象有嫌疑人、被害人等表征人物角色的外部链接;物品类有名称、数量、价值等属性,与事件对象有表征物品角色的外部链接;另事件类有事件类型、时间、地点等属性。
图 1. OONP 解析任务示意
下面我们拆解 OONP 框架并介绍其主要功能模块。如图 2 所示,OONP 由三部分组成,分别是主控模块阅读器(Reader)、表征文档的行间记忆(Inline Memory)模块、以及总结对之前文本的理解的携带记忆(Carry-on Memory)模块。
图 2. OONP 解析的基本框架
图 3. 阅读器的构成及信息流
OONP 解析器中基于神经网络的阅读器按照文本顺序读文档,同时不断丰富本体结构来增进对文档的理解。对于某个待解析的文档,OONP 首先将预处理之后的文档放入行间记忆模块,阅读器顺序读取行间记忆中符号表示和连续表示,结合携带记忆,产生各种操作来增加和丰富本体图,更新携带记忆模块。这些操作包含可微分操作(作用于对象记忆的连续部分和矩阵记忆)和离散操作(作用于对象记忆和行间记忆的符号部分)。这些连续和离散操作互相依赖,构成了彼此的输入,共同形成了图 3 中复杂而灵活的信息流。
下面我们着重讲解一下 OONP 的离散操作。阅读器的策略网络输出的离散操作序列是形成本体结构主要操作。该操作集合包括三类,依照顺序分别是「新增-指派」,「选择更新属性」,和「更新内容」。当然,「新增-指派」操作后,也可以没有后续操作(空操作)。「新增-指派」可转化为多分类问题,如果提到内容是***次出现,则「新增」,如果是已经出现过的,只是重新提及,则「指派」。具体的决策依赖于阅读器在创建的临时对象(公式中的)与已存在对象之间的相似度。具体公式如下:
公式***行代表临时对象和「新增」c 类的相似度,第二行表示临时对象和 c 类第 k 个对象的相似度,第三行代表与空操作的「相似度」。图 4 是对解析过程中的某个瞬间对上述匹配过程的形象化描述。
图 4
图 4.「新增-指派」操作中,临时对象与已存在对象之间相似性衡量示意,虚线表示「新增」,实线表示「指派」
通过上述的三种操作,OONP 解析器可以对复杂的文档进行结构化解析。下面的图 5 给出了一段短文本解析的示例:OONP 解析器做通过一个动作序列,逐步形成了包含六个对象和六条链接的本体结构。
图 5
图 5. OONP 解析器解析文档过程示意。假设在预处理阶段,汽车的描述已经被抽取。
作者在三个数据集上对模型的性能进行了实验。以公安报案数据为例,OONP 使用了如图 6 中列举的 action。
图 6. 公安报案数据中使用的 action
图 7 比较了 OONP 的不同实现:论文衡量模型性能用了四个指标,Assign Acc 表示预测对象「新增和指派」的正确率,Type Acc 表示预测对象属性的正确率,Ont Acc 表示单个样本解析的本体结构和标签 100% 重合的正确率,Ont Acc-95 表示单个样本解析的本体结构和标签 95% 重合的正确率。简单的 OONP 模型较以 Bi-LSTM 为基准模型有很大提升,具有丰富结构信息的 OONP(structured)则又有明显提升。而在 OONP(structured)的基础上,用强化学习来决定分类时机的模型 OONP(RL)则又进一步提高了效果。
图 7. 多个 OONP 模型的比较
作为总结,OONP 解析框架具有如下特点:
【本文是专栏机构“机器之心”的原创文章,微信公众号“机器之心( id: almosthuman2014)”】
网页题目:文档解析框架:面向对象的神经规划
当前URL:http://www.mswzjz.cn/qtweb/news30/551230.html
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能