陈峥博士COLING 2020论文解读:基于 BERT 的交互式机器读取器

浏览:9568 作者:91获客 时间:2021-01-19 11:56:40



上月,第28届国际计算语言学会议(COLING 2020)在线上圆满举行,91获客首席科学家陈峥博士出席并发表论文演讲。


计算语言学国际会议COLING 2020(是计算语言学和自然语言处理领域的顶级国际会议,由ICCL(国际计算语言学委员会)主办,每两年举办一次,是CCF推荐的B类顶级会议。


陈峥博士发表论文主题为《ForceReader: a BERT-based Interactive Machine Reading Comprehension Model with Attention Separation》,主要提出了种基于 BERT(Bidirectional Encoder Representations from Transformers) 的交互式机器阅读理解模型 Force Reader



图 1:陈峥博士论文录用函


Force Reader是一种基于 BERT 的交互式机器读取器,通过大量分析论述,提出了Force Reader的总体模型,并且是通过多种实验方式结果比较推出。事实证明,Force Reader对于语言阅读理解任务执行能力有了显著性提高。


论文主要贡献价值


一、对目前 BERT 在机器阅读理解中的应用进行了详细分析,并通过可视化方式提出和解释了其存在的注意力分散问题。


首先,肯定了BERT的释放对NLP的发展带来的积极性推动。


一般情况,机器阅读理解需要一台机器根据给定的段落回答问题 Q。BERT通过将 Q 和 P 编码成单个单词序列作为输入来处理这个任务。然而BERT 的联合输入方法可能会让一个部分的语义受到另一个部分词的影响。自我保持机制在处理问题和段落相互作用时,也很难在联合输入序列中准确区分问题和段落对, 无法在问题词和段落之间建立适当的双向注意。



图 2:注意力分散问题的可视化


因此,当前BERT机器阅读理解任务的监督训练不足,存在注意力分散的问题。


二、提出Force Reader模型的总体结构,包括注意力分离表示、多模式阅读、条件背景关注和注意力分散问题的交互推理。


1、注意力分离表示法

为了解决注意力分散引起的问题,我们采用了注意力分离表示法。分别向 BERT模型输入Q和P,变压器模型必须分别计算 Q 和 P 上的注意,而不需要相互注意。这样,Q 的整体语义注意力只会分布在它自己的单词上,而不会被 P 中某些令人不安的单词分心。这种模型使捕获文本部分的语义核心词变得更容易,以便在以后的交互中更好地匹配交互的语义丰富性。


2、多模式阅读结合

我们的模型将Q2P阅读段落之前,有人可能会先阅读这个问题,然后用问题的背景知识从段落中找到答案)、P2Q在阅读问题之前阅读该段,然后用段落的记忆回答问题)、QCP在阅读问题之前阅读该段,然后用段落的记忆回答问题)三种阅读模式结合起来,不断融合计算优势互补,使知识能够通过多种模式获得,以解决不同语境下的阅读理解问题。


图3:Force Reader模型结构


3、条件背景关注

为了在阅读理解任务中执行更多的交互推理,将神经网络常用的特征融合方法如加法、级联和投影等模式进行特征融合,模式之间交互受益,并将其中一种的结果作为其他模式的条件背景语义进行计算,使之不再缺乏整体语义知识。


图4:条件背景关注计算过程


4、互动推理

基于前面的多模式阅读和条件背景注意模型后,提出了问题和段落之间的文字相似性是至关重要的基础信息,提升问题和段落之间的互动,将会是一种阅读理解任务中更好的方式。


通过余弦相似度和L1距离来表达这种相似性,并将这两种度量的结果叠加在一起,得到相互作用张量S。 


图5:互动推理逻辑


除了直接的单词交互,还需要与短语片段的交互模型。还要基于单词交互的多层抽象来捕捉不同窗口段之间的信息交互。训练模型逻辑受卷积神经网络在图像处理领域的成功启发,使用多通道可分离卷积神经网络提取多个交互特征。首先,不同受体的每个通道进行逐点卷积操作。然后执行 1x1 信道卷积运算,以便在信道之间融合信息。经过多层可分离卷积运算后,我们在执行全局最大池化和换位维度以获得输出。



三、实验结果比较与结果分析。


论文所涉及的模型实验是 SQU AD1.1和 SQU AD2.0上运行。实验采用 BERT-Large 作为基线模型,并在基础上进行了一系列改进。 


首先,使用 BERT 分别编码 Q 和 P,从而实现注意力分离表示。然后执行一个注意力读者一样的方法,以获得最终的答案。我们把这个模型命名为SEPBERT Reader。接下来,将多模式建模添加到 SEPBERT Reader 中,以验证多模式读取策略。此外,还包括多模式阅读器的条件背景关注,然后得到一个新的模型,称为 CondAttention Reader。最后,将交互模块添加到 CondAttention Reader 中,这构成了最终的模型,涵盖了本文提到的所有改进方案。最后的模型叫做Force Reader。


以下表1的实验结果也证明了每次改进的贡献。


表 1:SQUAD 实验结果的比较



结果表明,模型在SQUAD1.1 上已经超过了人类的性能。它也接近 SQUAD2.0 上的人类性能。


以下图6-8也直观地分析了注意力,直观地展示了模型的学习能力和可解释性。



图 6:问题核心词的注意可视化



图 7:问题词注意段落顺序



图 8:段落词注意问题顺序


综上,论文主要通过分析了 BERT 在机器阅读理解中的应用,提出了注意力分散问题,并对其对阅读理解的影响进行了详细分析。针对这一问题,论文提出了一种高效、直观的模型,将注意力分离表示、多模式阅读、 条件背景关注和交互推理结合起来。注意分离表示法有效地解决了注意去集中的问题。多模式阅读、有条件背景关注和互动推理可以使模型更好地适应阅读理解的高度交互。 


本次论文的意义,不仅提升了机器阅读理解任务的执行能力,也为变压器模型的可解释性提供了一个新的论点。


陈峥博士作为91获客首席科学家,指导着91获客在人工智能领域的研发工作,一直积极投身于AI在互联网企业服务领域的落地应用。在不断强大的理论支撑和实践探讨下,91获客的AI能力也将获得极大突破,我们也将继续发挥AI和大数据技术的协同优势,创造更多跨行业跨领域的创新机遇,为企业营销行业以及企业客户注入更高更好的“新动能”。

TOP