面向人机对话意图分类的混合神经网络模型

自然语言处理与智能软件技术研究团队

更多动态

4234

2020-11-16

面向人机对话意图分类的混合神经网络模型

【原文：周俊佐朱宗奎何正球陈文亮张民--苏州大学计算机科学与技术学院人工智能研究院--载于软件学报-第30卷-第11期-2019年11月】

人机对话的发展让计算机能准确理解用户的查询意图。意图分类的主要目标是在人机对话的过程中判断用户的意图，提升人机对话系统的准确度与自然度。通常的做法是，将用户语音通过语音识别技术转换成文本后，再通过意图分类算法将其识别到相应类型下的具体意图，从而识别出用户输入到对话系统执行某个动作之间的一个映射关系。该文提出了一种新的混合神经网络模型，并加入ELMo进一步加强语义表示。

在人机对话意图分类中，主要存在三个问题：

1. 由于语音识别性能、用户口音、表达喜好等，容易出现不规则特征词和未登录词，使得文本表示方法不够准确。

2. 由于人类对话以寒暄和多轮对话为主，导致内容具有特征稀疏性问题，增加了抽取有效特征的难度。

3. 由于语言表达喜好和精简能力有差异，会造成文本长度分布不均，影响系统性能。

图1 混合神经网络模型

模型：

1.词编码层（word encoding layer）

早期的词编码运用的是One-Hot因为一个词对应一个位置，词表扩大会有数据稀疏问题。该文运用了近年来热门的预训练方法并进行比较，word2vec和ELMo，前者通过查表方式获得对应词的语义向量表示，后者结合查表输出和语言模型输出（LSTM）作为词编码层输出。

2.句子编码层（sentence encoding layer）

首先经过随机失活（Dropout）层，失活率设为0.5，防止过拟合。该层由Bi-LSTM和Bi-GRU组成。首先输入进一层双向LSTM中，其由输入门、遗忘门和输出门构成，将上一时刻隐藏层向量和当前时刻输入作为输入，遗忘门决定哪些信息被舍弃，哪些被保留；输入门获得输入的信息，输入到当前状态中；输出门获得更新后的当前状态，生成当前时刻的隐藏层向量，输出到下一时刻中。Bi-LSTM在此基础上，从前向和后向两个方向对输入序列进行编码。得到两个方向的LSTM编码信息后，将他们拼接起来，接着输入到Bi-GRU中。GRU只有重置门和更新门，和LSTM一样由上一时刻隐藏层向量和当前时刻输入作为输入，通过两个门控单元对信息筛选。重置门对输入进行重置，输入到更新门中。更新门对信息进行遗忘和记忆，决定那些信息该遗忘，哪些该记忆下来，其中门控信号z，越接近1代表记忆得越多，越接近0代表遗忘得越多。在此基础上再进行双向编码，将得到的每个时刻的输出序列进行拼接，输出到下一层中。

3.混合网络层

该层融合了三种神经网络的输出，包括Capsule（胶囊）网络、MFCNN（多粒度）网络和Attention（注意力）机制。

（1）Attention（注意力）机制

注意力机制采取查询键值对的方式，对每一时刻的输入序列进行词权重更新分配，最终得到带有不同权重大小的输出序列，采取特征自动加权的方法,可以有效地从长文本中捕捉到的重要的特征信息，计算公式如下：

（2）MFCNN（多粒度）网络

传统 CNN 的隐藏层只使用单一粒度的卷积核，MFCNN通过不同的卷积域,抽取句子中不同位置的 n-gram 特征。

表示输入的句子,L 为句长,K 为特征维度，对应于句子中第 i 个词的 K 维特征。设置同一窗口值不同窗口大小的卷积核，在此基础上扩展到多个不同窗口值的卷积核进行计算，MFCNN使用多个窗口卷积核，对窗口大小a=1,...,B的卷积核抽取特征，如下公式所示，这只是单个卷积核的工作流程，本文使用了m1个卷积核。

（3）Capsule（胶囊）网络

Capsule和普通网络的输入输出不同，不是一个标量值而是一个向量特征，可以呈现出某种类型的概率，以及广义特征，比如文本长度、位置信息、语义等等，并用动态路由算法代替反向传播算法。其包括常规卷积层，Capsule的卷积层以及全连接层，第一层和普通CNN操作一样，对输入进行多个卷积核操作，提取特征；经过第一层后，对特征向量进行reshape，输入到其他的capsule中，每一层capsule的输入为前一层capsule的加权求和，动态路由算法决定了其中的系数，前一个capsule生成后，产生了相应的系数，该系数传入到下一个的输入中，随着网络进行更新，对Capsule的输出做一次压缩操作，得到Q₂。通过混合层得到文本最终的特征表示，如下公式所示，再通过一个权重映射得到总的类别得分，运用softmax对其进行分类。

总结：

原文提出了一种混合神经网络层的模型,结合MFCNN和Capsule在短文本特征处理和Attention在长文本特征处理上的优势,混合使用Capsule、Attention与MFCNN层。在此基础上,结合语言模型词向量 ELMo,将语言模型拥有的语义挖掘能力应用到混合网络中，实验结果表明有较好的性能表现。也有一些可以改进的地方，比如探究更多、更好的短文本和长文本处理优异模型的结合方式；在特征编码词向量上,在语义单元上可以考虑字级别特征以及字级别与词级别的结合；尝试BERT预训练模型。

撰稿：周岑钰

审稿：丁美荣

登录用户可以查看和发表评论，请前往登录或注册。