面向人机对话意图分类的混合神经网络模型

面向人机对话意图分类的混合神经网络模型 

原文:周俊佐 朱宗奎 何正球 陈文亮 张 民--苏州大学计算机科学与技术学院 人工智能研究院--载于软件学报-第30卷-第11期-2019年11月】 

人机对话的发展让计算机能准确理解用户的查询意图。意图分类的主要目标是在人机对话的过程中判断用户的意图,提升人机对话系统的准确度与自然度。通常的做法是,将用户语音通过语音识别技术转换成文本后,再通过意图分类算法将其识别到相应类型下的具体意图,从而识别出用户输入到对话系统执行某个动作之间的一个映射关系。该文提出了一种新的混合神经网络模型,并加入ELMo进一步加强语义表示。

在人机对话意图分类中,主要存在三个问题:

1.  由于语音识别性能、用户口音、表达喜好等,容易出现不规则特征词和未登录词,使得文本表示方法不够准确。

2.  由于人类对话以寒暄和多轮对话为主,导致内容具有特征稀疏性问题,增加了抽取有效特征的难度。

3.  由于语言表达喜好和精简能力有差异,会造成文本长度分布不均,影响系统性能。

图1 混合神经网络模型

模型:

1.词编码层(word encoding layer)

早期的词编码运用的是One-Hot因为一个词对应一个位置,词表扩大会有数据稀疏问题。该文运用了近年来热门的预训练方法并进行比较,word2vec和ELMo,前者通过查表方式获得对应词的语义向量表示,后者结合查表输出和语言模型输出(LSTM)作为词编码层输出。 

2.句子编码层(sentence encoding layer)

首先经过随机失活(Dropout)层,失活率设为0.5,防止过拟合。该层由Bi-LSTM和Bi-GRU组成。首先输入进一层双向LSTM中,其由输入门、遗忘门和输出门构成,将上一时刻隐藏层向量和当前时刻输入作为输入,遗忘门决定哪些信息被舍弃,哪些被保留;输入门获得输入的信息,输入到当前状态中;输出门获得更新后的当前状态,生成当前时刻的隐藏层向量,输出到下一时刻中。Bi-LSTM在此基础上,从前向和后向两个方向对输入序列进行编码。得到两个方向的LSTM编码信息后,将他们拼接起来,接着输入到Bi-GRU中。GRU只有重置门和更新门,和LSTM一样由上一时刻隐藏层向量和当前时刻输入作为输入,通过两个门控单元对信息筛选。重置门对输入进行重置,输入到更新门中。更新门对信息进行遗忘和记忆,决定那些信息该遗忘,哪些该记忆下来,其中门控信号z,越接近1代表记忆得越多,越接近0代表遗忘得越多。在此基础上再进行双向编码,将得到的每个时刻的输出序列进行拼接,输出到下一层中。 

3.混合网络层

该层融合了三种神经网络的输出,包括Capsule(胶囊)网络、MFCNN(多粒度)网络和Attention(注意力)机制。

(1)Attention(注意力)机制

注意力机制采取查询键值对的方式,对每一时刻的输入序列进行词权重更新分配,最终得到带有不同权重大小的输出序列,采取特征自动加权的方法,可以有效地从长文本中捕捉到的重要的特征信息,计算公式如下:

               

                              

(2)MFCNN(多粒度)网络

传统 CNN 的隐藏层只使用单一粒度的卷积核,MFCNN通过不同的卷积域,抽取句子中不同位置的 n-gram 特征。

表示输入的句子,L 为句长,K 为特征维度,对应于句子中第 i 个词的 K 维特征。设置同一窗口值不同窗口大小的卷积核,在此基础上扩展到多个不同窗口值的卷积核进行计算,MFCNN使用多个窗口卷积核,对窗口大小a=1,...,B的卷积核抽取特征,如下公式所示,这只是单个卷积核的工作流程,本文使用了m1个卷积核。

                               

(3)Capsule(胶囊)网络

 Capsule和普通网络的输入输出不同,不是一个标量值而是一个向量特征,可以呈现出某种类型的概率,以及广义特征,比如文本长度、位置信息、语义等等,并用动态路由算法代替反向传播算法。其包括常规卷积层,Capsule的卷积层以及全连接层,第一层和普通CNN操作一样,对输入进行多个卷积核操作,提取特征;经过第一层后,对特征向量进行reshape,输入到其他的capsule中,每一层capsule的输入为前一层capsule的加权求和,动态路由算法决定了其中的系数,前一个capsule生成后,产生了相应的系数,该系数传入到下一个的输入中,随着网络进行更新,对Capsule的输出做一次压缩操作,得到Q2通过混合层得到文本最终的特征表示,如下公式所示,再通过一个权重映射得到总的类别得分,运用softmax对其进行分类。

                        

总结:

原文提出了一种混合神经网络层的模型,结合MFCNN和Capsule在短文本特征处理和Attention在长文本特征处理上的优势,混合使用Capsule、Attention与MFCNN层。在此基础上,结合语言模型词向量 ELMo,将语言模型拥有的语义挖掘能力应用到混合网络中,实验结果表明有较好的性能表现。也有一些可以改进的地方,比如探究更多、更好的短文本和长文本处理优异模型的结合方式;在特征编码词向量上,在语义单元上可以考虑字级别特征以及字级别与词级别的结合;尝试BERT预训练模型。

撰稿:周岑钰

审稿:丁美荣


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: