一、概要
该文章发于ACL 2017,针对于已有的大多数神经网络多任务学习模型进行文本分类,存在的共享特征(shared features)可能再次包含特定任务特征(task-specific features)或者含有来自其他任务带来的噪声问题,作者提出了一个对抗多任务学习模型,缓解了共享特征空间和特定任务特征空间相互干扰的问题,作者在16个任务上进行实验证明其模型的有效性,并且实验结果表明模型的共享特征学习到的知识可以很好地用在新任务上。
二、模型方法
2.1 Adversarial Shared-Private Model
2.2 Recurrent Models for Text Classification
本文使用Long Short-term Memory(LSTM)模型进行文本分类,关于LSTM模型可见【Deep Learning】LSTM(Long Short-Term Memory)及变体。对于一个给定的句子x = { x1,x2,···,xT },首先通过lookup层获取到每个词的向量表示,然后通过LSTM,使用最后一个时间步的输出 hT 作用整个句子的表示,最后通过一个softmax层进行分类,得到相应类别的概率。
2.3 Multi-task Learning for Text Classification
多任务学习的目标是通过多个任务并行学习到它们的相关性来提高分类的准确性;假设第k个任务中存在 Nk 个样本,那么将 Dk 定义为:
3.2 Competitor Methods for Multi-task Learning
其中MT-CNN模型是由Colbert和Weston(2008)提出使用卷积神经网络的模型,只有lookup层共享,其他层则是特定任务私有。MT-DNN:该模型由Liu等人提出(2015),其中包含词袋输入和多层感知器,隐藏层是共享的。
3.3 Shared Knowledge Transfer
其中存在两种知识迁移的方法,如下图,黄色方框表示来自其他15个任务训练得到的共享特征提取器。
3.4 Visualization
四、结论与思考
本文提出了一个对抗多任务学习模型,缓解了共享特征空间和特定任务特征空间相互干扰的问题,并在16个任务上进行实验证明其模型的有效性,以及通过进行广泛的定性分析,间接证明了模型有效性的提升。
五、个人思考
①首先是最近GAN及强化学习真是被大家玩得火热,通过寻求合适应用场景下使用深度强化学习,本文正是基于此提出了一个较为新颖的模型,并证明其方法的有效性。
②本文的模型在特征提取模块仅使用了LSTM进行特征提取,所以可以进一步加强模型的复杂度,多任务学习与模型融合在一定程度上是不是相似的呢?是否具有普适性?尽管多任务学习最近也非常火热。
参考文献
①Pengfei Liu,Xipeng Qiu,Xuanjing Huang.Adversarial Multi-task Learning for Text Classification
②代码链接:http://pfliu.com/#Publications
③数据集:http://nlp.fudan.edu.cn/data/