上海科技大学屠可伟团队:小谈无监督依存句法解析雷峰网

自然语言总有丰富的内部结构信息,而这些信息一般都是通过解析树(parsetree)来进行表示。一般而言,我们把从一个句子到句法树的这一过程称为句法解析(parsing)。

句法解析有很多种形式,最为常用的是基于短语的句法解析(constituencyparsing)和依存句法解析(dependencyparsing)。句法解析作为自然语言处理(NLP)的基础任务之一,可以帮助很多其它的任务,包括机器翻译(machinetranslation),句子分类(sentenceclassification)和语义角色标注(semanticrolelabeling)等。

在2004年之前,无监督句法分析有一些研究工作,但是效果都不好(甚至超不过从左连到右(right-branching)和从右连向左(left-branching)这俩baseline)。

第一个取得突破性进展的是来自Stanford的NLP组。当时DanKlein还在Stanford跟随ChrisManning读博士,主要的研究方向就是无监督句法分析,其2004年在ACL发表的工作提出的DependencyModelwithValence(DMV)生成式模型首次超过了branching的baseline。DanKlein天才式的直觉使得其在无监督句法解析上获得突破性进展,并在毕业后担任UCBerkeley的助理教授,领导BerkeleyNLPGroup。

DMV模型提出后,有很多改进的工作。来自JohnsHopkins的NoahSmith当时正在跟JasonEisner读博士,他对DMV的目标函数和学习方式做了一些改进,把英文句法解析的效果提高了近20个百分点。2006年他以杰出的工作在博士毕业后任职CMU的助理教授(现在在UW)。

自DanKlein毕业后,Stanford的DanielJurafsky组的ValentinISpitkovsky继续从事这一方向的研究,提出了babysteplearning,viterbiEMtraining等方法来训练DMV模型,因其提出的方法简单有效,后续有很多基于viterbiEMtraining的工作。

下图是传统句法解析的步骤,左图是原始句子,中图是词性标注后的结果,右图是解析出的句法树:

因为无监督句法解析这个任务比较困难,我们一般用标注后的词性序列(POSTagsequence)作为训练数据,而不是原始的句子。

(一篇发表在EMNLP2016上,一篇发表在EMNLP2017上)

DMV是一个句子级别的生成模型,建模句子x和句法树y的联合概率分布P(x,y)。从根节点开始递归地生成句子中的词。下面是一个词性序列生成过程的例子:

这个生成过程有10个采样步骤,每一步生成一个词或者做一个是否继续生成的决策。这里采样的概率在原始的DMV模型里是用一些表来建模,我们在EMNLP2016提出使用神经网络来计算这些概率,同时,把离散的词,方向等通过embedding来表示。如下图所示,输入是词性,valence和方向,输出是规则的概率集合,我们把模型称为NeuralDMV(NDMV)。

在我们了解的范围内,这是第一次把神经网络用在无监督句法解析上。学习的过程也很简单:

学习是期望最大化(EM)算法的变种,E步使用动态规划得到每个grammarrule的使用次数,M步分为两部分:

第一部分是通过grammarrule的使用次数训练神经网络的参数;

第二部分是通过神经网络预测grammarrule的概率,以此循环直至收敛。

下图是我们在PTB上的实验效果,可以发现我们在相同设定下取得了目前最好的效果:

我们知道,大模型和大数据是深度学习成功的关键,因此我们也想在无监督句法解析上大模型和大数据的关系。我们对NDMV进行了拓展,引出词的信息,并在多种大小数据集上进行了实验,有了以下三个实验发现,发表在EMNLP2017上:

下图是在传统DMV模型上的实验,我们发现在相同数据下随着degreeoflexicalization的增加(模型变大),效果变差。但是随着训练数据的增加,效果有所提升。

当我们用神经网络来smooth这个概率分布后,明显发现在少量数据下随着degreeoflexicalization的增加效果下降的不那么严重了。

当我们使用更好的模型初始化方法(’expert’initialization)时,我们发现随着数据集的增大和degreeoflexicalization的提高,效果有了明显提升。

下图是我们在WSJ10数据上的表现:可以看到,我们在WSJ10上取得目前最好的效果,在完整的WSJ数据上也表现的不错。

(发表在EMNLP2017上)

给定一系列未标注的数据样本,我们训练的目标函数是(带正则项的)重建概率:

注意这里我们与原始CRF-Autoencoder的区别在于,我们是寻找条件联合概率最大的y而不是穷举所有可能的y。为了鼓励学习到的句法树符合一些语言知识,我们在这个目标函数上添加了一个软限制条件,最后的目标函数如下:

这里的Q(x,y)是一个对(x,y)对进行打分的项。我们提出使用坐标下降法来优化这个目标函数:交替优化encoder的参数和decoder的参数。在优化encoder的参数时,我们跑两个epoch的随机梯度下降;在优化decoder时,我们跑两轮维特比EM算法。

我们在八个语言上进行了测试,下表是在英语上的结果:

可以发现,我们的模型比2015年提出的另外一种判别式模型效果要好,跟目前最好的效果相当。

通过以上的分析我们知道,生成式模型和判别式模型在无监督句法分析上具有各自的优势。在这一篇论文里,我们提出联合训练这两个模型。联合训练的目标函数是:

这里的F和G分别代表两个模型,F是LC-DMV而G是Convex-MST。各自优化的目标函数是:

我们提出利用坐标下降来优化这个目标函数:交替优化y和两个模型的参数。在优化y的时候,对于每一个句子我们需要进行解码(decoding),这里我们利用对偶分解算法来求解。整个学习过程如下所述:

我们在30个语言上验证了我们的联合训练方法,最终效果如下所示:

实验发现,联合训练可以分别帮助两个模型得到更好的效果,有趣的是生成式模型最终效果比判别式的好。同时我们也做了一些实验的分析,发现联合训练后两个模型确实可以相互取长补短,学到对方一些好的特性。

最后想介绍一下上海科技大学屠可伟老师研究组。我们的研究组主要从事自然语言处理、机器学习、知识表示等人工智能领域的研究,近两年在EMNLP、IJCAI、AAAI、ICCV等顶级会议上发表了十余篇论文,现招收硕士研究生和博士后,欢迎对自然语言处理和机器学习有兴趣的同学联系屠可伟老师。

THE END
1.shanghaitech数据集使用MCNN进行人群计数:使用多列卷积神经网络对ShanghaiTech数据集进行人群计数 使用MCNN进行人群计数-MindSpark Hackathon 2018 使用多列卷积神经网络对ShanghaiTech数据集进行人群计数。 这是CVPR 2016论文“通过多列卷积神经网络进行单图像人群计数”的非正式实施。 注意:可以做出预测。 有关热图生成的工作正在进行中。 https://www.iteye.com/resource/weixin_41143397-11076450
2.ShanghaiTech数据集开发实例源码下载基于多列卷积神经网络的单图像人群计数的ShanghaiTech数据集【实例截图】【核心代码】 4744300845374237895.zip├── part_A_final│ ├── test_data│ │ ├── ground_truth│ │ │ ├── GT_IMG_100.mat│ │ │ ├── GT_IMG_101.mat│ │ │ ├── GT_IMG_102.mat│ │ │ ├── GT...https://www.haolizi.net/example/view_222890.html
3.ShanghaiTechShanghaiTech-A数据集,用于人群密度的评估。 数据集简介 此数据集图片来自于互联网图片,并且该数据集仅包含ShanghaiTech-A的测试图片,共计包含182张测试图片。 数据集格式 ShanghaiTech-A/ - *.jpg - *.mat 其中jpg和mat为同名数据对应的图片和GT标注 ...https://modelscope.cn/datasets/modelscope/ShanghaiTech-A/summary
4.ShanghaitechA数据集shanghaiTech数据集包含两部分:part_A_final,part_B_final A部分训练集:300张图片,测试集:182张图片。 part_A_final --- train_data ---test_data B部分训练集:400张图片,测试集:316张图片。 part_B_final --- train_data ---test_data A,B两部分测试集和...https://tianchi.aliyun.com/dataset/129503
5.基于卷积神经网络的复杂嘲人群计数算法研究.pdfShanghaiTech数据集上的MAE和MSE为61.7、7.8和99.6、12.8,结果表明所提算法 在人群非均匀分布的场景下具有较高的准确性和鲁棒性。 (2)针对复杂场景下背景噪声干扰和大规模尺度变化的问题,提出一种基于注意力 机制的多尺度融合人群计数算法。首先,构建基于残差连接的空洞空间卷积池化金字塔, 通过多个不同空洞率的空洞...https://max.book118.com/html/2024/0325/5322133022011131.shtm
6.资源人群计数最全资源(含代码工具数据集论文...ShanghaiTech Part B Year-Conference/JournalMethodsMAEMSE 2016--CVPR MCNN 26.4 41.3 2017--ICIP MSCNN 17.7 30.2 2017--AVSS CMTL 20.0 31.1 2017--CVPR Switching CNN 21.6 33.4 2017--ICCV CP-CNN 20.1 30.1 2018--TIP BSAD 20.2 35.6 2018--WACV SaCNN 16.2 25.8 2018--CVPR ACSCP 17.2 27.4 2018-...https://www.cvmart.net/community/detail/323
1.微软上海交通等发布首届数据污染报告,开闭源模型皆被污染简单来说,数据污染是指在自然语言处理中,评估数据被无意中包含在预训练数据集中,从而影响模型评估结果的情况。 为了深入研究数据污染问题,麻省理工、上海交通、哈佛大学、微软研究院、IBM、剑桥大学等20多家机构联合召开了首届数据污染(2024CONDA)研讨会,旨在收集当前可用数据集和模型中数据污染的证据并公布了实际情况。https://www.toutiao.com/article/7443973632038126090/
2.UCFCrime和Shanghaitech两个基准数据集训练集包含810个异常视频和800个正常视频,测试集包含140个异常视频和150个正常视频。 数据集提供视频级标注的训练集和帧级标注的测试集。 ShanghaiTech数据集: 包含437个高分辨率校园监控视频,覆盖了13个场景。 数据集中标注了130个异常事件,训练集由238个正常视频组成,测试集包含199个视频。 https://blog.csdn.net/weixin_41429382/article/details/144222042
3.上海十四五人工智能趋势人工智能是一门研究如何使计算机能够像人类一样进行智能行为的科学。上海十四五人工智能的趋势可以粗略地定义为在人工智能技术和应用领域的发展方向和发展态势。这包括了上海在人工智能算法、硬件设备、数据集和应用方面的进展。 二、分类 在上海的人工智能领域,可以将其分类为以下几个方面:机器学习、深度学习、自然语言处...http://www.hlwwhy.com/article/7126404.html
4.ShanghaiTechUniversityPearl Studio visits ShanghaiTech The leadership of Pearl Studio, a renowned international animation company and a member of the China Media Capital Group (CMC), visited ShanghaiTech University on November 21. They came to explore the possibility of cooperating with ShanghaiTech in cultivating animat...https://www.shanghaitech.edu.cn/eng/1001/list.htm
5.shanghaiTech数据集详细介绍shanghaiTech 数据集详细介绍 技术标签:深度学习计算机视觉pythontensorflow 查看原文 人群密度估计现有主要数据集特点及其比较 ShanghaiTechdataset 总共1198张标记图片,数据集分为两部分part_A和part_B,part_B部分的图片相较于part_A部分的图片人群分布更为稀疏。 MCNN中首次建立该数据集,part_A部分300张用于训练,182...https://www.pianshen.com/article/95011021159/
6.数据集ShanghaiTechDatasetOpenIShanghaiTech.zip 333 MiB CPU/GPU 公开 2023-02-03 17:18:56 下载预览 共1 条 1 前往 页 删除该版本的数据集 你确定要删除该版本的数据集么?一旦删除不能恢复。 取消操作 确认操作 请仔细阅读下方内容: 尊敬的启智用户 感谢您一直以来对Openl启智社区AI协作平台的支持。为了保障您的使用权益和确保网络安全...https://openi.pcl.ac.cn/Wan_/ShanghaiTech-Dataset/datasets
7.shanghaitech数据集黑蕾**nc上传166.33 MB文件格式zip图像分类人群计数 shanghai数据集用于行人密度识别、适用于MCNN人群密度估计 (0)踩踩(0) 所需:1积分 debugpy-1.7.0-cp310-cp310-win32.whl 2024-11-15 14:35:43 积分:1 debugpy-1.7.0-cp37-cp37m-win32.whl ...https://www.coder100.com/index/index/content/id/1603139
8.上海疫情最新发现,科技之光助力抗疫之路,前沿科技产品变革体验...这款高科技产品是一款集智能监测、数据分析、健康管理于一体的智能防疫终端,它集成了最新的生物识别技术、人工智能技术和云计算技术,为疫情防控提供了全新的解决方案。 功能亮点 1、智能监测:该终端可实时监测用户的健康状况,包括体温、血氧、心率等关键指标,并通过生物识别技术对用户身份进行确认,确保数据的准确性。 http://www.szjygg.com/post/19305.html
9.rpc数据集图像分割图像数据集处理读取数据集 1. ShanghaiTech 2. UCF-QNRF 数据持久化 1. h5py存储数据 2. numpy存储:数组、字典 路径类 1. 获取一个路径最后一个目录或文件的名字 os.path.basename("D:\Project\AI-learning\Pytorch-UNet\data\masks\IMG_100_mask.npy") # 输出: IMG_100_mask.npy ...https://blog.51cto.com/u_16213650/10319317
10.CSRNet:DilatedConvolutionalNeuralNetworksfor...1、ShanghaiTech数据集 ShanghaiTech人群统计数据集包含1198个注释图像,总数为330,165人。这个数据集由两部分组成,分别是A部分,其中包含482个图像,随机从互联网上下载高度拥挤的场景,而B部分包括716张图像,上海街道上有相对稀疏的人群场景。 ShanghaiTech数据集结果.png ...https://www.jianshu.com/p/feda02961e31
11.多元信息聚合的人群密度估计与计数由ShanghaiTech数据集实验结果可知,在Part_A中,本文算法MAE与文献[21]方法相比下降了2.9,MSE下降了3.8;在Part_B部分,与文献[21]方法相比,MAE下降了0.1,MSE下降了0.3,提升幅度较Part_A小。这主要由于本文多元信息提取方法侧重提升高密场景特征捕获能力,故在以密集人群为主的Part_A部分效果较好,而在以稀疏人群为主...https://www.fx361.com/page/2022/0601/16378342.shtml
12.数据集人群统计 3 个公开数据集 FDST 人群计数数据集 FDST 全称 Fudan-ShanghaiTech,是一个视频人群计数数据集。该数据集包含了从 13 个不同的场景中的… 人脸检测 59 个公开数据集 VGG-Face2 人脸识别数据集 VGG-Face2 Dataset 是一个人脸图片数据集,包含共计 9131 个人的面部数据,图像均来自 Google … ...https://hyper.ai/?p=17124
13.opendatalab.com/OpenDataLab/ShanghaiTechShanghaiTech 异常检测人群计数-Crowd Counting视频中的异常事件检测-Abnormal Event Detection In Video 标注类型-Label type 简介-Introduction Shanghaitech 数据集是一个大规模的人群统计数据集。它由 1198 个带注释的人群图像组成。数据集分为两部分,Part-A 包含 482 张图像,Part-B 包含 716 张图像。 Part-A...https://opendatalab.com/OpenDataLab/ShanghaiTech
14.基于轻量级卷积神经网络的人群计数算法研究另外,在ShanghaiTech数据集、UCF-QNRF数据集以及UCF CC 50数据集上进行测试,MobileFusion均表现出优秀的性能;其次,针对编码结构,对MobileFusion进行改进,搭建出了更加轻量的人群计数模型,将其称为GhostFusion。该模型的编码结构基于GhostNet中的Ghost模块搭建而成。另外,为提升模型的精度,在编码结构中分别引入轻量级的...https://wap.cnki.net/lunwen-1021175438.html