实体嵌入(向量化):用深度学习处理结构化数据

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

本博文将涉及机器学习中两个重复出现的问题:第一个问题是深度学习在图像和文本中都有较好的表现,我们又如何将其用于表格数据?其次,在构建机器学习模型时,你必须始终问自己一个问题:将如何处理数据集中的分类变量?令人惊讶的是,我们可以用相同的答案回答这两个问题:实体嵌入。

现在,深度学习在许多方面都优于其他机器学习方法:图像识别,音频分类和自然语言处理只是众多应用中的一部分。这些研究领域都使用所谓的“非结构化数据”,即没有预定义结构的数据。一般来说,这些数据也可以按照一定的顺序(像素,用户行为,文本)排列。深度学习已成为处理非结构化数据的标准。现在的问题是深度学习是否也可以在结构化数据上有较好的表现。结构化数据是以表格格式组织的数据,其中列表示不同的特征,而行表示不同的数据样本。这与数据在Excel工作表中的表现形式类似。目前,结构化数据集的黄金标准是梯度提升树GBT模型(Chen&Guestrin,2016)。他们在Kaggle比赛以及学术文献中一直都有最好的表现。最近的深度学习已经表明它可以在结构化数据上匹配这些增强树模型。实体嵌入在此扮演着重要角色。

结构化数据与非结构化数据

实体嵌入

实体嵌入在结构化数据上拟合神经网络这一方面已经取得成功,例如,Kaggle竞赛中的获胜方案使用实体嵌入来处理每次乘坐的分类元数据预测出租车车距(deBrébissonetal.,2015)。同样,预测罗斯曼药店商店销售任务的第三个解决方案使用了比第一个和第二个解决方案更为简单的方法。该团队使用一个具有实体嵌入的简单前馈神经网络作为分类变量来实现,分类变量的种类超过1000个类别,如商店ID(Guo&Berkahn,2016)。

如果这是你第一次阅读有关嵌入的内容,我建议你先阅读本文。简而言之,嵌入是指向量的类别表示。让我们来演示一下下述这句话是如何工作的:

‘Deeplearningisdeep’

我们可以用向量来表示每个单词,所以“deep”这个单词变成类似[0.20,0.82,0.45,0.67]的东西。实际上,人们会用像1231这样的整数代替单词,并使用查找表来查找链接到每个整数的矢量。这种做法在自然语言处理中非常常见,并且还用于包含行为序列的数据,如在线用户的踪迹。实体嵌入是指在分类变量上使用这一原则,其中分类变量的每个类别都由向量表示。

让我们快速回顾下机器学习处理分类变量的两种常用方法。

1.热编码(One-hotencoding):创建二进制子特征,如word_deep,word_learning,word_is。属于该数据点的类别值为1,其他值为0。所以,对于“deep”这个词,特征word_deep为1,word_learning,word_is则为0。

2.标签编码(Labelencoding):像之前的例子那样分配整数,因此“deep”为1,“learning”为2等等。这种方法比较适用于基于树的方法,但不适用于线性模型,因为它意味着赋值的顺序。

实体嵌入基本上将标签编码方法上升了一个层次,不仅仅是将一个整数分配给一个类别,而是整个向量。这个向量可以是任意尺寸,并且必须由研究人员指定。你可能想知道这些实体嵌入的优点是什么。

1.实体嵌入解决了独热编码的缺点。具有许多类别的独热编码变量会导致非常稀疏的向量,这在计算上是无效的,并且难以优化。标签编码解决了这一问题,但只能用于基于树的模型。

2.嵌入提供有关不同类别之间距离的信息。使用嵌入的优点在于,在神经网络的训练期间,也要训练分配给每个类别的向量。因此,在训练过程结束时,我们最终会得到一个代表每个类别的向量。这些训练过的嵌入被可视化,为每个类别提供可视化。在Rossmann销售预测任务中,即使没有为模型提供地理位信息,德国的可视化嵌入显示了与各州地理位置相似的集群。

3.训练好的嵌入可以保存并用于非深度学习模型。例如,每月训练分类特征的嵌入并保存。通过加载训练好的分类特征嵌入,我们可以使用这些嵌入来训练随机森林或梯度提升树GBT模型。

选择嵌入尺寸

嵌入尺寸是指代表每个类别的向量长度,并且可以为每个分类特征设置。类似于神经网络中超参数的微调(tuning),嵌入尺寸的选择没有硬性的规定。在出租车距离预测任务中,每个特征的嵌入尺寸为10。这些特征具有不同的维度,从7(一周的天数)到57106(客户端ID)。为每个类别选择相同的嵌入尺寸是一种简单易行的方法,但可能不是最优的方法。

对于Rossmann商店销售预测任务,研究人员选择1和M之间的一个值(类别数量)-1,最大嵌入尺寸为10。例如,一周中的某天(7个值)的嵌入尺寸为6,而商店ID(1115个值)的嵌入尺寸为10。但是,作者没有明确的选择1和M-1之间选择的规则。

JeremyHoward重建了Rossmann竞赛的解决方案,并提出了以下解决方案来选择嵌入尺寸:

可视化嵌入

嵌入的优点是可以将已经学习到的嵌入进行可视化处理,以显示哪些类别彼此相似。最流行的方法是t-SNE,它是一种降维技术,特别适用于高维数据集的可视化处理。最后,让我们列举两个简单的可视化嵌入的例子。以下是家用产品的可视化嵌入及其所属类别。类似的产品,如烤箱,冰箱和微波炉之间非常相似;充电器,电池和钻头等产品也是如此。

另一个例子是在本文前面提到的Rossmann销售预测任务中德国各州的学习嵌入。嵌入中各州之间的邻近性与其地理位置相似。

德国各州学习嵌入示例

参考资料

[1]Chen,T.,&Guestrin,C.(2016,August).Xgboost:Ascalabletreeboostingsystem.InProceedingsofthe22ndacmsigkddinternationalconferenceonknowledgediscoveryanddatamining(pp.785–794).ACM.

[2]DeBrébisson,A.,Simon,é.,Auvolat,A.,Vincent,P.,&Bengio,Y.(2015).Artificialneuralnetworksappliedtotaxidestinationprediction.arXivpreprintarXiv:1508.00021.

[3]Guo,C.,&Berkhahn,F.(2016).Entityembeddingsofcategoricalvariables.arXivpreprintarXiv:1604.06737.

THE END
1.社工备考:社区工作方法的三大模式对比(2)【练习1】小章在春华社区开展服务时,鼓励大家参与进来,针对社区的车辆乱停乱放问题,开展居民会议,广泛听取大家的意见,制定了方案,在大家的共同努力下,对车辆的停放进行了很好的规划。上述案例中体现的是社区工作的: A.危机介入模式 B.社区照顾模式 C.地区发展模式 ...https://bijie.huatu.com/2024/1115/1918322.html
2.管理学:社区治理试题及答案(每日一练)考试题库33、填空题 美国学者罗斯曼把社区工作分为三大模式,即()()()。 点击查看答案 34、填空题 社会工作通用过程模式是建立在()理论基础上的。 点击查看答案 35、问答题 试述古代传统社会社区治理的基本特征。 点击查看答案 36、填空题 乡镇政府和村民委员会之间的关系是()。 点击查看答案 37、问答题 试述我国...http://www.91exam.org/exam/87-2996/2996320.html
3.全国各大高校近年社工(MSW)考研真题.pdf社会工作实务 一、名词解释 1、支持性技巧 2、互惠式小组 3、目标树 4、参与式发展 5、政策偏离 二、简答题 1、社区资源养老项目中整合资源要做哪些工作? 2、社会政策的实施模式及优缺点? 3、我国在推进民生保障一体化过程中重点领域策略? 三、论述题 社会工作专业关系? 社会工作与服务对象的关系如何? 四、选...https://www.renrendoc.com/paper/342956934.html
4.文化人类学概论讲义教案.doc《古代社会》:社会进化发展所经历的主要阶段——即蒙昧、野蛮、文明3个阶段,每个大的阶段又分成3个小的发展时期,这些发展阶段的划分是以技术发明为基础的,技术的发明与文化的进化模式相互联系,把人们对于古代社会的实际形态的错误认识加以正确的引导(L.H.Morgan)社会进化观:生活资料生产的进步是划分原始社会阶段的...https://max.book118.com/html/2018/1101/8020064034001131.shtm
5.论弱势群体权益的法律保护英国社会工作专家罗斯曼(Rothman)则认为,弱势群体是那些由于缺乏生活能力所造成依赖的人群,他们包括身体或精神残疾的人、年老体弱的人、童年时期丧失父母的儿童。[5]吉特曼(Giteman)和舒尔曼(Shulman)认为,弱势群体是那些由他们无力控制的环境和事件所压倒的人,包括爱滋病人、无家可归者、性虐待者、社区和家庭暴力...https://china.findlaw.cn/xfwq/xiaofeiweiquanlunwen/19459.html
6.计算蛋白质设计的方法与流程Figueroa,M.等人[PLoSOne,2013,8(8),第e71858页]使用Rosetta套件使用称为“OctarellinV”的模型作为起始主链模型来设计TIM桶蛋白,并使用Rosetta环构建方案构建了展示选择二级结构模式的PDB蛋白的六残基片段的环区域。基于在β链-α螺旋界面处的包装的β链之间的氢键和Rosetta全原子能量函数来估计最终结构。在蛋白质...https://www.xjishu.com/zhuanli/01/201580047701.html
1.社区管理终极指南[根据每日这样做的专家的说法]查看不同类型的社区管理的最简单方法是使用。 该框架根据两个主要要素组织社区管理:1)社区的主要功能和 2)社区的焦点。 首字母缩略词“SPACES”代表六个不同的社区管理类别: (S) 支持:授权成员回答问题并帮助解决彼此的问题。最适合:拥有深入产品线(例如软件)的品牌。 (P) 产品:允许客户分享有关您的产品和服务...https://www.mtwanmei.com/index/news-detail-1691.html
2.社区治理作业一答案(通用4篇)4、社区管理模式---社区管理模式的构成要素主要有:社区环境与结构特征,党的领导和政府职能,市场作用与影响,以社区为基础民间组织的地位与角色,社区工作者作用与角色,社区服务对象、服务内容和范围,社区资源结构与状况。 三、简答题 1、试阐述社区管理的功能。 (...https://www.360wenmi.com/f/filewe6cll2s.html
3.我国城市社区治理模式创新研究文章的第二部分充分阐述了国内外在社区治理方面大量的理论和实践。国内主要分为五个部分,一是社区重建模式;二是政府授权模式;三是社区自治模式;四是社区再造理论;五是三种模式论。国外部分主要是介绍了欧美国家在社区治理与建设发展方面四十多年来的发展。典型的代表有英国的波普尔、巴腾,美国的罗斯曼、泰勒、罗伯特、...https://cdmd.cnki.com.cn/Article/CDMD-11912-2008083280.htm