论文目录与摘要

题目:基于数据通道的非结构化数据多存储系统作者:蒋静远,鲁伟明,王耀光,楼仁杰单位:浙江大学计算机科学与技术学院摘要:面对大数据大容量、高速率和多样性的特点,传统关系型数据库不再能满足处理海量非结构化数据的需求,越来越多的数据中心开始使用以NoSQL数据库为主,多个数据存储组件相互协同的多存储系统。为了发挥多存储系统中各个存储组件的功能,数据需要在多个存储组件之间进行同步,以ETL和客户端多路写为代表的传统数据同步方式不能满足以NoSQL为存储核心的多存储系统。本文提出的非结构化数据多存储系统以HBase为主数据库,使用Coprocessor索引信息记录和WAL日志文件解析两种方式捕获HBase中的数据变更,并将以此方法实现的变更捕获组件接入DataBus实现数据通道,构建以数据库变更为同步手段的非结构化数据多存储系统。实验结果表明,该系统具有较高的数据变更捕获性能和良好的可扩展能力,为非结构化数据多存储架构提供了一种可行的解决方案。

题目:面向大数据的分布式流处理技术综述作者:张鹏,李鹏霄,任彦,杨嵘,林海伦,刘庆云单位:国家计算机网络应急技术处理协调中心摘要:随着大数据的到来,数据流处理技术又成为了新的研究热点。为此本文回顾了近期提出的面向大数据的流处理技术的现状,并且从流处理模型上对这些技术进行了划分,重点分析了面向大数据的并行分布式的流处理模型的设计目标和架构。同时,重点讨论了并行分布式流处理模型的关键技术以及未来技术的展望。

题目:一种大规模时空数据处理与可视化平台作者:杜一,郭旦怀,周园春,黎建辉单位:中国科学院计算机网络信息中心科学数据中心摘要:当前大多数时空数据处理与可视化工具在数据规模增大时,不能够对数据进行快速的处理与可视化。为解决该问题,本文通过对任务模型、数据模型及可视映射策略的重新定义,给出一种大规模时空数据处理与可视化平台。平台能够支持多种不同类型的时空数据,通过分布式的数据存储、数据重新组织、分布式检索、空间索引、分段预取等技术,能够实现大规模数据的快速处理与可视化。

题目:Hadoop环境下三维模型的存储及形状分布特征提取作者:李海生,赖龙,蔡强,毛典辉,陈谊单位:北京工商大学计算机与信息工程学院摘要:随着三维模型数量爆炸式的增长,如何有效地存储和管理海量的三维模型文件并对其进行高效的处理,是三维模型检索领域亟待解决的问题。本文首先基于模型文件名的概念相似度对模型文件分类合并,存入Hadoop集群的分布式文件系统(HDFS)。通过引入拓扑结构一致性因子,设计了三维模型完整性函数,实现了Hadoop环境下对三维模型形状分布的MapReduce处理,并根据分布式计算的特点进行了性能优化。以中国台湾大学的三维模型数据库作为测试集在Hadoop集群上进行实验,验证了本文算法的有效性。

题目:基于数据位图的滑动分块算法作者:邓雪峰,孙瑞志,张永瀚,聂娟单位:中国农业大学农业部农业信息获取技术重点实验室摘要:网络中相似的数据文件进行同步与存储的过程中,对数据进行分块,是检测数据重复的重要步骤之一,在有效的对数据分块的基础上才能更准确的定位数据间的差异部分。本文就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹为补充校正滑动分块算法定位差异数据的能力的不足之处,从而获得更精确的数据差异信息。经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法。

题目:基于任务合并的并行大数据清洗过程优化

题目:大数据上基于Hadoop的不一致数据检测与修复算法作者:张安珍,门雪莹,王宏志,李建中,高宏单位:哈尔滨工业大学计算机科学与技术学院摘要:随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。本文针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用条件函数依赖作为约束规则检测不一致数据集并求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明本算法较已有的单机算法有更好的修复效果。

题目:对非随机缺失中的缺失依赖关系研究作者:郑奇斌,刁兴春,曹建军单位:解放军理工大学指挥信息系统学院摘要:数据缺失是一种十分重要而又很常见的数据质量问题。对缺失数据的常见处理方法为估计缺失值或者直接删除缺失记录。这两种方法都只用到了未缺失数据中的信息,而隐含在缺失记录中的信息则被舍弃了。在非随机缺失中各个缺失属性并不是独立的,其中存在着依赖关系。本文使用关联规则挖掘的技术,主要是关联规则挖掘,从发生非随机缺失的数据集中发现属性间的缺失依赖关系。利用发现的依赖关系,可以对数据分析或者信息采集改进提供帮助。通过在一个真实数据集上的实验,证明本文的方法可以有效的发现缺失中的依赖关系。

题目:一种含缺失数据的记录逻辑检测方法作者:高科,刁兴春,曹建军单位:解放军理工大学指挥信息系统学院摘要:针对统计数据集中属性值缺失普遍存在的情况,为了更加准确地进行记录的逻辑性检查,在找出问题数据的基础上尽可能多地保留数据的有效信息,提出先利用Fellegi-Holt算法对规则进行推演,再进行数据逻辑检测的方法。分析了算法的基本原理,结合具体数据实例进行规则推演及检测分析,从召回率和准确率两个指标上进一步比较了采用不同方法对问题数据进行检测的效果。实验结果表明,此方法能发现隐含规则,进一步提高问题数据的检测效果。

题目:利用AQL的逐批海洋大数据质量检验模型作者:黄冬梅,周雪楠,王振华单位:上海海洋大学信息学院摘要:海洋数据的质量是数据处理和应用的基础,如何准确高效的评价海洋数据的质量,是制约其精确有效应用的关键问题之一。质量检验方案主要涉及三个参数,即批量、样本量和接收数,而现有的质量检验方案大多集中于样本量与接收数之间的关系推导,忽略了数据批量对于质量检验方案的影响。此类方案不适用于批量大小不固定的海洋大数据的质量检验。针对该问题,通过基于接收质量限(AcceptanceQualityLimit,AQL),提出了符合超几何分布的海洋大数据优化质量检验模型,建立了批量和样本量之间的联系,平衡了数据生产方和使用方对于数据精确度的需求。最后,通过与传统质量检验模型的比较,验证了其对海洋大数据质量检验的有效性。

题目:利用社交关系的实值条件受限玻尔兹曼机协同过滤推荐算法作者:何洁月,马贝单位:东南大学计算机科学与工程学院摘要:利用受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)解决推荐问题已成为一个很有意义的研究方向。目前用于推荐的RBM模型中使用的仅仅是用户评分数据,但用户评分数据存在着严重的数据稀疏性问题。随着互联网对人们生活的不断渗透,社交网络已经成为人们生活中不可缺少的一部分,利用社交网络中的好友信任关系,有助于缓解评分数据的稀疏性问题,提高推荐系统的性能。因此,本文提出基于实值的状态玻尔兹曼机(Real-ValuedConditionalRestrictedBoltzmannMachine,R_CRBM)模型,此模型不需要将评分数据转化为向量单元,将数据中潜在的评分/未评分信息应用到模型训练过程中;并且将最近信任好友关系应用到R_CRBM模型推荐过程中。在百度数据集和Epinions数据集上的实验结果表明R_CRBM模型和引入的最近信任好友关系均有助于提高推荐系统的预测精度。

题目:一种对数据集稀疏度不敏感的协同推荐新方法作者:蔡国永,吕瑞单位:桂林电子科技大学广西可信软件重点实验室摘要:在推荐系统领域中,针对数据集稀疏性问题的研究大都建立在静态数据集的基础上,而实际工业应用中的数据集则往往是动态的并且具有以下两个明显的特征:1)User-Item矩阵维度逐渐增大;2)稀疏程度不断增加.因此,传统的依赖固定稀疏程度数据集的推荐算法的准确率则会随着数据集稀疏度的增加而下降.基于以上考虑,针对稀疏度动态变化的工业数据集的特征,提出一种准确率高而且对数据集稀疏程度敏感性较低的方法.该方法结合了少量的标签信息并利用了因子分析的方法,通过建立一种特殊的因子模型从而为用户构建一个新的User-Factor向量(用户-因子向量),并基于新的User-Factor向量为目标用户进行"邻居发现"和评分预测.最后,我们通过大量对比实验证明了本文中的方法在处理工业应用中的数据集时算法总是能够保持较高且稳定的准确率.

题目:基于Hadoop的领域术语抽取研究作者:杜丽萍,李晓戈,周元哲,邵春昌单位:西安邮电大学计算机学院/中央民族大学理学院摘要:传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈。对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该算法首先利用PMI(Point-wiseMutualInformation)的改进方法确定2元待扩展种子,其次采用左右扩展的方式逐字地把2元待扩展种子扩展至2-n元候选术语(n表示抽取术语的最大长度,可根据需要指定),最后利用两个基本规则过滤候选术语集合。实验结果表明当PMI改进方法的参数取值大于等于3时可解决PMI方法的缺点、基于大规模语料库进行专业术语抽取的必要性和基于并行算法的高效性。

题目:一种融合异构信息网络和评分矩阵的推荐新算法作者:张邦佐,桂欣,何涛,孙焕垚,杨晟雨,韩宇茹单位:东北师范大学计算机科学与信息技术学院摘要:在当今的大数据时代,推荐系统是解决信息超载的有效手段。异构信息网络为推荐系统更多地融合用户与项目信息提供了机遇,而传统的协同过滤推荐系统仅仅使用用户-项目评分矩阵,为了结合二者的优点,提出了一个融合它们的新的解决方案。首先通过对推荐系统中的用户属性和项目属性建立异构信息网络,其次使用基于元路径的相似度计算方法分别计算用户与项目的相似度矩阵,然后使用本文提出的三种将相似度矩阵与用户-项目评分矩阵融合方法,最后采用传统的基于矩阵分解的推荐技术进行预测及结果合并。在MovieLens100K这一国际标准数据集上以及通过IMDB对电影属性进行扩展后,通过实验验证了使用异构信息网络更多地引入用户与项目属性信息以及融合评分矩阵可以有效地提高推荐精度。

题目:基于广域分布时空轨迹大数据的群体行为模式挖掘方法作者:杨杰,李小平,陈湉单位:东南大学计算机科学与工程学院摘要:针对时空轨迹大数据广域网分布存储条件下的群体行为模式挖掘问题,本文基于MapReduce和ACO(AntColonyOptimization)算法提出可在广域网环境分布并行增量执行的DPIA(Distributed&Parallel&IncrementalACO)聚类方法。该方法聚类过程分为历史全量阶段和若干周期增量阶段分段持续执行,通过每个周期的增量数据聚类持续修正已有聚类结果,通过MapReduce实现每个阶段聚类运算的广域网分布并行执行,避免时空轨迹大数据的重复聚类运算和拷贝迁移,大大提升运算效率,保持聚类结果准确性。通过江苏道路交通监控系统的实际数据比较该方法与已有基于MapReduce的并行ACO方法,实验结果表明,DPIA方法具有更好的聚类特性。

题目:大数据环境下的动态知识网络模型及构建方法作者:刘剑,许洪波,唐慧丰,程学旗单位:中国科学院计算技术研究所摘要:针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法。在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建。

题目:面向大数据流的多任务加速在线学习算法作者:李志杰,李元香,王峰,匡立单位:武汉大学软件工程国家重点实验室摘要:多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具。然而目前的多任务在线学习算法收敛率低,仅为O(1/T^(1/2)),T为算法迭代次数。提出一种新颖的多任务加速在线学习算法,在保持多任务在线学习快捷计算优势的基础上,达到最优收敛率O(1/T^2)。对多任务权重学习矩阵Wt的迭代邻近解表达式进行了推导,对提出算法的收敛性进行了详细的理论分析。实验表明,提出的多任务加速在线学习算法能够更好地保障大数据流处理的实时性和可伸缩性,有较广泛的实际应用价值。

题目:基于MapReduce的多元连接优化方法作者:李甜甜,于戈,郭朝鹏,宋杰单位:东北大学软件学院/东北大学信息科学与工程学院摘要:多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间。针对前者,考虑到I/O代价是连接运算的主要代价,本文首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能。针对后者,考虑到负载均衡能够有效减少MapReduce的"木桶效应",本文通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法。最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果。本研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接,社交网络中社团发现的链式连接等应用的性能。

题目:基于Spark的并行图数据分析系统作者:王虹旭,吴斌,刘旸单位:北京邮电大学计算机学院摘要:提出了一种基于Spark计算平台的并行数据分析系统。系统以大规模图数据分析任务为主,并支持非图数据分析应用,集成了数据分析算法集合与非图数据分析算法集。详细阐述了该系统的架构设计,以及部分并行数据分析算法的设计与实现。通过多种规模的数据集测试,该系统相对于以往的图数据挖掘系统可以更高效的完成计算任务,而且也可以有效进行非图数据分析。

题目:HiBase:一种基于分层式索引的高效HBase查询技术与系统作者:葛微,罗圣美,周文辉,赵頔,唐云,周娟,曲文武,袁春风,黄宜华单位:南京大学计算机软件新技术国家重点实验室摘要:HadoopHBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台。然而HBase不支持非主键索引,导致HBase的数据查询效率较低,难以满足数据实时/准实时查询需求。本文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,包括基于HBase的持久性索引、基于分布式内存的索引热点数据缓存技术和高效的热度累积缓存替换策略,并实现于分层式索引和查询系统HiBase。在千万至十亿条记录规模数据集上的测试结果表明,HiBase总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍。

题目:一种支持音乐情感检索的索引结构作者:王伟,徐立臻,董逸生单位:东南大学计算机科学与工程学院摘要:本文提出一种支持音乐情感色彩检索的索引结构。针对MIDI音乐文件的音高特征数据,提出音高与色彩关联概念,建立音高色彩空间,然后在分析多个情感模型的基础上,提出音高色彩与情感映射的情感色彩词组对表,建立音乐情感色彩索引,并设计一个情感色彩检索算法。理论分析和实验结果表明:通过色彩能直观有效地表现出音乐所蕴含的基本情感,为音乐情感检索提供了一种新思路。

题目:电力数据语义冲突检测及消减技术研究作者:张德刚,吴毅,张德海,张少泉单位:云南电力试验研究院(集团)有限公司电力研究院摘要:随着电力企业信息化的加快,企业内部各种信息系统间的异构数据逐渐增多,如何有效的消除这些异构数据之间的语义冲突成为一个热点问题。本文根据电力数据语义冲突的具体情况,提出了一个冲突检测及消减模型,将电力企业内部的异构数据源进行融合,有效地解决电力企业内部数据源语义冲突问题。使用结果表明,该模型可以有效消解异构数据源之间的语义冲突,为电力企业内部及企业间异构数据的融合和共享提供有力的支持。

题目:面向大数据的软件定义安全服务作者:何利文,李杰,陈向东,鲁蔚锋,孔令军,王少辉,黄俊单位:南京邮电大学摘要:大数据(Bigdata)技术的普遍应用正在改变着传统的信息安全体系,因此需要设计新的信息安全模型和新的信息安全处理方法来面对新型信息安全挑战。本文从"端"、"管"、"云"三个层面出发,详细分析了信息安全服务系统所面临的新问题,提出了一种面向大数据的软件定义安全服务的体系架构,采用终端、网络、云平台相分离的方式构建信息安全服务系统,通过分层解耦合架构,在不同层面实现安全能力的服务化。

题目:基于属性的广义签密方案作者:韩益亮,白寅城,房鼎益,杨晓元单位:武警工程大学电子技术系摘要:现有签密方案存在不能向模糊身份的接收方发送数据、且对数据的共享访问控制不够精细,而基于属性的签密也无法自适应地实现机密性、认证性以及机密且认证等不同的安全需求。本文在离散对数和随机预言机模型下提出了一种基于属性的广义签密方案。通过引入属性集,使数据可以凭用户的属性为依据进行分发;通过区分通信双方所持有的密钥,可以提供单独的机密性、认证性和复合的机密性和认证性功能。在DBDH假设下的安全性分析表明方案证明了方案在选择密文攻击下达到了不可区分性,在CDH假设下的安全性分析表明方案在选择消息攻击下达到了不可伪造性。与其它类似方案相比,本方案在属性个数增加时,密文长度和密钥长度不会线性增长,效率更高。

题目:观澜交通数据处理平台作者:董振,禹晓辉,崔星灿,宋仁勇,林立伟单位:济南观澜数据技术有限公司摘要:近些年,城市中在主要路段和路口设置的交通卡口点及高清摄像头的数目呈增长趋势。对于大中型城市来说,这些摄像头将会产生海量包含通行记录和图像在内的数据。现有的基于传统关系数据库的解决方案已经无法有效地管理如此大规模的数据,也无法为数据的离线分析和实时处理提供具有高效及可伸缩性的保障。为了解决这一系列问题,我们开发了观澜交通数据处理平台(观澜平台)。该平台可以为交通数据提供分布式、具有良好可伸缩性的处理支持。它集成了ApacheHadoop和S4开源框架,可以同时运行批处理任务和实时处理任务。观澜平台已经在国内某城市的生产环境中成功运行近两年。本文将会给出平台的架构说明以及在设计和开发过程中的一些收获。

题目:BDSim:面向大数据应用的组件化高可配并行模拟框架作者:李文明,叶笑春,张洋,宋风龙,王达,唐士斌,范东睿单位:中国科学院计算技术研究所计算机体系结构国家重点实验室摘要:大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用。然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂、可扩展性差等方面。为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,本文提出了面向大数据应用的并行模拟框架——BDSim。该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系。为了提高组件之间的通信和同步效率,本文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法。通过模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上。

题目:云海大数据一体机体系结构和关键技术作者:张东,亓开元,吴楠,辛国茂,刘正伟,颜秉珩,郭锋单位:高效能服务器和存储技术国家重点实验室摘要:为了弥补从大数据技术到行业应用之间的鸿沟,针对当前行业用户对大数据处理平台的持续扩展、一体化和多样性需求,提出了大数据一体机的可扩展性、可定制性和多类型处理模型,并基于此设计了云海大数据一体机.该一体机采用兼顾横向和纵向可扩展的体系结构,并采用硬件可定制化设计和混合型软件架构支持多种大数据应用类型.在此基础上,针对HDFS元数据服务瓶颈问题、MapReduce负载倾斜问题、HBase的跨域问题,介绍了在云海大数据一体机中采用的多元数据服务、负载均衡和跨数据中心大表技术.在电信、金融和环保行业实际案例中的应用和测试表明,上述体系结构和关键技术是可行和有效性的.

题目:一种面向图数据的预装载缓存策略作者:黄硕,左遥,梁英,许洪波,熊锦华,王千博,程学旗单位:中国科学院网络技术科学与技术重点实验室摘要:真实世界中存在很多数据规模大且关联性强的图数据,对其分析和查询能够帮助我们获取巨大价值,而图缓存技术可以有效提高图数据的访问效率和查询效率。本文提出了一种面向大规模数据的图数据预装载缓存策略,采用"基于结点访问日志"和"大度数优先"的两种装载方法,缓存图数据边表的热数据。在图存储系统GolaxyGDB中设计了一个分布式图数据缓存框架,实现了缓存装载、访问、替换和一致性维护策略。实验表明,图数据预装载缓存策略能有效提高图数据复杂查询的效率,满足实际应用的在线访问需求。

题目:一种基于历史信息的一致性哈希集群重复数据删除路由策略作者:邢玉轩,肖侬,刘芳,付印金,李芳,巫小泉单位:国防科学技术大学计算机学院摘要:全球数据量爆炸式增长,单节点重复数据删除系统已不能满足性能需求,集群重复数据删除系统应运而生。如何提高数据传输效率、节约网络带宽和增强系统的可扩展性,成为当前面临的严峻挑战。我们提出一种基于历史数据信息的一致性哈希路由策略,通过在本地缓存热点数据块指纹,数据路由前先在本地索引,可以大大减少索引消息请求数量,并且采用一致性哈希的路由策略,有效的缓解集群系统中动态扩展存储节点导致的全局数据重删率急剧恶化与负载不均。我们在三类真实的数据集上进行试验,能减少20%~80%的指纹消息请求,动态扩展存储节点导致数据缩减率降低保持在33%以下,并且能够很好地保持系统节点间负载均衡。

题目:云计算环境下基于改进粒子群优化算法的多目标资源调度策略研究作者:赵宏伟单位:沈阳大学信息工程学院摘要:为了实现云计算资源调度的多目标优化,提高资源利用率和保证云应用的服务质量,通过对云计算资源调度策略进行研究,设计并实现了一种基于改进粒子群算法的云计算资源动态调度策略。本文首先提出云计算资源的动态调度策略的管理框架,并给出本框架形式;其次,设计并实现了一种综合运用粒子群算法和考虑物理结点个数、应用性能以及当前的负载情况的资源分配算法。最终在CloudSim平台进行了仿真,结果表明此调度策略能实现综合考虑资源利用率和云应用的服务质量的多目标资源分配算法,提高了云计算中心的资源利用率的同时,也保证了云应用的服务质量和应用的性能。

THE END
1.人工智能基础与应用宋楚平课后习题答案(30页)A.提高数据处理速度 B.节省存储空间 C.方便算法计算 D.形成商品交易矩阵 二、亮一亮 1.协同过滤推荐与关联规则推荐的区别是什么?他们各自适用在哪些场合?参考答案:协同过滤 (Collaborative filtering),是指通过收集群体用户的偏好信息,自动化预测(过滤)个体用户可能感兴趣的内容。协同过滤基于如下基本假设:如果一个人...https://max.book118.com/html/2021/0824/8011073132003137.shtm
2.大数据时代试题综合题库7)在云生态环境中,用户需求相当于( 14 ),云数据中心相当于 ( 15 ),云服务相当于( 16 )。DCB A. 降水 B. 水滴 C. 水库 D. 阳光 8)尿布啤酒是大数据分析的( 17 )C A. A/B测试 B. 分类 C. 关联规则挖掘 D. 数据聚类 9)在GAPMINDER的Wealth & Health of Nations 中,中国在什么区域 ...https://www.360docs.net/doc/73fa81e4580102020740be1e650e52ea5418ce51.html
3.什么是智能推荐?智能推荐的原理是什么?4、基于关联规则的推荐 在电商领域应用较为广泛的另一种推荐算法是基于关联规则的推荐,从本质上讲它类似于协同过滤算法,只是它协同的是用户自己的购买记录。典型的故事是啤酒与尿不湿的故事,虽然该故事的来源已无从考究,但却是目前大众认知度最高的一个数据带来的收益的案例。故事的内容是:北美的超市经营者经过数据...https://www.niaogebiji.com/article-106383-1.html
4.智能4. 在《电力行业信息安全等级保护管理办法》中,电力信息系统建设过程中,运营、使用单位应当按照()等标准建设符合该等级要求的信息安全设施。 《计算机信息系统安全保护等级划分准则》 《信息安全技术信息系统安全等级保护基本要求》 《电力行业信息系统安全等级保护基本要求》 以上都是 5. ()是正确的IEC-60870-5-104报...https://www.wjx.cn/vm/tCqAK8U.aspx
5.融合用户属性信息的冷启动推荐算法AET(2)ut1~ut16(不同程度的新用户,见图2、图3):在用户评分极少的情形下,FP的性能显著优于另外两种算法;随着用户评分的增多,FP和simon的MF分解性能趋近。这表明,FP在适用于新用户冷启动的同时,能平稳地过渡到老用户暖启动的情形。 4 总结 本文提出了一种融合用户属性信息进行推荐的算法,提高了新用户情形下推荐预...http://www.chinaaet.com/article/3000073409
6....B.基于关联规则的推荐算法C.基于协同过滤的推荐算法D...应用范围最为广泛的推荐算法是()。 A. 基于内容的推荐算法 B. 基于关联规则的推荐算法 C. 基于协同过滤的推荐算法 D. 基于知识的推荐算法https://m.ppkao.com/wangke/daan/ee5458518f084048bdc7b0c32bd06f73
7.推荐系统专题单域推荐系统模型汇总(召回与排序算法)这里介绍的模型就是一些排序模型。简单来说,就是将问题转化为CTR预测任务,以概率来对需要推荐不同的商品进行排序。 以下资料是根据参考资料的浓缩摘抄,只针对我个人以后的温故知新,想了解详细细节可以看原论文与相关资料。 1. 协同算法测试 1.1 基于用户的协同过滤(UserCF) ...https://developer.aliyun.com/article/1077908
1.推荐系统前深度学习时代推荐算法(1):协同过滤(CF)混合推荐:结合了多种推荐方法(例如,协同过滤、基于内容的推荐等),以弥补单一推荐方法的不足。 ( 协同过滤推荐 和 基于内容的推荐 两者最明显的区别:它们所需的数据不同,最终的推荐效果也会因为用作推荐的依据不同而导致推荐的效果相差异,各自有各自的适用场景) ...https://blog.csdn.net/qq_58872188/article/details/143798469
2.BAT机器学习面试1000题系列11.为什么XGBoost要用泰勒展开,优势在哪里? @AntZ:XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得二阶倒数形式, 可以在不选定损失函数具体形式的情况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了XGBoost的适用性。 https://www.pianshen.com/article/156894578/
3.10月2011CWYAlpha如,在线购物中的商品推荐,热门网站的推荐,以及帮助人们寻找音乐和影片的应用。可以使用许多不同的方法来搜集兴趣偏好,如购买物品、评价信息。推荐系统的方法,主要有三种,基于关联规则,基于内容(匹配),基于协同过滤。本文主要介绍的是协同过滤方法,而这种方法也是目前非常流行的方法。https://cwyalpha.wordpress.com/2011/10/
4.R语言实现关联规则与推荐算法(学习笔记)腾讯云开发者社区所以三个指标的基本用法:冲销量、KPI会重点关注置信度大的;随机推荐用提升度。 2、网商时代关联规则背弃长尾效应 在实际案例运用过程中关联规则与协同过滤的区别在于, 关联规则推荐的是本来就很热门的产品,因为代表同时发生频率越高,关联性越强。在网商时代会背弃长尾效应,让差异扩大,2/8定律会一定程度上扩充至1/9...https://cloud.tencent.com/developer/article/1435768
5.基于关联规则和协同过滤的推荐算法研究与应用[4]王颖,王欣,唐万梅.融合用户自然最近邻的协同过滤推荐算法[J].计算机工程与应用.2018,(7).DOI:10.3778/j.issn.1002-8331.1702-0031. [5]周凯,顾洪博,李爱国.基于关联规则挖掘Apriori算法的改进算法[J].陕西理工大学学报(自然科学版).2018,(5).DOI:10.3969/j.issn.1673-2944.2018.05.008. ...https://d.wanfangdata.com.cn/thesis/D02162504
6.数据分析中的关联规则算法有哪些基于模式增长的关联规则算法的优点是:不需要多次扫描数据集和产生候选项集;缺点是:无法处理过大的数据集,而且对于包含大量冗余信息的数据集,生成的频繁项集和强关联规则可能非常庞大。 六、COFI算法 COFI算法是一种基于协同过滤的关联规则挖掘算法。它通过分析用户之间的相似度和商品之间的关系来挖掘频繁项集和强关联规...https://www.linkflowtech.com/news/1083
7.四步搞明白智能推荐的底层逻辑图4 AI技术 推荐算法包括基于内容推荐、基于协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐等,如图5所示。在金融产品智能推荐应用中,推荐算法主要体现在以下几个方面。 图5 推荐算法类型 1)基于内容推荐算法。基于内容推荐算法是建立在贷款产品的内容基础上做出推断,即用机器学习的方法,从关于内容的特征描...https://www.51cto.com/article/702517.html
8.基于协同过滤及关联规则的个性化图书推荐基于协同过滤及关联规则的个性化图书推荐,协同过滤,TOP-N,属性特征,关联规则,相似度,目前高校图书馆的图书种类繁多,数量庞大,面对海量的图书信息资源,一方面学生需要花费大量的时间和精力来获取需要的图书,另一方面...https://wap.cnki.net/lunwen-1018063295.nh.html
9.机器学习推荐算法原理入门及算法介绍消费金融风控联盟5)基于人口统计信息的推荐:这一类是最简单的推荐算法了,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后进行推荐,目前在大型系统中已经较少使用。 下面我们介绍两种主要的推荐算法:协同过滤和关联规则。 01 关联规则(AR) 概述 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性...https://www.shangyexinzhi.com/article/7331518.html
10.基于改进RFM模型的直播平台用户细分及个性化推荐方法研究目前,主流算法大致可分为基于内容,协同 过滤,知识,关联规则,组合推荐这五种类别.其中,协同过滤推荐算法(CFR)是一种基于已知一组 用户的偏好去预测其他用户未知偏好的算法[2].该类 算法于1992年被首次提出[3],Breese等将其分成基于 记忆(memory-based)和基于模型(model-based) 37 竞争情报 两大类[4].根据比较...http://ci1st.istis.sh.cn/CN/PDF/954
11.留学推荐信推荐理由(精选6篇)三、电子商务推荐技术 目前,电子商务推荐系统中使用的主要推荐技术有基于内容推荐,协同过滤推荐,基于知识推荐,基于效用推荐,基于关联规则推荐,混合推荐等等。 1. 基于内容的推荐。 它是信息过滤技术的延续与发展,项目或对象通过相关特征的属性来定义,系统基于商品信息,包括商品的属性及商品之间的相关性和客户的喜好来向...https://www.360wenmi.com/f/filewe6wajr9.html