泰迪杯数据挖掘挑战赛(PPT课件)

1、“泰迪杯”全国数据挖掘挑战赛组委会泰迪杯数据挖掘挑战赛“泰迪杯”数据挖掘挑战赛组委会“泰迪杯”组委会秘书长张颖峰主要内容l泰迪杯数据挖掘挑战赛l历史、赛制、发展、资源、合作l数据挖掘与数学建模l关系、示例l从一道竞赛题目的解答情况看当前数据挖掘教学的问题l2017年竞赛题目及背景解读2泰迪杯数据挖掘挑战赛的历史l华南师范大学数学科学学院2010年在本科生中开设数据挖掘课程,举办竞赛的初衷是我们的课堂距离这个信息时代的热点太遥远了l上了多年的数据挖掘课,老师和学生都没见过企业中的实际需求和数据是什么样子l数据挖教材中要么没有数据,要么“太干净”了l课堂讲授的主要是各种机器学习算法,

2、这只是数据挖掘完整链条上的一小部分,缺乏对问题定义和理解的训练l有没有一个机会让学生体验真实的数据挖掘工作是如何开展的呢让我们举办一个竞赛吧!3泰迪杯数据挖掘挑战赛的历史l挑战赛性质l面向全国在校研究生和大学生的群众性科技活动l挑战赛目的l激励学生学习数据挖掘的积极性l以问题为导向提高学生利用数据挖掘方法分析和解决实际问题的综合能力l提高学生的自我学习能力l推动数据挖掘技术在高校的推广和应用l连接高校的智力资源和社会、企业实际需求4泰迪杯数据挖掘挑战赛的历史l第一届“泰迪华南杯”大学生数据挖掘竞赛(2013)l第二届“泰迪华南杯”大学生数据挖掘竞赛(2014)-主办单位:广州泰迪智能科技有

3、限公司华南师范大学数学科学学院l第三届“泰迪杯”全国大学生数据挖掘竞赛(2015)-主办单位:广东省工业与应用数学学会-承办单位:广州泰迪智能科技有限公司-协办单位:华南师范大学数学科学学院5泰迪杯数据挖掘挑战赛的历史l第四届“泰迪杯”数据挖掘挑战赛(2016)-主办单位:全国大学生数学建模竞赛组织委员会-承办单位:广州泰迪智能科技有限公司-协办单位:广东省工业与应用数学学会华南师范大学数学科学学院l第五届“泰迪杯”数据挖掘挑战赛(2017)-主办单位:全国大学生数学建模竞赛组织委员会-承办单位:广州泰迪智能科技有限公司-协办单位:广东省工业与应用数学学会华南师范大学6

4、“泰迪杯”成为全国数模组委会三大品牌之一l数学建模竞赛的四种形式l泰迪杯数据挖掘桃战赛致力于解决企业、社会实际问题,打造大数据领域高校、企业共赢的交流合作平台7全国赛1992美国赛1985深圳杯2011泰迪杯2016“泰迪杯”数据挖掘挑战赛组织委员会l成立全国大学生数学建模竞赛组织委员会的下级组织:“泰迪杯”数据挖掘竞赛组织委员会,全权处理竞赛活动的具体事务。l“泰迪杯”数据挖掘挑战赛组织委员会(第五届)l主任:陈叔平l副主任:郝志峰张良均l组委会成员:谢金星蔡志杰白峰杉杨虎张颖峰冯国灿冯伟贞l秘书长:张颖峰“泰迪杯”数据挖掘挑战赛赛制l挑战赛内容l源于企业、管理机构和

5、科研院所等的经过适当简化加工的实际问题l贴近现实热点需求:解题知识可转化为就业技能,优秀方案可转化为科技成果(专利、产品、项目)l数据只做必要的脱敏处理,保持原始状态(其中可能存在错误),数据预处理和数据分析工作量较大l多样的数据类型:图片、视频、文本、非结构化表格l论文形式l包括问题分析、数据预处理、模型构建、模型评价与模型应用等方面的研究报告。9“泰迪杯”数据挖掘挑战赛赛制l挑战赛采用通讯赛的方式,在官方网站上完成注册报名、题目和数据下载、论文上传等工作。l全国统一竞赛题目,以小组为单位参赛。l竞赛不设组别,使用相同的题目,在校的专科、本科、研究生都可组队,

6、每队不超过3人,须属于同一所学校l每队可设一名指导教师,从事赛前辅导和参赛的组织工作,并且在竞赛期间可以全程指导队员。l出题企业和组委会期待高水平的解决方案!“泰迪杯”数据挖掘挑战赛赛制l由组委会聘请专家组成评阅委员会进行论文的评阅,采用匿名、地区回避和随机的评阅原则l评奖原则l数据预处理的完整性、对问题背景理解的深刻性l挖掘模型构建的创造性、模型结果的正确性l模型评价的客观性、模型应用的可靠性l文字表述的清晰性l主要评判依据l满足出题企业实际应用需求的程度,特设企业冠名奖11“泰迪杯”数据挖掘挑战赛赛制l评阅过程l第一轮网上评阅,初步选出一、二和三等奖l第二轮抽取各题的前20名,由高校和企

7、业专家通过网络进行视频答辩,评选出特等奖l奖项设置:获奖总比例不超过25%l特等奖共6名(每题2名)特等奖并获得出题企业冠名特等奖并获得出题企业冠名3名,奖金名,奖金2万元万元非冠名特等奖非冠名特等奖3名,奖金名,奖金1万元万元l一等奖54名,二等奖约5%,三等奖约10%l其余成功提交完整的论文者可获得成功参赛证书12“泰迪杯”数据挖掘挑战赛赛制l自2017年第五届“泰迪杯”起增设省级奖项l评奖方法:将成绩从“泰迪杯”全国评阅系统中导出,由省按专科、本科分组后,按比例产生各奖项。l目前已在部分省份试点“泰迪杯”数据挖掘挑战赛赛制l竞赛分为两阶段l第一阶段1个月:公布题目和样例数据,组委会以网络

10、数学等)管理(财务管理、市场营销等)医疗(药物制剂、临床医学等)通信(物联网、通信工程等)物理(电气工程及其自动化、光学工程等)化学(化学工程与工艺、环境工程等)泰迪杯数据挖掘挑战赛的发展l数据时代的有力召唤:各级各类数据竞赛的爆发说明了社会对数据挖掘技术和人才的巨大需求全国大学生数据挖掘邀请赛中国互联网数据平台数据挖掘竞赛全国大学生统计建模大赛阿里天池大数据竞赛CDA杯大数据全生态全国高校创新创业竞赛中国互联网络信息中心举办(仅2013)阿里巴巴集团举办(2014-)经管之家联合CDAInstitute共同举办(2016-)中国计算机学会泰迪杯数据挖掘挑战赛竞赛资源l泰迪杯数

12、理、数据的探索l假设检验、数据回归l第3讲:MATLAB数据挖掘算法(上)l回归算法、关联算法、聚类算法l第4讲:MATLAB数据挖掘算法(下)l分类算法、预测算法、异常诊断算法23MATLAB培训课程l第5讲:MATLAB高级数据挖掘技术lMATLAB分类学习机、l算法的高级使用方法l综合使用实例l第6讲:MATLAB数据挖掘项目实例l故障诊断l生物信息学研究l量化投资24R语言培训课程l利用R语言对数据进行高效处理l对数据进行随机抽样、对数据进行等比例抽样l对类失衡数据进行处理l如何对因子变量进行虚拟化处理l如何对缺失值进行插补、如何识别异常值lR语言进行数据可视化lR语言绘图

13、基础、常见绘图图表llattice包、ggplot2包介绍lR语言进行数据交互25泰迪杯数据挖掘挑战赛竞赛资源l泰迪云课堂诚邀挑战赛合作伙伴l厂商、企业、机构合作伙伴l提供有价值的实际问题作为赛题l为竞赛的开展提供物质、资金或人力赞助l为参赛者提供大数据计算平台l为参赛者提供挖掘工具的使用或教育支持l为参赛学生提供实习、项目研究的机会l高等院校合作伙伴l提供候选赛题或通过自身渠道协助联系出题单位l承办挑战赛颁奖典礼暨数据挖掘学术/教学会议/教练培训征集挑战赛题目l侯选赛题的要求l反映行业、社会热点需求l问题的背景易理解,贴近日常生活体验,淡化过于专业的背景知识l提供的数据具有适当的规模和复杂

19、专业和学历层次等方面的情况。l问题5l根据你们的研究结果,结合你们所学的专业给所在学校人才培养方案的修订写一份建议书,或给在校大学生的就业规划提出你们的建议(不超过两页)。职业技能要求-大数据方向职业细分数据分析软件开发大数据开发数据仓库java/sql/R/Clementinekettle/spss/excel/eviews统计学统计学/机器学习机器学习/数据分析数据分析决策树决策树/聚类聚类/关联规则关联规则/推荐推荐hadoop/java/python/mysqlspark/NoSQL/etl/c+/hive大数据大数据/数据挖掘数据挖掘/决策树决策树数据库数据库/机器学习机器学习

26、类型:K、G、D、T、Zl管内、管外客流分析,长途、短途客流分析l从梯形密度表中抽取所需数据,保存在结构化文档中472016年B题:铁路旅客流量预测l旅客列车梯形密度表由购票数据汇总得到,反应了旅客上车及到站的分布情况l困难:非结构化数据的处理48数据处理的问题l铁路旅客流量预测:非结构化数据的处理l题目的难点:如何读取数据?l微。风打扰一下,请问大家b题excel表中的数据是怎么整理的?或者是用什么软件整理的。感觉好难整理l微。风导入matlab中就不能分清哪个站到哪个站下了l杨征B题就是要求把不规则的数据,导入到数据库中,变成规则的数据。企业中这样的情况很常见的。l内事不决问百度:从

27、网络上找答案l在百度中搜索“matlabexcel数据读取”数据处理的问题l百度知道N=xlsread(filename.xls)N,T=xlsread(filename.xls)用这个,把excel文件放入工作目录下,默认工作目录是work文件夹。filename就是excel的名字。用这个函数加载后,N里面就是数字,T里面就是字符。你试一下就明白了,很简单。然后你就可以进行相应处理了。数据已经进来了,你用for或其他的处理都行。至于这个函数的更多用法,去看matlab帮助文档。l微。风我用matlab读入后形成两个矩阵,然后我就乱了,感觉好多对不上。l问题:N,T=

28、xlsread(filename.xls)适用于组织地比较“整齐”的数据,如矩阵形式存储的数据,B题数据无法直接使用数据处理的问题l微。风可以说清楚一点吗?我是学数学的,对于数据处理这一块不我是学数学的,对于数据处理这一块不是很清楚是很清楚,一切摸索中l杨征excel就是个大网格矩阵,从(1,1)一直读到(MaxC,MaxR),想要的数据都可以获取到,在通过循环和判断进行处理。l杨老师不要急,这两天组委会会安排做一个如何读数据的视频教程l杨征使用delphi做了一个小软件来演示数据读取的过程l学生问杨老师用的那个软件在哪里有下载?急同问.2016年B题:铁路旅客流量预测l旅客列车密

29、度表的结构l一张表保存一天内发车的多个车次的售票数据l每个车次给出从给定上车站(列)到给定下车站(行)的下三角形式的OD(ORIGIN,DESTINATION)矩阵l不同车次所经过的站点是不同的,下三角矩阵的行、列数也可能不同l在MATLAB中help一下xlsreadlNUMERIC,TXT,RAW=XLSREAD(FILE,SHEET,RANGE)l单元格内容以元胞数组的方式保存在RAW中2016年B题:铁路旅客流量预测l使用循环结构扫描表l定位每个车次数据在表内的行、列范围例如:车次数据都以“上车人数合计”为最后一行的首列l定位终止行:字符串匹配l获取车次:字符串的拆分l获取指定行、列

30、的数据B题数据处理的问题l解决以上问题的“技术性”要素lMATLAB读入EXCEL文件的函数xlsreadl分析表格的结构特点、如何进行逻辑判断l使用循环结构扫描表l字符串匹配、拆分l矩阵数据的读取l非“技术性”问题:要读哪些数据?l明细数据:两两站点之间的上下旅客人数l汇总数据:每个站点的上车人数和下车人数l不同的数据能够支持的分析主题是不同的B题数据处理的问题l数据处理的思路l考虑清楚我们要做哪些分析目标和路线,哪些能做、哪些做不了l为了实现这些分析需要哪些数据哪些有、哪些没有,没有的数据要如何计算l应该如何组织数据才能更有效进行分析(设计数据库表)l各种问题l数据缺失:缺少某些站点的

32、式出发求解实际问题的训练和信心!数据挖掘教学的现状l教学偏重算法、原理的学习l教师缺乏解决实际问题的经历和经验l缺少合适的案例教学资源l教学案例大都是为讲解某个具体算法而设计的l缺少实际的应用背景l问题往往不完整,缺少从问题识别/定义、数据采集/实验设计、数据分析、建模、评估、应用的全过程l较为理想和干净的数据源,简化了现实中数据的复杂性l改进的思路:在巩固理论教学的同时,加强实践教学环节l教育部教育部等部门关于进一步加强高校实践育人工作的若干意见(教思政20121号)l强化实践教学环节:增加实践教学比重,确保人文社会科学类本科专业不少于总学分(学时)的15%、理工农医类本科专业不少于25%l

35、能服务解决方案的开发项目l课程助教实践教学的探索主要内容l泰迪杯数据挖掘挑战赛l历史、赛制、发展、资源、合作l数据挖掘与数学建模l关系、示例l从一道竞赛题目的解答情况看当前数据挖掘教学的问题l2017年竞赛题目及背景解读62A题l基于市场资金流向分析的商品期货量化交易策略l出题单位深圳数字动能信息技术有限公司l量化投资l借助现代统计学、数学的方法,从海量历史数据中寻找能够带来超额收益的多种“大概率”策略,并纪律严明地按照这些交易策略所构建的数量化模型来指导投资(减少投资者情绪波动的影响),力求取得稳定的、可持续的、高于平均的超额回报。l一个优秀的策略可以维持一个可观且稳定的收益,且承受

36、相对较小的风险,收益曲线平滑向上A题背景l基于市场资金流向分析的商品期货量化交易策略l量化投资在海外已有30多年的历史,投资业绩稳定,市场规模和份额不断扩大,得到了越来越多投资者的认可l被誉为“最赚钱的基金经理”的西蒙斯,从1989年到2006年间,其量化投资年化收益率高达38.5%。l他依靠的是用数学模型和计算机管理旗下基金,通过模型和策略来捕捉市场机会,由策略来做出投资决策。A题背景l基于市场资金流向分析的商品期货量化交易策略l2016年的国内资本市场,使用量化投资方式进行管理的基金创造了惊人的业绩。l截至2017年1月12日,在上证综指和创业板指近1年涨幅只有3.40%和-8

37、.37%的情况下,公募主动量化基金获得了16.05%的平均收益,远超同期股票基金和混合基金5.49%和3.58%的收益。l截至2017年1月12日,公募主动量化基金近3年的平均回报率为105.07%,收益率接近同期权益类基金的两倍A题背景l量化交易策略l包含一系列交易条件的设置和交易信号的产生。l比如对某只股票或者期货,以前5根K线的收盘价(一般记作close)的平均值作为一个指标,当价格超过这个指标值的时候买入,而当价格低于这个指标值的时候卖出平仓,就是一个简单的均线突破策略。l在程序设计中可以使用if-then结构来实现。l可以设制非常复杂的组合策略A题背景l策略回测l回测是指

39、出发点:基于资金流向的价格预测l“水涨船高”l大量资金不断流入的股票其价格会上涨l资金大量流出的股票其股价可能下跌l股票市场中常说“量于价先行”,这个“量”包括资金的流向和资金的流量,统称为资金流向(moneyflow)。l价格上涨,流动性低(交易量很小)A题背景l资金流向反映市场当前对某只股票超额的需求或者供给,能够帮助投资者透过指数(价格)涨跌的迷雾看到其他投资者的投资行为。l股市资金流向计算:l可以根据成交价格的涨跌来界定是资金流入还是流出A题问题l问题l使用2011年1月1日至2013年12月31日的商品期货历史数据,分析资金流向的规律,设计一个商品期货量化交易策略。

43、技术路线(建议)l从如下角度入手进行分析,并以此为基础来构建策略模型l分析资金流向是否存在相似的特点,是否集中在某些行业板块,是否有轮动效应?l轮动l意思是各个板块轮流表现。比如现在是汽车股上涨,一会儿是机械股,再来是有色金属股。l不断地有热钱进入股市,不断有人接盘。l今天这个板块涨,过几天那个板块涨。A题技术路线(建议)l板块轮动的本质l我国的金融投资者分机构户和个人户,机构户的资金比个人户多得多,其中左右股价的是机构户中的基金公司l大笔资金/股票的主动交易可以拉升或降低几个点l普通散户追涨杀跌,再遇到某些买入的理由(重组、估值低、政策之类)很多人就跟风买进价格上涨

44、l价格合适,机构出货获得资金,散户在高位接盘l机构离场,没有新钱注入,版块进入停涨,进入盘整阶段:水平的波浪线(没有趋势)。l另外一个版块好像调整的充分了,就慢慢建仓,收购这些不涨的股票,接着炒作,股票又涨起来了。A题技术路线(建议)l网上流传炒股四季歌,揭秘A股市场各板块轮动规律l冬炒煤来夏炒电,五一十一旅游见l逢年过节有烟酒,两会环保新能源l航空造纸人民币,通胀保值就买地l战争黄金和军工,加息银行最受益l地震灾害炒水泥,工程机械亦可取l市场商品热追捧,上下游厂寻踪迹l年报季报细分析,其中自有颜如玉l量化策略l从较客观的数据出发研究轮动的捕捉和相应的策略A题技术路线

46、现系统控制的优化与节能。80我们看到的中央空调系统81冷却塔冷却塔管道管道出风口出风口机组机组中央空调系统的工作原理图82外循环外循环内循环内循环家用空调的制冷原理l冷凝器将由压缩机输送过来的高压高温的冷媒汽体冷却成高压高温的液体(大气温度低于冷媒蒸汽温度)。l蒸汽冷凝成液体会释放热量,其表面是热(烫)的。l蒸发器则将经节流器节流减压后的冷媒液体蒸发成汽体l冷媒液体汽化(蒸发)的过程是一个吸热的过程,所以蒸发器表面是凉的(吸热)。l冷媒在室内机蒸发成汽态(吸热)后循环至室外机经压缩机压缩冷凝成液态(放热)。l运转的压缩机像水泵一样不断地从蒸发器(位于室内)吸热,然后再通过冷凝器(位于室外)散热

48、名、含义、单位等内容说明86数据内容说明l系统的可控变量设备状态参数(开/关)(12个):l冷水泵14的状态参数:chwp1statchwp4statl冷凝水泵13的状态参数:cwp1statcwp3statl冷却装置13的状态参数:ch1statch3statl冷却塔1,2的状态参数:ct1stat,ct2statl系统的可控变量设备控制参数(3个):l冷水泵转速(设定值):chwp_pcl冷凝水泵转速(设定值):cwp_pcl冷却塔风扇转速(设定值):ct_pc87数据内容说明l其他由传感器采集数据均为不可控参数,受可控参数、室外温度和湿度等因素影响,决定系统耗电量和系统效率。l例:设

49、备功率受可控制参数和环境因素影响,不是可控变量l竞赛将提供来自同一个中央空调系统的三份数据l样例数据:2017年3月10日公布样本数据l建模数据:2017年4月7日公布建模使用的全部数据l验证数据:2017年4月23日上午8:00公布验证数据,并于2017年4月23日上午11:59:59前提交验证结果。88问题及解读l请利用题目所给数据,结合实际解决下列问题:l问题一:从所给数据中挖掘出系统变化的特征和规律,研究冷却负载、系统效率、耗电量与可控变量和不可控变量之间的关系模型,并检验模型的可靠性。l空调系统建模l输入:冷却负载、外部温度湿度、可控变量.l输出:系统效率、耗电量89问题及解读l请利

THE END
1.第三届泰迪杯全国大学生数据挖掘竞赛科技大赛4. 一等奖:约3%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供1000元奖学金。 5. 二等奖:约5%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供500元奖学金。 6. 三等奖:约10%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供价值200元的纪念品一份。 7. 特等奖、一、二、三等奖获得者可优先得到泰迪科技实习及推荐...http://m.52jingsai.com/article-761.html
2.第三届泰迪杯全国大学生数据挖掘竞赛20221202074931.pdf第三届泰迪杯全国大学生数据挖掘竞赛.pdf 18页VIP内容提供方:文档爱好者 大小:1.28 MB 字数:约2.2万字 发布时间:2022-12-05发布于境外 浏览人气:124 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)第三届泰迪杯全国大学生数据挖掘竞赛.pdf 关闭预览 想预览更多内容,...https://m.book118.com/html/2022/1202/7101033201005020.shtm
1.第七届“泰迪杯”数据分析技能赛获奖成绩公示2024年(第7届)“泰迪杯”数据分析技能赛于2024年9月7日正式开始,共计有来自全国200多所高校的1592支队伍报名参赛。经过两个星期的盲审,并于2024年11月27、28日通过线上的方式进行答辩,评选出本科及以上组、专科组“一等奖并获泰迪杯”队伍4支。 各奖项证书参赛者及指导老师每人一份,证书为电子版,各奖项证书颁奖...https://blog.csdn.net/tipdm0301/article/details/144207215
2.生物技术工程系学子在第三届“校园杯”全国职业院校宠物护理与...2024年11月20日,生物技术工程系的李欣怡、张璐瑶和陈文琳在江苏泰州参加第三届“校园杯”全国职业院校宠物护理与美容职业技能大赛,她们怀揣着对宠物护理与美容的热爱与执着,勇敢地迎接挑战,用实力和热情书写了属于她们的辉煌篇章,最终取得高职专业组一等奖、高职创意组二等奖、高职快速美容组二等奖的好成绩。同时,学院...https://www.tsvc.edu.cn/info/1004/15037.htm
3.第五届“泰迪杯”数据分析技能赛火热报名中!一等奖:不超过8%,颁发“泰迪杯”数据分析技能赛一等奖荣誉证书。 二等奖:不超过12%,颁发“泰迪杯”数据分析技能赛二等奖荣誉证书。 三等奖:不超过20%,颁发“泰迪杯”数据分析技能赛三等奖荣誉证书。 注:一、二、三等奖及成功参赛均为电子证书。 在一等奖中,采用视频答辩的形式,每题每组评选出一个队获泰迪杯,颁...http://www.tipdm.com/gsxw/2372.jhtml
4.竞赛资讯BdRace数睿思关于“泰迪杯”证书邮寄 “泰迪杯”技能赛证书已在12月26日(周三)全部邮寄完毕,请自行下载《第一届“泰迪杯”数据分析职业技能大赛获奖证书快递单号》查询。如对证书有疑问者,可发邮件到竞赛官方邮箱jingsai@tipdm.com咨询。 222018-11 2018全国高校数据分析产教融合教学创新研讨暨“泰迪杯”技能大赛颁奖会 ...https://www.tipdm.org/zyjldsdyjjszx/index.jhtml
5.数据科学与大数据技术专业介绍西安欧亚学院多名学生在全国及陕西省大学生数学建模竞赛、美国大学生数学建模竞赛、“泰迪杯”全国大学生数据挖掘竞赛、MathorCup高校数学建模挑战赛等国际级、国家级、省级专业竞赛中获奖。 学生竞赛获奖成果 自2018年来,积极组织学生参加学科及创新创业大赛,累积225余人次获得省级及以上奖项,累积117人次国家级奖项。 https://jrxy.eurasia.edu/info/1045/2618.htm