欢迎访问中国统计学会中国统计科学研究网

中国人民大学统计学院、教育部应用统计科学研究中心

为借鉴发达国家经验,加强国际统计学者之间的相互交流,促进中国统计事业的发展,推动中国统计科学研究与国际水平接轨,第四届中国人民大学国际统计论坛暨第五届统计科学前沿国际研讨会于2010年7月10日-12日在中国人民大学举行。论坛由中国人民大学统计学院、应用统计研究中心、中国科学院数学与系统科学研究院、北京大学统计科学中心、国家统计局统计科学研究所等单位联合主办,首都经贸大学、中央财经大学、对外经济贸易大学、中国科学院随机复杂结构和数据科学重点实验室、西安财经学院协办。

在为期两天半的会议期间,共有9名来自美国、澳大利亚和中国的具有统计学背景的科学院院士,多名考普斯奖(美国四大统计学会会长年度奖)获得者,以及斯坦福大学、哈佛大学、加州大学、耶鲁大学、中国人民大学、北京大学、中国科学院等院校的统计学者约500多人参加会议,在9位院士特邀报告和63个分会场共299篇统计学的前沿研究成果进行了学术交流。主要内容综述如下。

一、统计学科发展方向的院士特邀研究报告

1、基因图谱的统计方法研究

论坛特邀院士报告中有三位美国院士所做研究报告是基因图谱的统计方法研究,可见这个方向在美国的重要性。大卫西格蒙德(DavidO.Siegmund,美国科学院院士,斯坦福大学统计学教授),目前主要集中在基因图谱的统计方法研究。他高兴地介绍,基因图谱的主要作用是确定那些与人类健康有关系的基因,这些基因可以是致病基因,也可以是控制人类体貌特征的基因,比如高度,头发颜色等。当我们的研究真正找到了致病的基因,比如说癌症的基因,那么就可以通过适当的生物技术改变他们,挽救癌症患者的生命。比如,我们可以提前诊断出婴儿是否携带某些严重的致病基因,以便及早寻求保障健康的办法。大卫肯定地表示,基因图谱的研究是一项可以为子孙后代带来福祉的工程,但基因图谱的研究是一个长期工程,不像在银行存钱,今天存了,明天就可以拿到利息。

大卫西格蒙德所做的研究报告是“多个序列中同时变点的探测”,他的主要研究是在DNA的多序列里探查同时发生的点改变。针对原先的研究都是基于对DNA单个序列的独立分析进行的,David在演讲中提出了新的统计方法可以联合多个序列的数据进行分析,这样能获得更好的检验效力,而且能更好的对数据进行解释。这个统计模型的提出也是为了解决在多个样本里探查DNA拷贝数目变异的问题,他的研究结果可以很好的运用到这其中。

米切尔瓦特曼(MichaelS.Waterman,美国科学院院士,美国南加州大学生物学、数学、计算机科学教授)所做的研究报告是“循着欧拉路径来读懂DNA序列”,他在回顾和总结DNA序列分析的历史基础上,系统讨论了有关DNA序列拼接研究进展与挑战,他的主要研究是探讨新时期DNA序列研究特点以及应用欧拉图方法对DNA序列进行分析的优势与难点。

彼得比克尔(PeterBickel,美国科学院院士,加州大学伯克利分校统计系教授)所做的研究报告是“基因学中的统计推断实例”,他介绍了他们所参与的ENCODE(DNA的百科全书)分析工作小组的两个问题。这个小组是一个致力于标记人类基因组功能的国际合作组织,他们的问题已经由该组织以及其他人实现和利用。主要研究成果是:(1)评价何时两个基因特性是相互独立的。(2)评价用于寻迹的peakcallers以及利用生物重复信号变得嘈杂的点的可靠性。

2、概率统计理论的应用前沿

王永雄(WingHungWong,美国科学院院士,斯坦福大学统计系主任、教授)所做的研究报告是“可选波亚树与贝叶斯推断”,他提出使用推广的Polya树方法构造概率测度空间,强调在异质性环境中测度空间、变量选择和统计推断设计三者之间关系的复杂性和重要性。探讨替代停止和替代选择拆分变量机制,讨论了使用新机制构造的随机测度的优点,主要的结论是空间分割的分段光滑密度绝对连续,可以保障在全变差拓扑空间上有较大的非零域,产生的后验分布还是替代Polya树,为高维离散和连续的多元分布的概率空间构造提供了机器学习理论。该报告在概率空间学研究方面具有非常重要的引导作用,将为机器学习与概率统计学科群的开辟提供基础平台。

马志明(中国科学院院士,中国数学会理事长)所做的研究报告是“由网络信息检索引发的概率与统计问题”。报告是马志明院士领导的一个研究团队所进行的研究工作和研究成果。报告首先阐述了网络搜索引擎的一些重要进展,特别是PageRank的发展情况,其中着重介绍了报告人本人所带领的研究团队在PageRank算法方面的一些研究成果,包括PageRank的极限,不同不可约马氏链的比较,N-步PageRank等。此外针对PageRank的一些弱点,报告中详细介绍了其研究团队所提出的另外一个搜索引擎:BrowseRank,包括此算法的原理,计算方法,数据分析等。在报告的后半部分,介绍了因特网信息检索也即搜索引擎的算法设计和分析过程中所涉及的主要概率和统计问题,包括浏览过程和two-layer统计学习等。重点介绍了其研究团队的研究成果,包括他们所提出的一种新型的马尔科夫骨架过程以及基于此过程提出了一种给网页重要性排序的算法,two-layer统计学习及其在网络检索中的应用等。最后报告提出了一些未来可以研究的问题以及可能遇到的挑战。

3、经典统计方法研究的新动向

Hall研究成果提出,聚类中q的数量的选择,建议起始点用一个含较小数量的高排名成份,而不是仅仅用一个单个成份,并且用一个投影追踪的老方法去确定我们需要的成分的个数(例如变量或特征)。例如基于q个成份的k-均值聚类可以用来寻找聚类,并且用到的变量的数量可以从向量成分中排序选出,根据多峰性,通过在一个图中的平方和而不是识别出的聚类的个数来寻找“kink”。

4、统计方法的误区与科学应用

随着统计研究的不断深入,统计方法和统计模型层出不穷,为学术研究提供了非常广阔的方法论选择空间,但是如果对各式各样的统计方法在理论前提和现实适用性等方面没有深入的充分理解,那么就可能会陷入统计方法的应用误区,可能得到不科学的结论。论坛特邀院士报告中有两位美国院士对统计方法的误区和科学应用做了讲演。

劳伦斯D.布朗(LawrenceD.Brown,美国科学院院士,宾夕法尼亚大学统计学教授)所做的研究报告是“模型选择下的有效统计推断”。报告指出在数据分析之前常规的统计推断要求对于数据如何产生的特定模型做出假定。然而在应用中,我们经常进行各种各样的模型选择算法来决定一个更适宜的模型。这一过程往往涉及对原来模型的统计检验和置信区间。但是这些实际操作都被误导了。被估计的参数依赖于这个原来的模型,而且后来选出的模型的抽样分布可能具有很多意想不到的性质。这些性质和通过常规假定得到的性质非常的不同。置信区间和统计检验并没有像设想的那样很好的表现。当模型选择的过程本身就是各种各样的而且没有被充分理解的时候,尤其如此。我们研究被通常使用的高斯线性模型。除了在后模型选择推断中潜藏的问题,我们呈现一种用于对后模型选择参数做出有效推断的程式。这一程式不依赖于关于模型选择程式的知识。我们同样呈现该程式对于某些特殊线性模型设定的表现特征,以及涉及高维参数情形下的渐进性质。

二、经济社会统计研究

1、国民经济核算方法

高敏雪指出直接投资所引起的附属机构的国别属性问题,搭建了从跨境贸易统计到属权贸易统计的基本框架以及调整方法,最后集中针对中国货物进出口贸易进行了分步、分口径的调整测算,并系统发掘了调整过程所包含的信息,为评价中国货物进出口贸易提供了不同的图景。调整的结果表明:中国货物贸易进出口的规模及顺差被高估了,而关于中国服务贸易状况以及与货物贸易的结构则需要重新认识。

吴海英则提出基于所有权的“国民贸易差额”(nationaltradebalance)概念,通过与跨境贸易统计的比较,指出二者的关系为:国民贸易差额=跨境贸易差额+直接投资收益差额+雇员报酬收支差额。通过对美国、日本和中国三个国家国民贸易差额的实际核算,发现相比于跨境贸易差额所反映的全球贸易失衡程度而言,采用国民贸易差额方法反映的失衡状况要小得多。

“国际收支统计的最新进展以及对于中国的影响”(刘仕国,中国社会科学院)首先比较了国际收支手册第六版(BPM6)与第五版在对应账户上的口径变化,紧密结合近年我国经济发展趋势和参与国际的形式,从更广阔的背景下解释了新旧手册的改动及其意义。报告还深入探讨了BPM6对中国官方统计的影响,如从具体的服务贸易统计数额变动情况说明了口径变动的意义,进一步拓展到政治和经济外交等方面。

“基于地租方法核算的城镇土地出让金”(李静萍,中国人民大学统计学院)按照将土地出让金视为预收地租的方法,对我国城镇土地出让金进行了实际核算。核算结果表明,如果将土地出让金作为地租和隐性债务来核算,则核算结果对经济流量的影响不明显,但是会显著影响各部门的经济存量,尤其是政府部门的存量。李静萍认为,按照地租的思路对城镇土地出让金进行核算,可以充分揭示政府的“隐性债务”规模,而如果把土地出让金作为土地使用权资产的交易,则对于政府部门来讲只能体现为金融资产的累积,不能体现由于预支未来地租对未来政府融资能力的弱化。

“县域绿色GDP核算体系构建及其应用研究——以石家庄市井陉矿区为例”(刘德智,石家庄经济学院)指出,通过构建与县域特点相符的县域绿色GDP核算体系,找到县域经济发展与资源环境保护的契合点,可以促进县域经济的可持续发展。报告基于SEEA体系,构建出了一套切实可行、符合县域情况的绿色GDP核算体系,并以井陉矿区为例展开实际测算,通过对测算结果的研究,演示了县域绿色GDP核算对于产业结构调整和污染治理等的实际价值。

2、数据质量问题

“中国企业统计能力评估方法的研究”(王艳明,山东工商学院)和报告“DQAF方法下中美统计数据质量的对比分析”(刘小二,厦门大学)分别从微观和宏观两个层次阐述了统计数据质量的有关问题。王艳明的报告指出,企业数据收集的质量高低与企业统计能力的大小关系密切,定义企业统计能力=获取高质量数据的能力+企业统计分析能力+企业统计参与管理决策能力。报告认为企业统计能力的评估包括统计条件、统计内容以及统计应用领域等三个维度,并指出对企业统计能力的评价既可以从每个具体企业的统计能力进行评价,也可以从总体上对全国企业统计能力进行整体评价。报告还对评价指标体系和评价方法做了讨论。刘小二的报告指出,我国统计数据质量存在很多问题,突出表现在两个方面:统计数据与人们的实际感受不符以及数据“打架”现象普遍。报告介绍了国际货币基金组织的数据质量评估框架(DQAF),然后从质量的前提条件、保证诚信、方法健全性、准确性和可靠性以及适用性和可获得性等方面对中美两国的统计数据质量进行了详尽的对比,结果说明我国与美国存在较大差距,最后针对我国的情况给出了分阶段的对策建议。

“统计数据质量概念和数据评估的框架”(许永洪,厦门大学经济学院统计系)肯定统计数据质量在社会、经济分析中的作用,同时指出统计数据的质量的内涵和框架有待阐明和澄清。作者首先将统计数据质量的属性特征进行划分归类,在第一层次上将数据质量属性划分为四个特性,在第二层次上细分为六个,其次分别给出了统计数据质量广义和狭义上的概念,在上述基础上,分别针对广义、狭义的数据质量构建了评估模型,并建议了模型的适用群体,但对于报告中所构建的评估模型,作者也指出模型不能排除数据异常值的存在,同时强调了要注意统计方法的适用条件,根据实际情况选择适当的统计分析方法。

3、现实统计应用

“企业知识产权统计指标体系研究”(江苏大学,吴继英)指出企业知识产权能力是建设创新国家或创新地区的微观基础,将其定义为企业创造、应用、保护和管理知识产权的综合能力,在此基础上构造了包含4个一级指标、24个二级指标的指标体系,并利用层次分析法给出各个指标的权重。不过,鉴于无法获得数据,报告没有给出实际的评估结果。

“基于伯特兰博弈模型的人民币汇率合理性评估”(李宝新,河北经贸大学数学与统计学院)针对目前人民币汇率是否需要升值的问题,基于伯特兰博弈模型进行了实证分析。报告指出,实证分析结果表明,1990年至2007年人民币名义汇率一直处于币值低估状态,但自2005年起这种币值低估的态势开始扭转,并逐步趋近于博弈均衡汇率,为此,近期的人民币已不宜升值。

“基于环境Kuznets曲线的回顾以及在中国的适用性”(杨诗颖,首都经贸大学)围绕环境污染和经济发展二者之间的关系进行研究。报告阐述了Kuznets曲线的概念及其理论,借鉴国内外实证研究成果,从具体的数据、变量和模型选择等方面深入探讨了人均收入和环境污染之间的关系,给出了我国主要城市的曲线趋势和未来人均收入与环境污染的关系,具有较强的现实意义。

报告“证券市场中股东的自组织模型”(曹湛,烟台南山学院)提出了一个比较新的模型概念——自组织模型,并把该模型应用于股份公司的结构中进行分析,从实际应用的角度为听众展示了模型的价值。

NissimBenDavid,EvyatarBenDavid利用以色列足球联赛的数据,首次利用解析性的方法对比赛结果进行预测,并给出了相应的下注策略,通过确保各场比赛的不同正确率,从而以最少的赌资赢得最终的胜利。

4、生产率的分析与比较研究

“中国产业竞争力评估——与日本TFP水平的比较:1995-2006”(北京航空航天大学,郑海涛)从中日GDP增长率差异引出对两国TFP水平是否存在差异的问题,在介绍了基于购买力平价(PPPs)的TFP水平差异的比较方法之后,对中日两国以PPPs计算的GDP进行了比较,并进一步对中日两国产业TFP水平差异进行了比较。结果发现:在33个产业中,中国有26个产业的TFP(尤其是石油和初级金属产业)均低于日本,而且宏观经济层面的TFP水平也有显著下降的趋势。由此表明,中国的TFP尚未赶上日本的水平,并有扩大趋势。

“基于DEA模型的涉农企业生产率评估”(安徽财经大学,宋马林)指出,涉农企业生产率的提升对于传统农业转型、发展现代农业以及建设新农村具有重要意义,认为DEA模型是一种更好的测度生产率的方法。报告首先采用六种不同的DEA模型对涉农企业生产率进行了测度,然后利用SABCB模型对不同模型进行有效的整合,为DEA模型的整合应用提供了新的思路。

5、金融统计和金融高频数据研究

第四届中国人民大学统计国际论坛在金融统计和金融高频数据方面共有4个session,来自世界各地的10位著名统计学者分别介绍了各自的最新研究成果。4个session具体涉及到了金融统计、金融高频数据分析和随机金融模型等研究领域。

6、风险管理与保险精算

华北电力大学的高建伟副教授的“企业年金税收优惠政策的精算分析”,在介绍中国企业年金地位及类型、企业年金的税收政策现状的基础上,将企业年金分为缴费、投资和分配三个阶段,得到税收支出的精算模型,并在不同的税收政策下考虑了企业年金的积累规模,设计了一个贡献率模型说明税收优惠政策的效应,通过实证分析,得出EET税收优惠政策对减少养老基金资金缺口最为有利的结论。

北京大学的杨静平教授的“由二维Frechetcopulas生成的分布混合近似二元copulas”的报告。在介绍copulas的概念和二元Frechet上边界、二元Frechet下边界、独立copulas三种重要的copulas类别及对应的关系的基础上,基于空间分解方法,介绍了如何用三种copulas描述二元随机变量的局部相依结构,并利用BFcopula在保持原有边际分布的基础上近似原有copula的理论及方法,并用实例说明了这种近似方法的优越性。

天津财经大学的赵博娟教授的“中国生育率下降结束?一个修正Lee-Carter模型的应用”。在介绍中国生育率发展趋势和特点的基础上,利用三次平滑参数建立了一个修正的Lee-Carter模型,在1988-2009年经验数据基础上,利用修正的Lee-Carter模型对中国城市、镇、农村的一胎、二胎及三胎等生育率进行了拟合和估计,分析了他们的特征及原因,指出任何地区、任何胎数的生育率都没有一直减少或停滞的迹象,预计在2009和2010年全国的婴儿数会增加。报告对我国生育率的评估及预测对我国计划生育决策具有一定的参考意义。

7、抽样调查研究

8、信心指数专题研究

统计国际论坛的一个分会场是2010年第二季度两岸四地消费者信心指数发布暨学术研讨会。此次会议由中国人民大学中国调查与数据中心主办,首都经贸大学统计学院、中央财经大学统计学院、香港城市大学管理科学第、澳门科技大学可持续发展研究所、台湾辅仁大学统计资讯系合办。

袁卫常务副校长出席会议致辞并发布了2010年第二季度两岸四地消费者信心指数。中国人民大学中国调查与数据中心副主任彭非教授,对2010年第二季度两岸四地消费者信心指数进行了总体评析。首都经贸大学纪宏教授、香港城市大学管理科学系吕晓玲博士、澳门科技大学可持续发展研究所庞观权先生、台湾辅仁大学统计资讯学系谢邦昌教授对大陆、香港、澳门、台湾2010年第二季度消费者信心指数进行了分别评析。中央财经大学统计学院院长刘扬教授介绍了消费者信心指数的编制技术。

出席此次会议的有人民日报、新华社、光明日报、凤凰卫视、香港无线电视、东森电视、中天电视等三十多家媒体。2010年第二季度两岸四地消费者信心指数的主题为“信心期待未来”,总体上呈现出五大特点:

(1)消费信心稳定酷暑考验复苏

2010年第二季度,大陆、香港、澳门和台湾的消费者信心指数分别为89.8,86.4,81.0和70.7。同比2009年第二季度,大陆消费者信心指数降低9.3,但仍在90点左右,为四地最高;香港和澳门信心指数分别降低1.1和0.2,台湾则大幅提高15.7。环比2010年第一季度,大陆,香港,澳门和台湾四地的信心指数有微弱的下降,分别降低2.5,1.7,1.8和1.4。

从最近一年消费者信心指数的走势来看,随着全球经济形势的好转,大陆、香港和澳门消费者信心指数震荡企稳,台湾消费者信心指数则从低位回升。从两岸四地消费者信心的各项分指数来看,在物价、投资方面仍有隐忧。

(2)经济信心积极就业压力犹存

本季度,大陆和澳门消费者信心经济发展分指数均处于积极水平,分别为117.0和107.1。环比2010年第一季度,大陆和澳门经济发展分指数出现4.9和3.0的下滑,而香港经济分指数略有下降,为98.0点,处于中性水平;但同比2009年第二季度,香港和澳门经济发展分指数有显著提高,分别上涨12.9和14.2点。台湾经济发展分指数处于较低水平,本季度为60.3;但无论环比2010年第一季度,还是同比2009年第二季度,指数均有上升,上升幅度分别为0.4和8.7。

随着经济形势的向好,四地就业压力有所缓解,但四地消费者信心就业分指数均低于经济发展分指数。本季度,大陆、香港和澳门就业分指数分别为94.2,91.9和93.4,与上个季度相比,三地分别下降2.7,7.2和3.9点;台湾就业分指数为49.8,虽有1.5点的上升,但仍处于消极的水平。

(3)通胀差异显现生活依旧乐观

本季度,两岸四地居民对物价方面的信心呈现出一定的差异性,整体而言物价指数绝对水平均不乐观。大陆消费者信心物价分指数为76.4,比上季度显著提高5.9点,说明大陆地区物价信心有所好转;香港和台湾物价分指数与上季度相比变化不大:分别为65.2和47.3点,环比轻微下降了1.6和0.4点;而澳门物价分指数为54.2,与上季度相比有显著地下降(下降5.9点)。

整体而言,港澳台三地的物价信心水平均不乐观,本季度澳门物价信心有明显下降;而大陆地区物价信心有好转趋势。四地居民对于物价信心消极的态度并没有太多影响其家庭物质消费:从反映居民家庭消费状况的消费者信心生活分指数来看,本季度大陆生活分指数为116.9,较为乐观;香港和澳门的生活分指数分别为109.4和94.8,近一年来虽有波动,但基本是中性偏向乐观。台湾生活分指数为61.7,虽仍处于低位,但已是连续6个季度上扬,且一直高于经济发展分指数。

(4)民间投资怎奈熊市股市振荡信心逆转

从居民投资股票和基金的状况来看,本季度,大陆、香港、澳门和台湾的消费者信心投资分指数分别为69.0,90.8,88.8和107.7。相比上一季度,大陆、澳门和台湾的投资分指数有大幅下降,其中:大陆下降13.6点,澳门和台湾分别下降7.1和7.9点。香港投资分指数降幅最小,本季度下降2.2点,为90.8。上述指数表明,居民投资信心受股市震荡影响,呈现显著波动。

本季度,大陆、香港和澳门消费者购房信心分指数在经历了近一年的持续下跌后,首次出现不同程度地回升,分别为65.1,63.4和47.8,上升2.2,5.3和10.3点,反映消费者购房信心有一定好转。而在三地回暖的同时,近一年一直处于上扬趋势的台湾购房分指数则出现下降的逆转,大幅回落14.9点,至85.8点,甚至低于去年同期水平。

(5)消费信心预期向好物价投资影响显著

消费者信心指数及各分指数均由“现状指数”和“预期指数”构成,反映消费者对现状的评价和对未来三个月的预期。大陆、香港和澳门预期指数均高于现状指数;从各分指数来看,大部分预期分指数好于现状分指数,显示出三地消费者信心预期向好的趋势。而台湾消费信心预期指数则一直低于现状指数,说明台湾居民消费信心的预期略显悲观。

在消费信心总体向好的背景下,物价和投资对消费者信心的消极影响最为明显。本季度,大陆、香港和澳门的物价分指数分别为76.4,65.2和54.2,购房分指数分别为65.1,63.4和47.8,虽然购房分指数触底后有明显回升,但仍远低于各地的消费者信心指数。投资分指数各地也有显著下降。说明通胀压力、投资不稳和过高房价是影响消费者信心恢复和经济复苏的障碍。

三、现代统计方法前沿

1、高维复杂数据研究

随着人类科学技术的飞速发展,许多科学研究领域产生了多种多样的海量超高维复杂数据。这些领域包括基因学,天文学,宇宙学,流行病学,经济,融学,功能性磁共振成像以及图像处理等领域。面对这些高速增长的复杂超高维海量数据的挑战,要求各个领域的科学家具有快速提取他们所需信息的能力。因此,就统计学自身而言,通过对这些复杂数据的统计推断,研发出强有力的统计科研工具,这显然会给统计界带来切实的利益:将有利于统计学科理论和方法在更广阔的天地中长足发展,有利于促进对自然和科学的深度理解。

“协方差结构的统计推断”(Cai)指出高维数据分析已经上升为统计科学研究界的重要挑战和机遇。它包含两个常见的特征:总是大量维度或大量数据集,稀疏性(只有一小部分观测包含信号),即有“海底捞针”的含义,高维例子有基因学、fMRI分析、天体物理学、信号检测,和大p小n问题,即有稀疏性和高维问题,我们的研究从非参数回归(线性估计,小波门限选择)到大p小n回归(最小化方法),最后研究到大型协方差矩阵的推断上。

“关于高维回归的正规化”(shen)研究了回归模型:,其中相应变量,预测值是p维的。特征选择,用非零系数或的估计去识别预测值,高维d特征选择的优势是:带有较高预测能力的简单模型,这种方法的困难是计算和理论上的挑战,特别是当的情况下。

“两个非线性高维方法:VANISH和FAR方法”(Hames)研究了线性回归的高维问题。

“高维波动率的模拟”(Yao)用到的建模技巧是将因子建模与CUC方法结合,其中因子建模是基于特征分析而CUC也是特征分析的新算法。

“用高频数据做投资选择的大型高频矩阵估计”(Li)考虑了Markowitz投资组合问题,其中,解。CAPM和许多投资理论都是以其为现代财经理论的建立为基石的,上述值对投入向量和他们误差的估计很敏感,根据GreenandHoldfield(1992);Fan,ZhangandYu(2008)指出它能够引起极短效应,特别是对大量投资问题而言。

“基于LeCam定理的近期研究”(Zhou)介绍了LeCam定理的近期研究情况。他们与Brown,Cai,Zhang和Zhao联合近期研究方向为非参数密度估计的新方法,Nussbaum(1996,AoS)andLowandZ.(2005,AoS)提出了非参数密度估计,:是独立同分布于密度,带有变量密度的泊松过程是:独立同分布于密度,高斯白噪声,在未知的弱假定条件下上述值是渐近相等的。

“高维可加模型的稀疏正则化问题”(Yuan)首先介绍了高维可加模型,预测值,相应变量,预测模型是,对回归模型,分类模型和其他的广义回归模型。

“高维自适应非线性交叉结构的变量选择”(Radchenk)提到近来对传统线性回归模型的估计越来越受到重视,其中预测值的数量为p,它比观测值的个数大很多,首先我们通过包含交叉项去除可加性假定,用标准两种交叉模型,我们将上述模型推广到更广泛的非线性领域。

“用于正则化回归估计推理的一个摄动方法”(TianxiCai)提到高维数据分析往往旨在确定一个具有重要特性的子集和评估它们对结果的效应。基于标准回归方法的传统统计推断模式往往不能呈现高维数据的特征。在最近几年,正则化的方法已成为用于分析高维数据有效的工具。这些方法选择重要的特征,同时对它们的效应给出稳定的估计。例如自适应LASSO和SCAD能给出一致的和渐近的具有神谕性质的正常估计。然而,在有限样本下,它仍然不能获得回归参数的区间估计。在本文中,我们提出摄动重采样的程式来近似一类惩罚参数估计量的分布。根据渐近理论,我们提供了一种简单的方法估计协方差矩阵和置信区域。通过有限样本模拟,我们验证了该方法能够提供准确推断,并且把它与其他广泛使用的标准差和置信区间估计作比较。我们也通过一组用于研究艾滋病毒抗药性与大量基因突变关系的数据集来展示了我们的方法。

2、统计模型研究

XiLuo博士(UniversityofPennsylvania)作了题为AverageCaseAnalysisofSparseMultivariateRegressionunderNoise的报告。本报告讨论不完全的带有噪音的稀疏的多通道信号的恢复。使用的方法是对未知的回归系数进行带有惩罚的最小二乘估计。与通常使用的最差案例分析相比,平均案例分析在更弱的假设下给出了更优的结果。本报告提出两步方法估计各通道的信号,得到了更低的平均均方误差。最后对所提方法进行了数据模拟分析。

JiayangSun博士(CaseWesternReserveUniversity)作了题为NewApproachtoEstimationforDatawithGeneralMeasurementError的报告。本报告在误差分布已知和未知情况下,提出了一个对带有测量误差的数据的密度估计方法,该方法是对Non-Fourier估计和混合估计的结合。

LindaZhao博士(UniversityofPennsylvania)作了题为LearningfromCrowds的报告。在有指导的学习中,对于一个观测通常很难获得客观准确的标签,而是从不同方面获得主观的带有噪音的多个不同的标签。针对此问题,本报告提出了一个概率方法评价不同标签并给出真实的隐藏标签的估计。实际数据分析表明新方法由于通常使用的多数投票方法。

艾春荣博士(上海财经大学)作了题为AUnifiedTheoryofFunctionalCoefficientsModels的报告。本报告考虑了参数为协变量的函数的模型推断问题。提出的方法是将函数的系数用sieves替代,并且以此近似形式对模型进行估计。在一些充分条件下,估计是相合、渐近正态估计。

“对广义的帕累托分布改良的似然性方法”(YongchengQi,美国明尼苏达州得卢斯大学)介绍到最大似然法可以用来估计帕累托分布的参数,但因为帕累托分布的非规律性,所以在某个区域里这个方法不能估计它的形态参数。YongchengQi的研究提出了一种新的似然估计的方法克服了这个问题,使得在所有区域里都可对帕累托分布的参数进行估计。

SamuelKou(哈佛大学统计系)的报告主题是“异方差层级模型的最优压缩估计”(OptimalShrinkageEstimationinHeteroscedasticHierarchicalModels)。本文利用James-Stein压缩估计的思想,建立了异方差层级模型的SURE(Stein’sunbiasedriskestimate)估计量。作者证明了该估计量的在理论上的最优性,然后用这种估计量处理了几组模拟数据和一组实际数据,表明该方法有一定的实用性。

ChangjiangXu,A.IanMcLeod讨论了一般信息准则的性质及其在惩罚MLE模型选择中的适用性,并用糖尿病的实验数据进行了实证研究。

Chi-ChungWen以骨折数据为分析背景,在假定数据服从比例风险模型的前提下,针对协变量缺失的现状数据构造了非参数极大似然估计法,并通过模拟数据和真实数据验证了非参数极大似然估计的效果。

4、观测研究中的因果推断

5、对函数型数据的正规化方法研究

6、纵向数据模型研究

这是和Virginia大学的周建辉的联合工作

7、现代分位回归

现有的分层模型的理论本质上说就是有关给定预测变量的值后响应变量的条件均值的理论。这些理论没有也不可能给出响应变量的条件分位函数的全面刻画.所以,考虑给定协变量的条件下响应变量的全面刻画问题、估计子的稳健问题等等,就显得非常必要了。举个例子说吧:我们很想知道具有分层结构的数据里,某个协变量是否对响应变量的不同层面有不同的影响?什么时候产生的不同影响?产生的机理是什么?等等。再比如说,怎样解释1992年美国民主党所提出的美国人出现了两极分化问题:穷的越穷,富的越富

另一方面,KoenkerandBassett(1978)首先提出了分位回归模型的概念。分位回归是一种统计方法,它旨在对条件分位函数进行统计推断。正如基于残差平方和最小化的经典线性回归方法能估计条件均值函数一样,分位回归方法为我们提供了一种估计条件分位函数的机制。一个著名的分位回归的特例就是最小绝对偏差(LAD)估计,它将中位数拟合成协变量的线性函数LAD估计内在的引人入胜之处就在于它在度量位置参数的时候,比均值好。

“局部自适应分位回归”(Tian)考虑自适应权重选择的非参数条件分位回归问题,提出了一些理论性质及其应用,并且已经证明了本文提出方法的优良性质,首先不需要模型的先验信息、避免了维数灾难,特别是对于跳跃点和不连续点问题都表现出了很好的性质。我们建立了一个关于局部自适应窗宽的一个自动选择方式。这个算法对于高维情况也适用,同时,我们建立了模拟研究和实证分析,它们都体现出我们这种新方法无论在理论上还是实际中都体现出了优良的统计性质。

“分位回归中的可加模型”(Koenker)介绍了惩罚分位回归,条件分位函数可以有解决的估计得到,其中表示检验函数,并且P表示一个惩罚项,它是用来控制拟合函数的粗糙性的。

来自ChineseAcademyofSciencess的YongZhou博士作了题为EfficientEstimationandInferenceforQuantileRegressionwithVarying-CoefficientModelswithCensoring的报告。本报告讨论了应用分位回归模型研究带有删失数据的变系数模型问题,构建了一个倒概率删失加权的估计方程。对所提方程使用MM方法进行求解,推导了所提方法的局部Bahadur表达并且证明了估计量的渐近正态性。同时给出了协方差矩阵的相合有效估计。在实际应用中,建议使用重抽样方法进行参数估计,模拟和实际数据都显示了所提方法的优越性。

9、贝叶斯方法应用研究的新进展

“赞同实验政治支持的贝叶斯测量模型并应用于巴基斯坦的激进组织”(KosukeImai)为测量队政治势力(比如候选人、党派以及其他的政治组织)的支持水平以及他们对事物所有权的强度,抽样试验经常被实施。在抽样试验中,响应者被要求表达他们对由随机选取的政治势力所赞同的某特定政策的观点。然后这些响应者和来自被问及没有赞同的政策的控制组进行对比。这种抽样策略在研究敏感政治态度方面是非常有效的。针对这种赞同实验我们发展一种贝叶斯测量模型。我们的模型是基于条款响应理论,并对群体水平和个人水平的政治支持提供估计。这些水平的测量是基于对响应者理想得分的同一尺度进行的。另外,这个模型不仅可以估计对任一给定政策各个政治势力事务所有权的强度,还可以估计出响应者自身特征和他们对某一特定势力支持水平之间关系。最后,我们提供经验和模拟证据来说明该方法的应用性和统计有效性。我们对巴基斯坦最近的一个抽样试验的分析揭示了公众对不同的激进组织的有趣的支持模式。

10、多元统计前沿方法

报告“利用迭代估计方程对纵向多节点数据建模”着重解决了两个挑战性的问题,分别是响应变量的分布和联合分布问题以及密集计算问题。报告以空气污染中二氧化硫和氮化物的排放为例说明了所要研究的纵向多节点数据的问题。报告从多重端点出发,构造潜变量;同时从协变量出发,构造潜变量与协变量间的结构关系,从而共同完成了纵向多重端点数据的建模工作,通过迭代算法对模型参数做了估计。报告指出估计具有一致性、渐进无偏性和稳健性。

11、统计诊断研究

报告“基于多阶马氏链的序列比较”(XiangFang,内布拉斯加林肯大学;ShunpuZhang,内布拉斯加大学奥马哈分校;GuoqingLu,美国国家癌症研究院)着眼于生物信息学领域的序列信息比较这个问题。报告首先简单阐述了处理这类问题的两类常用方法,本报告中的方法是在第二类方法中的马氏链方法的基础上发展出来的。报告接下来说明了马氏链方法的原理、它的合理性以及生物信息学中DNA序列的马氏链模型,然后给出了多阶转移阵(MTM)的定义、多阶转移阵中每个转移概率的定阶方法以及用来衡量序列相似程度的距离的计算方法,从而完整的阐述了多阶马氏链方法。报告用多阶马氏链方法处理了流感病毒数据并且给出了结果,结果说明了这种方法的优势,在此基础上得出了结论,肯定了多阶马氏链方法在处理序列信息比较的问题时的先进性并且预测了这种方法未来可能会改进的地方。

报告“局部影响分析及其应用”(云南财经大学,石磊)则主要是方法介绍。报告先对局部影响的方法进行了介绍,包括约束的影响分析和逐步局部影响方法两部分,然后分别介绍了其在线形回归模型、线形混合模型和实践序列ARIMA模型中的应用。

四、生物医学统计

1、基因、DNA和蛋白质数据的统计分析

MichaelS.Waterman博士(UniversityofSouthernCalifornia)作了题为EulerianGraphsandReadingDNASequences的主题发言。该发言首先介绍了DNA序列分析的历史,接着讨论了有关DNA序列拼接研究进展与挑战。之后着重探讨了新时期的DNA序列研究特点以及应用欧拉图方法对DNA序列进行分析的优势与难点。

HongyuZhao博士(YaleUniversity)作了题为WeightedRandomSubspaceMethodforHighDimensionalDataClassification的报告。该报告指出来自基因和蛋白质研究的高维数据,因其数据维度大并且常常带有噪声,给传统的分类算法带来了极大的挑战。变量预筛选与组合算法等方法可以解决这个问题,但是通常变量筛选方法没有考虑变量之间的交互作用并且容易过拟合数据。组合算法(bagging,boosting,随机子空间方法,随机森林方法)处理高维数据较有效,但是缺乏对该方法最优权重分配的讨论,这妨碍了组合算法得到更精确地分类结果。本报告给出了一个探索式的最优权重分配方法,并将其应用到随机子空间方法,得到加权随机子空间方法。该方法用来分析公开的基因表达数据以及质谱数据,相对于等权重方法,所提方法有显著提高。

ZehuaChen博士(NationalUniversityofSingapore)作了题为ATwo-stagePenalizedLogisticRegressionApproachtoCase-controlGenome-wideAssociationStudies的报告。本报告讨论了使用两阶段带惩罚Logistic回归方法进行全基因组关联研究。在第一阶段,使用L1惩罚的似然函数选择变量的主效应和交互效应,在第二阶段,使用带SCAD和Jeferry’sPrior惩罚的似然函数对保留下来的变量进行排序,拟合一系列嵌套模型,并使用扩展的BIC准则对模型进行评价。在大样本条件下,模型有很好的渐近性质。通过模型研究了模型在有限样本下的表现。并且与现有方法进行比较,分析了CGEMS前列腺癌数据。

郭建华博士(东北师范大学)作了题为Genome-WideAssociationStudiesUsingHaplotypeClusteringwithANewHaplotypeSimilarity的报告。基因的关联分析对研究与基因有关的疾病非常重要,在所有的分析方法中,基于单倍体的关联分析有很多优点,但也受限于单倍体很少的事实。单倍体聚类提供了一个解决放案。本报告提出了一个基于新的相似度的聚类方法。模拟数据表明该方法可以很好的发现疾病标志物的关联。该方法应用到实际数据分析,得到了高精度的估计。

2、生物网络研究

“基因表达的数量性状座位数据的网络分析”(HongzheLi,美国宾夕法尼亚大学)介绍到现在的遗传基因组学试验常规性的要测量遗传变异体和基因表达数据。而基因表达的水平往往被看作是数量性状,而且为了确认基因表达的数量性状座位要用标准的基因分析方法。但是很多基因表达的架构是很复杂的,如果对基因表达的架构估计不好则会造成在转录水平对基因依附结构的估计不良。HongzheLi介绍了几种分析基因表达的数量性状座位数据的方法,包括对推导基因效果和基因关联网络的稀疏相依回归模型和对动态共表达分析的惩罚似然估计法。

“对加权遗传交互网络的模块分析”(MinghuaDeng,北京大学)高通量基因遗传学相互作用图谱方法(EMAP)可以画出大型的基因相互作用的网络,但复杂的分析这种网络的计算方法仍有待发展。为了解决这个问题,MinghuaDeng采用了混合程序建模来构建一个加权遗传交互网络,然后运用一个概率体制来确定网络中的密度交互模块。混合程序模型是EMAP里的软阈值技术。他还用他们的方法对一个早期分泌性途径的EMAP数据集进行了预测,共预测有254个模块。在这些模块中,有88个可以在基因本体中找到,7个可以在京都基因与基因组百科全书中找到,6个可以在慕尼黑蛋白质序列信息中心找到。

“人类近代的祖先”(JosephChang,美国耶鲁大学)研究考虑的是所有人类共同祖先模型的概率问题。他的研究主要聚焦在家谱网络上。在一个随机婚配的人群里,最近的共同祖先可能生活在非常近的过去,人口的数量是呈对数性增长的。但是随机婚配模型忽略了人群里的亚结构,比如有些人只和同一社会阶层的人进行婚配,还有一些地理上相对孤立的人群。因此寻找人类共同祖先可能需要某种考虑了人群亚结构的模型,而且人类的谱系在过去可能有着某种重叠。在这些模型中,人类最近的共同祖先可能就存在于几千年前,而且当今的人类有着共同的祖先。

此外,来自美国哈佛大学的EdoAiroldi,也以“网络统计和网络中的进程”为题做了精彩的演讲。

3、统计在神经影像学中的应用

“函数型数据的分析、因果推断和脑连接”(MartinLindquist,美国哥伦比亚大学)函数型数据的分析和因果推断是近来统计界很感兴趣的两个问题。但是,在神经影像学里这两个问题的研究和应用还很少。MartinLindquist介绍了一些函数型数据的分析和因果推断在神经影像学里应用的例子。最后他还介绍了一个用函数通径分析模型来研究脑连接的例子,并且用因果推断的方法对函数通径分析的结果估计了平均的因果效能。

“利用统计方法估计磁脑照相术(Magnetoencephalography)信号源的个数”(ZhigangYao,美国匹兹堡大学统计系)指出,MEG是一种图像处理分析技术,处理对象是人脑所产生的电磁信号,以实现对人脑功能的研究。由于MEG数据的高维度特点,所以其中的主要问题是信号源个数的确定。目前现有的信号源估计方法主要包括主成分分析法、因子分析法以及AIC法等。然而上述方法在实际信号个数与噪声信号个数的比值较小的情况下会很敏感。由于实际应用中噪声是未知的,因此噪声估计就至关重要。报告采用小波方法,傅立叶方法和残差估计方法估计噪声,并进行了统计模拟和各种方法的对比研究,结果表明较现有的传统方法,小波方法和傅立叶方法等更适合于MEG高维数据的研究。

4、自适应设计和临床试验

此外,来自美国华盛顿大学Xiao-HuaAndrewZhou,以“在选择最优化诊疗里对生物标记物的预测准确度进行评价”为题做了精彩的演讲。

5、生存分析模型的前沿研究

“复发性分析:长度-频率权衡”(JasonFine,威斯康星大学麦迪逊分校统计学院生物统计与医学信息系)共分为六个部分,第一部分对比介绍经常性事件与反复性发作;第二部分对rhDNase数据:数据分析中所遇问题进行分析;第三部分探讨目前的解法方法;第四部分介绍时空过程回归方法;第五部分是对rhDNase数据的再分析;第六部分总结。

“利用超高维变量对cox模型的原则确定独立性筛选”(Dana–Farber&DaveZhao,哈佛大学公共卫生学院)报告第一部分介绍“多发性骨髓瘤”,其症状表现为骨病变,免疫系统失调,肾功能衰竭,在确诊后患者存活率仅为10%。目标是“靶向治疗”,也就是要达到有针对性的治疗效果。第二部分报告多发性骨髓瘤“靶向治疗”的探寻过程。第三部分报告SIS:确定独立性筛选。第四部分详细报告PSIS算法。第五部分报告为多发性骨髓瘤寻找替代基因的过程。

“带信息区间删失下生存数据的线性风险模型”(孙建国等,密苏里大学统计学院)报告共包括四个部分及一个附录,报告第一部分主要是举例介绍两类区间删失数据及文献回顾。报告的第二部分是关于带信息删失的线性风险模型的推导。报告的第三部分是乳癌研究的分析。报告的第四部分是结论讨论部分,作者先是介绍了这个方法的局限性,并提出可以将这个方法一般化推广到K个区间删失数据,同时提到了未来可以研究的方向。在报告的附录部分,作者介绍了生存分析回归模型中最通用的比例风险模型。

6、医疗与卫生保健统计方法研究

BojuanZhao博士(天津财经大学)作了题为LongitudinalModelingofAge-specificMortality的报告。对于短期的死亡率数据,著名的Lee-Carter模型很难给出稳定的特定年龄的死亡率预测,本报告使用三次样条及其他可加函数改进Lee-Carter模型解决这个问题。所提模型在稀疏数据的情况下,可以给出光滑平稳的期望死亡率估计。该模型用来估计中国2000-2008年分年龄分性别的死亡率数据,拟合效果优于Lee-Carter模型。本报告所提模型对分析其他纵向数据(比如生育率数据)同样具有很高的价值。

来自UniversityofHongKong的JosephWu博士作了题为ASerialCross-sectionalSerologicSurveyof2009Pandemic(H1N1)inHongKong:ImplicationsforFuturePandemicInfluenzaSurveillance的报告。在全球性流行性感冒发作的初期,公共卫生管理的一个紧急的首要的任务是估计它的传播性和严重性,这是很困难的事情,因为很多流感症状临床并不显著。人群的血清监测可以有效的估计病毒感染率,结合临床的住院和死亡数据,可以准确的估计新病毒的严重程度。2009年流感爆发期间,本报告在香港进行了一个详细的血清监测研究,基于对15000个捐赠者,1000社区患者以及4000个门诊病人的血清样本的分析,我们估计出基本复制数字为1.35,住院率随年龄段0-12到60-79为U型分布。第一波段之前之后的血清数据即可以用来估计病毒的感染率和严重性。使用计算机模拟计算为了准确估计病毒传染性和严重程度而每天需要监测的样本量。

五、其他统计前沿研究

1、机器学习理论与应用研究最新进展

围绕“机器学习理论与应用发展”的分会会议主题,分别从机器学习应用、理论与非参数统计与其他学科之间的关系等角度进行了分类总结,学术报告可归纳为“机器学习应用的数据基础”和“机器学习的统计学机制”两个大的基础理论问题,而解决问题的途径必须在方法·数据耦合系统的大框架下进行探索。

(1)微观数据算法设计引领机器学习应用前沿

朱冀教授的学术报告“网络社区发现”算法设计中考虑了网络聚类问题,研究中考虑了与传统切割法不同的随机游走方法,设计允许大量背景信息与有效聚类信息共存情况下的链接数据聚类,探讨了新聚类算法的效率和稳定性问题。

此外,马志明院士的特邀报告也体现了对该领域发展的重要贡献(参见前面的详细内容)。虽然有很多学者对Pagerank算法改进以优化计算速度,很少有学者研究不同的数据对综合评价算法的影响。马院士提出的BrowseRank将用户在网页上的使用信息有效地加入到算法设计中,以实现网页的民意排序是一项新发展的应用研究。

(2)非参数估计与机器学习成果丰富

在非参数理论分会上,LuTian考虑了得分函数估计问题,提出使用重抽样方法估计非线性交互作用函数,在此基础上采用二阶选择函数,指出在一定假设条件下,添加变量可用于估计效率的提高;TylerJ.VanderWeele给出基因基因和基因环境交互作用条件下的因果推断问题的解,提出使用自然直接因果效应和自然间接效应对交互效应分解,使用非线性模型构造优势比给出问题的估计模型,并用肺癌病的实验数据通过实证研究说明该方法在估计中的适用性。XiaohongChen将PSMD置入式估计用于半参数或非参数条件和非条件矩模型中,使该方法扩展至矩估计中,考虑了估计的正态一致性估计问题,建立了基函数的根号n估计理论,给出了估计的卡方近似检验分布。

在非参数应用分会场上,李银国等考虑了面板数据的聚类算法设计问题,讨论了面板数据聚类距离的三种传统定义方法,考虑了加权权重设计问题,提出加权聚类距离设计,使用实际数据给出不同距离设计下的结果比较研究。谢尚宇等考虑了存在条件极端事件误差的非参数回归中的非参数估计问题,对尖峰探查方面的研究提供了全面概述和总结,提出了一种基于小波设计的可用于跳跃和尖峰探查和估计方法。

在机器学习理论分会场中,JinchiLv考虑了NP维即超高维下的非凸罚似然估计问题,讨论了一般信息准则BIC、SIC在几种重要的凸惩罚函数中的性质及其在惩罚似然模型选择中的稀疏性和连续性表现,指出凸惩罚函数在变量选择中普遍具有约束性不强的特点。作者提出ICA算法给出爬升解路径保证惩罚似然函数对固定的调节系数产生增长序列从而得到合理的似然估计。RuiSong考虑了超高维稀疏可加模型的非参数独立滤网问题,提出可加模型变量选择的NIS算法,给出可用于正率误差减少的INIS算法,实证研究表明了算法的有效性。

现代统计学的发展突破了传统统计学的数学界限,在多维视野和多个空间尺度连接过去、现在和未来,耦合着自然界、人类社会和经济的运行。中国统计学的迅速发展是今日和明天信息环境和的需要,对于实现知识经济发展也具有举足轻重的意义。过去二十年间,我国统计学科学虽然取得了长足进步,但离国际统计学先进水平尚存较大差距,加强国际学术交流是缩小差距的有效途径。通过本次会议,国内外优秀统计学家给我们们带来了一些学科发展的前沿和理念。责任成就事业,有为才能有位。借国际论坛统计盛事,我们一方面应深入挖掘机器学习与传统概率数理统计的综合理论研究,另一方面积极围绕国家重大需求创造性地开展统计机器学习的应用,使统计机器学习在中国的这片土壤上硕果累累。

2、图像统计研究

“数据云的分析:图象分类的层级高斯化”(FengLiang,UniversityofIllinoisatUrbana-Champaign统计系)首先说明了数据云的概念,在图象分类/回归中,每个样本不是维空间中的一个点,而是具有形式,其中是一个矩阵,该矩阵各列的维向量不分次序。然后为了解决图象分类所需要的输入问题,将图象表示法所需的建模参数分为三个层级:类别级、图象级和patch级。在此基础上,给图象的高斯化数据建立了贝叶斯层级模型,并给出了三个层级模型的实用估计方法。基于这种思路的分类法在分析常见的数据集PASCALVOC2007和PASCALVOC2009中明显优于现有其他分类方法。

3、设计与过程控制

“基于变量选择的多变量统计过程监视与诊断MEWMA控制图的开发”(清华大学工业工程系王凯波,香港科技大学WeiJiangFugeeTsung)多元指数加权移动平均MEWMA控制图是最有应用价值的多元控制图之一,然而,当MEWMA图发出失控信号时,很难说明哪个变量或哪些变量处于失控状态。报告介绍了变量维数与中心漂移发现概率的关系,强调过程监视和错误诊断是同等重要的,提出的基于变量选择的VS-MEWMA控制图,把监视和诊断集成在同一个步骤中,发出报警时,可以有效地确定那些失控的漂移变量。

“计算机仿真试验的套格子点样本”(艾明要,北京大学数学科学院概率统计系)计算机仿真试验称为充满空间的设计,在试验范围内选出均匀散布的试验点,其两种主要方法是拉丁超立方体抽样和均匀设计,报告介绍的套格子点样本方法属于拉丁超立方体抽样。报告首先回顾了拉丁超立方体设计的发展过程,介绍了套置换等有关概念。在此基础论述了套格子点样本方法,用一个示例给出图形展示,介绍了该样本的几种具体构造方法,有Rao-Hamming方法、差分矩阵方法、Bush方法等,以及该方法的优良性质。最后提出了该方法的几个需要进一步研究的问题。

“分式因子设计的GMC理论”(张润楚,南开大学数学科学学院东北师范大学数学与统计学院)研究了二水平因子的正规设计问题,在正规因子设计中,字长用来刻划一个因子设计有关主效应和交互效用的混杂情形,两个重要的准则“最大分辨力”和“最小低阶混杂”都是字长的函数。作者指出现有准则的缺陷,例如找不到最优设计方案,提出了能够有效找出最优设计方案的一般最小低阶混杂GMC准则,该准则基于对设计方案的AENP分类,AENP分类是作者与合作者在2008年提出的根据混杂效应数目对试验设计方案的分类方式。

4、实验设计

“最小最大实验设计”(Nyquist)先定义设计问题,研究的模型是:相应变量Y服从分布,是未知参数向量,x是设计变量向量,例如简单线性回归,其中,Logit模型,多元正态响应变量形式,Y和是p元向量,,并且有,二项分布,并且独立。

“建立两类的和设计”Liau讨论了带两水平的的因子设计,举例来说,如果我们有双胞胎或一双鞋、一双袜子、一双眼睛或者只有两个可用的机器。将因子命名为1,2,3,...,k,如果我们想估计所有的效应并且估计所有和两因子的交叉效应,那么需要多少个组呢?其中DraperandGuttman(1997)给出了个组,Kerr(2006)提出了个组,YangandDraper(2003)探讨了k=2,3,4,5的情况,BoxandHunter(1981),Daniel(1962),John(1971),MontgomeryandRunger(1996),John(2000),WuandHadama(2000)提出了折叠法设计的特定因子。

5、稀疏推断研究

在稀疏推断分会场中,“识别分层网络结构中稀疏点的方法”(AartiSingh,卡内基梅隆大学)研究了如何在网络中发现活动信号比较弱的点,比如神经网络中神经元的微弱变化、河水被污染的迹象等。报告首先介绍了分层的方法:最小组内相似性大于最大组内相似性,其中相似性用协方差度量;然后将网络活动分为分层独立结构已知和未知两种情况。在网络点的独立结构已知的情况下通过对测度的正交变换提高网络点的稀疏性从而放大弱信号点,再对弱信号点进行假设检验以判断其是否属于活动区域的点。如果网络点的独立结构未知,通过之前网络活动学习其分层独立结构,然后同第一种情况。报告证明了正交变化以放大弱信号点的有效性并通过实证分析验证了方法的可行性。

6、统计方法在气候研究中的应用

ShiTao博士(俄亥俄大学统计系)的报告主题是“AIRS第3级量化数据的统计分析”(StatisticalAnalysisofAIRSLevel3QuantizationData)。AIRS是AtmosphericInfraredSounder的缩写,包含三级逐级汇总的数据。第1级数据是实际观测到的空气、地表温度、水汽和云层特征,观测的时候将地球划分为45公里边长的“足印”(footprint);第2级数据将每个足印上的观测数据转化为一个35维向量,数据量为每个月2..72G;第3级数据按照5度×5度的尺度用多维直方图汇总每个月的第2级数据。本文采用Mallow距离,建立了分布之间的距离,进而为直方图直接建模,所采用的方法参考了虚拟局部映射法(HypotheticalLocalMapping,LiandWang2008)。作者认为Mallow距离和均值距离之间存在比较明显的差异,而直方图建模能够反映比前两阶矩更多的信息,所得到的拟合模型可以用来研究局部地区的气候,为数据缺失地区做预测,并和气候模型的输出进行比较。

7、统计教育

“MATLAB辅助的基于积分的商务数学教学方法”(WilliamS.Pan)通过若干实例,生动地演示了如何用MATLAB软件绘制函数的图形、求导数以及计算积分,从而解决实际问题。这种计算机辅助教学方式为信息时代的基础统计教育带来了很多有益的启发。王忠玉,赵正权强调了经济计量学教学方法研究的重要性。

(综述主要作者:中国人民大学统计学院、教育部应用统计科学研究中心的赵彦云、李静萍、田茂再、张波、王星、金勇进、王晓军、孟生旺、吕晓玲、彭非、王瑜、许王莉、杜子芳、刘文卿、金阳、张景肖、薛薇、黄向阳,最后由赵彦云综合修改定稿。)

THE END
1.猫狗分类,猫狗大战Cats vs. Dogs(猫狗大战)数据集下载地址为https://www.kaggle.com/c/dogs-vs-cats/data。这个数据集是Kaggle大数据竞赛某一年的一道赛题,利用给定的数据集,用算法实现猫和狗的识别。 其中包含了训练集和测试集,训练集中猫和狗的图片数量都是12500张且按顺序排序,测试集中猫和狗混合乱序图片一共12500张。 http://www.ppmy.cn/news/471394.html
2.Pytorch迁移学习使用MobileNetv3网络模型进行猫狗预测二分类首先,我们需要准备用于猫狗二分类的数据集。数据集可以从Kaggle上下载,其中包含了大量的猫和狗的图片。 在下载数据集后,我们需要将数据集划分为训练集和测试集。训练集文件夹命名为train,其中建立两个文件夹分别为cat和dog,每个文件夹里存放相应类别的图片。测试集命名为test,同理。然后我们使用ResNet50网络模型,在...https://developer.aliyun.com/article/1431726
3.CV:计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念...AI:人工智能领域算法思维导图集合之有监督学习/无监督学习/强化学习类型的具体算法简介(预测函数/优化目标/求解算法)、分类/回归/聚类/降维算法模型选择思路、11类机器学习算法详细分类之详细攻略_一个处女座的程序猿的博客-CSDN博客 (4)、数字图像处理及OpenCV ...http://www.360doc.com/content/22/1018/20/77158047_1052237372.shtml
4.猫狗训练集(全).rar深度学习图像识别里最基本的应用,猫狗图像分类问题,这里面包含了四千张训练图片,一千张测试图片供大家模型训练时使用。https://www.iteye.com/resource/laozaoxiaowanzi-12296827
5.AlexNet在猫狗识别中的应用下图是自己对AlexNet的理解做的图,展示了一张3通道的227*227的图像如何经过各个隐含层的处理最终形成分类。绿色柱子的是指经过卷积层处理后的特征图(Feature...下面是一些实验结果,包括损失函数以及预测精度,样本外的测试精度均值也才75.8%,并没有想象中这么棒。下回看看GoogLeNet在猫狗大战中的效果。https://www.jianshu.com/p/08924d5454f9
1.tensorflow2实现图像分类:以猫狗数据集为案例(下)解决这个问题的一种方法是扩充数据集,使其具有足够数量的训练示例。**数据扩充采用从现有训练样本中产生更多训练数据的方法,通过使用产生可信图像的随机变换来扩充样本。目标是模型在训练中永远不会看到完全相同的图片两次。**这有助于将模型展示给数据的更多方面,并更好地进行概括。https://blog.csdn.net/2401_87555412/article/details/143474129
2.针对特定硬件配置的神经网络剪枝优化新法算法算子大模型神经网络剪枝是将基于深度神经网络(DNN)的人工智能(AI)模型部署在诸如移动设备等资源受限平台上的一项关键技术。然而,不同平台的硬件条件和资源可用性差别极大,这使得设计出最适配特定硬件配置的剪枝模型变得至关重要。 具备硬件感知能力的神经网络剪枝提供了一种使该过程自动化的有效方式,但它需要平衡多个相互冲突的目标...https://www.163.com/dy/article/JG9I2VJT05568E38.html
3.python猫狗分类cnn猫狗分类数据集1-《Tensorflow入门图像分类-猫狗分类-安卓》 2-《TensorFlow入门图像分类-猫狗分类-MobileNet优化》 最近在温习 Tensorflow,写了一篇笔记,记录了使用 Tensorflow 训练一个猫狗图像分类器的模型并在安卓应用上使用的全过程。 一、数据集准备 1.1 数据集来源 ...https://blog.51cto.com/u_16213588/8954894
4.Pytorch自定义CNN网络实现猫狗分类详解过程pythonPyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。它不仅能够实现强大的GPU加速,同时还支持动态神经网络。本文将介绍PyTorch自定义CNN网络实现猫狗分类,感兴趣的可以学习一下https://m.jb51.net/article/269528.htm
5.python如何识别猫狗?对狗和猫的照片进行分类(准确率为97%)python如何识别猫狗?尽管这个问题听起来很简单,但直到最近几年才使用深度学习卷积神经网络有效地解决了这个问题。在有效解决数据集的同时,它可以作为学习和实践如何从头开始开发、评估和使用卷积深度学习神经网络进行图像分类的基础。 这包括如何开发一个强大的测试工具来估计模型的性能,如何探索模型的改进,以及如何保存模型...https://www.lsbin.com/7087.html
6.“猫狗分类实验”总结.docx“猫狗分类实验”总结.docx,猫狗分类 首先使用的猫狗分类图像一共 25000 张,猫狗分别有 12500 张,我们先来简洁的瞅瞅都是一些什么图片。我们从下载文件里可以看到有两个文件夹: train 和 test,分别用于训练和测试。以 train 为例,翻开文件夹可以看到格外多的小猫图片,https://m.book118.com/html/2022/0604/5104034340004234.shtm
7.猫狗数据集;用于训练猫狗二分类模型码农集市专业分享IT编程学习...猫狗数据集;用于训练猫狗二分类模型 (0)踩踩(0) 所需:1积分 Buck电路-电容电感计算 2024-10-17 00:07:14 积分:1 汽车部件分割数据集 2024-10-16 23:51:39 积分:1 包装分割数据集 2024-10-16 23:50:40 积分:1 签名检测数据集 2024-10-16 23:49:40 ...https://www.coder100.com/index/index/content/id/1106518
8.猫和狗图像分类数据Kaggle竞赛数据集813.41MB其他在本项目中,我们面临的是一个经典的计算机视觉问题——猫和狗图像分类。这是一个在机器学习和深度学习领域广泛研究的二分类任务,其目标是训练一个模型来准确地区分两类动物的图片:猫和狗。这个数据集源自Kaggle平台上的一个著名竞赛——Dogs vs Cats Redux Kernels Edition,挑战参赛者开发出能够高效识别这两类动物...https://kaledl.com/down/8528983.html