2.统计分组的概念、品质数据分组与数值型数据分组
3.频数分布的概念和常见形式
4.统计表
5.统计图
【能力目标】
1.能够正确理解统计分组的意义并实现对数据的合理分组
2.能够利用Excel对分类数据、顺序数据和数值型数据进行分组
3.能够利用Excel对分类数据、顺序数据和数值型数据绘制合适的图形
【任务引入】
见证奇迹
一个什么样的群体,其规模能在15年里增长800多倍?一个什么样的产品,其数量能在15年里增长1000倍?一个什么样的应用,其覆盖范围能在15年里增长1700倍?一条什么样的路径,其容量能在15年里拓展60000倍?答案就是:网民、.cn域名、网站、国际出口带宽。
2012年7月19日,中国互联网络信息中心(CNNIC)在京发布了截至2012年6月的《第30次中国互联网络发展状况统计报告》。以下是用3种方式对调查结果的描述。
在网民方面,1997年我国上网用户数仅为62万人,现在已经达到了5.38亿人,是15年前的867倍,年复合增长率高达57%。从国际对比来看,早在4年前,即2008年6月底,我国上网用户数已超过美国,跃居世界第一位;目前,全球每100个网民中,就有24个是中国人。截至2012年6月,我国手机网民规模达到3.88亿,网民中用手机接入互联网的用户占比已达到72.2%,手机首次超过台式计算机,成为我国网民的第一大上网终端。在域名方面,1997年我国CN域名仅有4066个,2012年接近400万个,大约是15年前的1000倍。此外,为降低中国人上网难度,2010年6月25日“.中国”作为中文顶级域名,正式纳入全球互联网根域名体系,中文上网不再是梦想。网站方面,1997年中国网站仅有1500个,2012年网站数约为250万个,接近15年前的1700倍,中国网页数已达到866亿个,这些网站和网页记载着整个中国和每个网民的昨天和今天。国际出口带宽方面,截至2012年6月,我国国际出口带宽的总容量为1548811Mbit/s,与1997年25.408Mbit/s相比,是15年前的60000多倍。
表3-0-1所示为1997年和2012年我国互联网调查结果。
表3-0-1中国互联网调查结果
图3-0-1和图3-0-2分别用圆形图和条形图对网民构成进行了描述。
图3-0-12012年6月我国网民性别构成
图3-0-22012年6月我国网民上网场所的人数比例
请思考,在完成一项调查之后,怎样进行数据的整理?以什么形式展示整理的结果?
【知识链接】
收集来的原始数据必须经过加工整理才能用于分析,数据整理既是数据收集工作的继续,又是数据分析工作的前提。调查所获得的原始资料是个体的、零散和不系统的,整理可以使资料系统化、条理化,并过渡到反应总体特征的资料。数据整理一般包括数据的预处理、数据分类或分组、数据汇总及数据的图表显示等内容,如图3-1-1所示。
图3-1-1数据整理的程序
数据预处理包括对个体资料的编码、审核、排序、筛选等内容。
(1)编码
编码就是给变量值以数字代码,便于计算机识别。
(2)审核
对原始数据的审核主要是审核其完整性和准确性。
①完整性审核是指检查调查单位是否遗漏,调查项目填写是否齐全。
②准确性审核是检查填写的数据是否有错误。对二手数据除了审核其完整性和准确性之外,主要审核其适用性和时效性,确保二手数据的口径与分析的任务相一致。在对原始数据进行审核和处理时,有时需要对某些数据进行折算、差分,将数据标准化,剔除极值,用插值的方法补齐空缺的数据等,以减少数据的计量单位、极值、确失值等因素对分析结果的影响。
(3)排序
数据排序就是按一定顺序排列数据。排序有助于数据的检查和纠错,也能为分类或分组提供依据。
(4)筛选
数据筛选是将符合某种特定条件的数据筛选出来,通过筛选还可以剔除明显有错误的数据。
数据整理的关键是数据的分类或分组。
表格和图形是展示数据整理结果的主要表现形式。
统计分组是数据整理的一项重要工作,分组是否恰当直接影响到统计分析的质量。
统计分组就是根据研究的目的,选择合适的分组标志将原始数据分成不同的组别。通过分组,可以将总体分为性质相异的不同组别,同时又将性质相同的个体单位归到某一组中。统计分组的主要目的是观察数据的分布特征。分组时应坚持以下原则。
①各组的划分应能体现出总体内部各组成部分之间的性质差别。
②要坚持互斥和穷尽的原则,“互斥”是指一个个体只能归属于某一组,而不能同时归属于几个组;“穷尽”是指总体中的每一个个体都必须有组可归。
③应能比较准确地反映出总体的分布特征。
统计分组所依据的标志有两类:品质标志和数量标志。品质标志的特点是其标志值用文字表示;数量标志的特点是其标志值用数字表示。
表3-2-1我国网民按职业分组
网民按职业分组
人数(人)
学生
党政机关事业单位领导干部
党政机关事业单位一般职员
企业/公司管理者
企业、公司一般职员
专业技术人员
商业服务业职工
制造生产型企业工人
个体户/自由职业者
农村外出务工人员
农林牧渔劳动者
退休
无业/下岗/失业
其他
表3-2-2我国网民按学历分组
网民按学历分组
小学及以下
初中
高中/中专/技校
大专
大学本科及以上
数值型数据是用数字表示的,对数值型数据分组其分组过程要比分类数据和顺序数据复杂,分组时既要考虑研究对象的特点还要考虑变量的特点。具体分组形式有两种,即单项式分组和组距式分组。
单项式分组的特点是一个变量值作为一组。这种分组通常只适用于离散变量,且变量值较少的情况下。表3-2-3所示对城市居民家庭按家庭成员数进行分组,属于单项式分组。
表3-2-3城市家庭按家庭成员数分组
按家庭成员人数分组
家庭数(个)
1
2
3
4及4以上
组距式分组是将全部变量值依次划分为若干个区间,一个区间的变量值作为一组。对于连续变量或者是变量值变化范围较大的离散变量,通常采用组距式分组的形式。表3-2-4所示为对网民按年龄分组,就属于组距式分组。
表3-2-4我国网民按年龄分组
网民按年龄分组
10岁以下
10~19岁
20~29岁
30~39岁
40~49岁
50~59岁
60岁及以上
组距式分组需要依次确定组数、组距、组限等问题。
①组数。一组原始资料应分多少组,这需要根据资料的特点来决定,应以能够显示数据的分布特征和规律为目的。若组数太少,数据的分布就会过于集中;组数太多,则数据的分布就会过于分散,不便于观察数据的分布特征。一般情况下,组数不少于5组,不多于15组。可参照美国学者斯特奇斯(H.A.Sturges)的经验公式计算,即
式中,K为组数,n为数据个数。
实际应用时,要考虑数据本身的特点、数据的多少和分析的目的。
②组距。组距是每一组上限与下限之差。上限是一组的最大值,下限是一组的最小值。组距大小与组数有关,组数增多,组距必然变小;组数减少,组距变大。组距可以根据全部数据的最大值与最小值之差和组数来决定,即
组距=(最大值最小值)/组数
实际中获得一个满意的组数和组距往往要经过反复尝试。各组组距相等时,称为等距分组;各组组距不相等时,称为不等距分组。通常情况下采用等距分组。组距宜取整数,如5或10的倍数。
③组限。组限是指每一组的上限和下限。组限的确定以保证变量值“不重不漏”为原则,即同一个变量值既不能被重复统计也不能被遗漏。组限的形式有两种,即重叠组限和不重叠组限。重叠组限是指将同一个变量值分别作为顺序两组的上限和下限,如表3-2-5所示我国网民按收入分组,1000既是500~1000这一组的上限,又是1000~1500这一组的下限。在重叠组限中应坚持“上限不在内”的原则,以解决“不重”的问题,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组。
表3-2-5我国网民按收入分组
无收入
500元以下
500~1000元
1000~1500元
1500~2000元
2000~3000元
3000~5000元
5000~8000元
8000元以上
采用何种组限形式应考虑变量的类型,对于离散变量,两个整数变量之间没有小数,既可以采用不重叠组限形式也可采用重叠组限形式;对于连续变量,由于两个整数之间有小数,所以为避免遗漏通常采用重叠组限的形式。
④组中值。组中值是组距式分组中每个组的代表值,这个代表值一般取每一组中点位置的值。组中值是每一组中上限与下限中间的值。使用组中值代表一组数据的条件是,各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据分布不符合这一假定,用组中值作为一组数据的代表值就会有一定误差产生。
统计分组按分组标志的多少及其排列形式可分为简单分组、平行分组体系和复合分组体系。在现实经济生活中,这3种形式都有广泛的应用价值。
简单分组就是对被研究现象总体仅按一个标志所进行的分组。这种分组比较简单,它只能说明社会经济现象某一方面的状况。例如,表3-2-1至表3-2-5都是简单分组。
对同一总体同时选择两个或两个以上的标志分别进行简单分组,然后并列在一起就形成了平行分组体系。表3-2-6所示为我国年末人口统计分组表,它采用了平行分组的形式。
表3-2-6我国年末人口数
将总体按两个或两个以上的标志结合起来进行层叠分组,形成复合分组体系。具体来说,它是先按一个标志分组,再按另一个标志对已经分好的各个组进行再分组。复合分组体系可以更深入细致地研究总体的内部结构,反映问题全面深入。但其组数会随着分组标志的增加而成倍地增加,使各组的单位数减少,次数分布不集中,不易揭示总体的本质特征。因此,复合分组体系不宜采用过多的分组标志,也不宜对较小总体进行复合分组。如表3-2-7所示,对某校学生先按专业分组,再按性别分组,就形成了复合分组体系。
表3-2-7对某校学生进行分组
在分组的基础上,计算出各类别或数据在各组中出现的次数或频数,就形成了频数分布。频数分布又称次数分布或次数分布数列,包括两个要素:总体分组和各组的频数。频数是统计分组后各组数据出现的次数;频率是某一类别或组出现的次数占总次数的比重,通常用百分数(%)表示,各组频率之和等于1或100%。对数据进行分组的过程也就是频数分布的形成过程。
当需要观察某一数值以下或某一数值以上的频数之和时,就需要在分组的基础上计算累积频数。累积频数就是将各组别的频数逐级累加起来。累积的方法有两种,一种是向上累积,另一种是向下累积。从变量值小的一方向变量值大的一方累加频数,称为向上累积;从变量值大的一方向变量值小的一方累加频数,称为向下累积。分类数据计算累积频数是没有意义的,顺序数据和数值型数据在需要时可以计算累积频数。累积频率就是将各组的频率逐级累加起来,也有向上累积和向下累积两种方法。
在本例中,等红灯时所做的事情属于分类数据,分项列出后,再列出每一项的人数,就形成了频数分布数列,如表3-3-1所示。
表3-3-1等红灯的时候做什么
等红灯的时候做什么
拿出手机,无目的地翻看
13
6
手机上网
手机打游戏
听音乐
7
看报纸、杂志等
静静等待红灯
85
5
合计
126
本例中,满意度属于顺序数据,分组时应将顺序数据的选项顺序列出,再列出每一组的人数,形成频数分布后,还可以计算累积频数,如表3-3-2所示。
表3-3-2某公司客户满意度调查结果
本例中,工资水平属于数值型数据,且工资水平是连续变量,因此分组应采用组距式。具体步骤如下。
表3-3-3某公司45名员工月工资收入资料单位:元
表3-3-4某公司员工的月工资收入分布情况
按工资水平分组(元)
2500以下
2500~4000
17
4000~5500
12
5500~7000
7000~8500
8500~10000
10000以上
45
将频数分布表绘制成图形,横轴是总体分组,纵轴是频数或频率,可以直观地看出频数分布的形态。在日常生活和社会经济管理中,常见的频数分布形态主要有钟形分布、J形分布、U形分布等几种类型,如图3-3-1所示。
图3-3-1频数分布图
①钟形分布的特征是“两头小,中间大”,即靠近中间的变量值频数多,两边的变量值频数少,其分布宛如一口古钟。如果以中心变量值为核心,左右两侧变量值的频数呈对称分布,这种分布在统计学中被称为正态分布,如图3-3-1(a)所示;非对称的钟形分布是偏态分布,如图3-3-1(b)所示。大量社会经济现象和自然现象的频数分布都趋向于正态分布。
②J形分布有两种类型,正J形和反J形,如图3-3-1(c)所示,如经济学中供给曲线,随着价格的提高供给量以更快的速度增加,呈现为正J形;而需求曲线则表现为随着价格的提高需求量以较快的速度减少,呈现为反J形。
③U形分布的特征是两端的频数分布多,中间的频数分布少,如图3-3-1(d)所示,如人和动物的死亡率分布就近似服从U形分布,因为人口中婴幼儿和老年人的死亡率较高,而中青年的死亡率则较低。
在Excel中对数据进行分组并编制频数分布表,有4种途径,分别是“分类汇总”、“数据透视表”、“数据分析”中的“直方图”和频数函数“FREQUENCY”。
①将【例3-3-1】中的原始资料录入到Excel表格中,并按“等红灯的时候做什么”排序,如图3-3-2所示。
图3-3-2Excel表格中的原始资料
②用鼠标单击数据区域的任意单元格后,单击“数据”→“分类汇总”命令,如图3-3-3所示。在弹出的“分类汇总”对话框中,“分类字段”选择“等红灯的时候做什么”,“汇总方式”选择“计数”,“选择定汇总项”选择“等红灯的时候做什么”,其他默认,单击“确定”按钮,出现左侧带有三级目录的分类汇总结果,如图3-3-4所示。
图3-3-3分类汇总路径
③单击图3-3-4中左侧三级目录中的“2”,即得到频数分布表,将A列标题改为“等红灯的时候做什么”,将B列标题改为“人数(人)”,如图3-3-5所示。
图3-3-4分类汇总结果
图3-3-5频数分布
①将【例3-3-2】中的原始资料录入到Excel表格中,为选项确定代码,“非常满意”为5,“比较满意”为4,“一般”为3,“比较不满意”为2,“非常不满意”为1,如图3-3-6所示。
图3-3-6Excel表格中的原始资料
②用鼠标单击“数据”→“数据透视表和数据透视图”命令,进入“数据透视表和数据透视图向导——3步骤之1”,如图3-3-7所示。单击“下一步”按钮,进入“数据透视表和数据透视图向导——3步骤之2”,在“选定区域”选中数据区域,这里为A1:C301单元格区域,如图3-3-8所示。单击“下一步”按钮,进入“数据透视表和数据透视图向导——3步骤之3”,如图3-3-9所示。单击“布局”按钮,进入布局对话框,将“代码”分别拖入“行”和“数据”的位置,双击“数据”中的“代码”,将“求和”改成“计数”,如图3-3-10所示,然后单击“确定”按钮。
图3-3-7数据透视表和数据透视图向导——3步骤之1
图3-3-8数据透视表和数据透视图向导——3步骤之2
图3-3-9数据透视表和数据透视图向导——3步骤之3
图3-3-10数据透视表和数据透视图向导——布局
③单击步骤之3中的“完成”按钮,即得到满意度的频数分布表,如图3-3-11所示。
图3-3-11满意度频数分布表
①将【例3-3-3】中的原始资料录入到Excel表格中,并按“工资”排序,如图3-3-12所示。
图3-3-12Excel表格中的原始资料
如果“工具”菜单中没有“数据分析”,需要使用“加载宏”加载。步骤是:单击“工具”菜单中的“加载宏”选项,弹出“加载宏”对话框;选中“分析工具库”,再单击“确定”按钮,系统则自动加载上“数据分析”。
②确定分组的组数、组距和组限(参见例3-3-3)。组数为7,组距为1500,各组组限为:2500以下、2500~4000、4000~5500、5500~7000、7000~8500、8500~10000、10000以上。将各组的最大变量值输入Excel表格中的任意一列(注意:上限不在内),这里是C2:C9,如图3-3-12所示。
③用鼠标单击“工具”→“数据分析”命令,在“数据分析”对话框中选择“直方图”,如图3-3-13所示,单击“确定”按钮。在直方图对话框中,“输入区域”选中工资原始数据所在区域,这里是B2:B46;“接收区域”选中C3:C9;“输出区域”选择任意单元格,这里是D2,如图3-3-14所示。单击“确定”按钮,得到图3-3-15。
图3-3-13选择“直方图”
图3-3-14“直方图”对话框
④在图3-3-15中,将“接收”改为“按工资分组(元)”,将各组单变量值改为组距式;将“频率”改为“人数(人)”;将“其他”改为“合计”,并填上合计人数,得到图3-3-16。
图3-3-15Excel输出的频数分布
图3-3-16工资频数分布表
①以【例3-3-2】中的原始资料为例,将原始资料输入到Excel表格中,为选项确定代码,参见图3-3-6。
图3-3-17选择“FREQUENCY”函数
图3-3-18“函数参数”对话框
③使用“Ctrl+Shift+Enter”组合键,得到各组频数,如图3-3-19所示。
图3-3-19满意度的各组频数
1.数据整理后落在某一特定类别或组中的数据个数称为()。
A.频率B.频数C.频数分布表D.累积频数
2.总体中各组的数据个数与全部数据个数之比称为()。
A.频率B.频数C.累积频率D.累积频数
3.将各有序类别或组的频数逐级累加起来称为()。
A.频数B.频率C.累积频率D.累积频数
4.按年收入分组,其分组依次为10万元以下,10万~20万元,20万~30万元,30万元以上,则()。
A.10万元应归入第一组B.20万元应归入第二组
C.20万元应归入第三组D.30万元应归入第三组
5.频数分布数列中各组频率之和()。
A.大于100%B.小于100%C.不等于100%D.等于100%
6.组中值是()。
A.一个组的上限与下限之差B.一个组的最小值
C.一组的上限与下限之间的中点值D.一个组的最大值
7.若按年收入分为10万元以下、10万~20万元、20万~30万元、30万元以上几组。最末一组的组中值近似值为()。
A.30万元B.35万元C.40万元D.45万元
1.简述数据整理的意义和程序。
2.简述统计分组的概念和统计分组应遵循的原则。
3.数值型数据分组有哪两种形式?各有什么特点?
4.统计分组从形式上有哪几种类型?
5.什么是频数分布?频数分布有哪几种常见的分布类型?
1.30位用户在被问到对某品牌手机质量的态度时,回答有很好(5)、较好(4)、一般(3)、较差(2)、很差(1)5种态度,资料如下。要求:①指出数据的类型;②对30位用户态度的资料进行分组,形成频数分布表并计算累积频数。
2.某公司所属38个企业某月的产品销收入如下(单位:万元)。试对该公司下属企业的销售收入进行分组整理,编制频数分布表。
统计表是以纵横交叉的线条绘制出的用以表现数据资料的表格。统计表是表现统计数据最基本的形式。利用统计表来表现统计资料,可以使数据更有条理,使人一目了然,便于阅读和检查,也便于计算和分析。在数据的收集、整理、描述和分析的每一个环节都要使用统计表,但这里探讨的主要是整理和分析所用的统计表。
统计表从形式上看,一般由总标题、行标题、列标题和数字资料4部分组成,如表3-4-1所示。
表3-4-1我国2011年规模以上工业企业实现利润单位:亿元←总标题
注:数据来自我国2011年统计公报。
整理后的统计表可以分为两类,即简单汇总表和分组表。
表3-4-22011年我国部分工业产品产量
产品名称
单位
产量
布
亿米
837.0
化学纤维
万吨
3390.0
成品糖
1187.4
卷烟
亿支
24474.0
彩色电视机
万台
12231.4
家用电冰箱
8699.2
汽车
万辆
1841.6
移动通信手持机
113257.6
微型计算机设备
32036.7
②分组表的常见形式有简单分组表、复合分组表和交叉分组表。
简单分组是按一个标志分组所形成的表格,如表3-4-1所示。
复合分组表和交叉分组表都是同时按两个或两个以上的标志分组。复合分组是同时按两个或两个以上的标志重叠分组,如表3-4-3所示;交叉分组是同时在横栏和纵栏按不同的标志进行分组,如表3-4-4所示。
表3-4-3复合分组表
表3-4-4交叉分组表
由于使用者的目的和数据的特点不同,统计表在结构和形式上会表现出一些变化,但在设计上的基本要求是一致的,具体来说应注意以下几点。
①表的整体结构应合理。从形式上,统计表的横竖长度比例适当,应避免过高或过宽的表格形式;从内容上,对行标题、列标题和数字资料位置的安排要合理。
③表格线的使用。表格的上基线和下基线一般用粗线;表中的其他线用细线,列标题之间可用竖线分开,行标题之间尽量减少横线;表的左右两端不用竖线封口,采用“开口式”。
④数据的填写。表中数据一般是右对齐,有小数点的数据应统一小数点位数,并以小数点对齐;不应有数据的表格单元用“—”表示;缺少数据的表格单元用“…”表示。一张填好的统计表不应有空白单元格。
统计图是指利用几何图形(点、线、面、形)或其他图形来表现研究对象的特征、内部结构、相互关系等的一种图形,在社会经济现象分析中使用非常广泛。
“一图抵千字”是说一张精心设计的统计图能更有效地表达数据所传递的信息。计算机的普及以及图表软件的使用,可以帮助人们轻松地制作出花样繁多且质量上乘的统计图形。常用的统计图形有:条形图、圆形图、环形图、茎叶图、箱线图、直方图、线图、散点图、统计地图等。
在选择图形时,应考虑数据的类型。分类数据只表达数据之间的类别,显示分类数据可供选择的图形比较少,通常使用饼图(或称圆形图)和条形图。在对比两个或多个总体内部结构时可使用环形图。顺序数据不仅反映变量的类别,还能反映变量之间的顺序。分类数据适用的条形图、圆形图、环形图,顺序数据都适用,而且顺序数据还可以绘制累积频数(或频率)图。显示数值型数据的图形很多,适用于分类数据和顺序数据的图形也适用于数值型数据,同时,对数值型数据还可绘制出更多样的图形。
圆形图也称饼图,是指使用圆形及圆内扇形的面积来表示数值大小的图形。圆形图如图3-4-1所示,主要用于表示总体中各部分所占的比例,对于研究结构性问题十分有用。
图3-4-1某通信公司某年长途通话方式构成
条形图是指使用宽度相同的条形的高度或长短来表示数据多少的图形。绘图时,各条形如果横置,称为条形图(见图3-4-2),如果纵置,称为柱形图(见图3-4-3)。条形图还可分为简单条形图和复合条形图,图3-4-2所示为是简单条形图,图3-4-3所示为是复合条形图。另外,条形图还可以绘制成分段条形图的形式,如图3-4-4所示。
如果您有孩子,您会给自已的小孩买iPad吗?
图3-4-2条形图
图3-4-3我国网民城乡分布柱形图
图3-4-4我国城镇居民收入结构变化情况
环形图与圆形图类似,但又有区别。圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时显示多个总体内部各部分所占的比例,有利于进行对比研究,如图3-4-5所示。
图3-4-5甲乙两地对某通信公司服务的满意程度
茎叶图是由“茎”和“叶”两部分组成、显示原始数据分布状况的一种图形。通过茎叶图,可以观察数据的分布状况及数据的离散状况,如数据分布是否对称,是否有极端值存在等。茎叶图不同于其他图形的一点,就是在反映数据分布状况的同时保留了原始数据的信息,如图3-4-6所示。
图3-4-6茎叶图
从图3-4-6中可以看出,茎叶图由3列构成,“频数”列,表示所在行的数据个数;“树茎”列,以图中数据为例,表示“十位数”上的数据,茎都是“1”;“树叶”列,以图中数据为例,表示“个位数”上的数据。
制作茎叶图时,应首先把一个数字分成两部分,通常以该数据的高位数值作为树的“茎”,树的“叶”只保留该数值的最后一位数字。实际应用中,茎叶图行数的确定需要根据数据的分散状况及数据的数量来决定,以充分显示出数据的分布特征为目的。
茎叶图与直方图的形状与功能非常相似,茎叶图实际上可以近似地被看成是直方图横向放置的结果。二者的主要差异是,茎叶图既反映出了数据的分布状况,又保留了原始数据的信息,而直方图虽然能很好地显示数据的分布,但不能保留原始数据;直方图一般适用于数据量较大的情况,茎叶图在数据量较小时优势非常明显。
箱线图由一个箱子、箱子中间的竖线、外延出来的两条线及最外端可能有的表示异常值的点组成。箱子中间的竖线表示该组数据的中位数,箱子两端分别代表了上四分位数(即75%百分位数)和下四分位数(即25%的百分位数),外延线两端是最大值和最小值。箱子中间包含了总体50%的数据。上四分位数和下四分位数之间的距离称为四分位数间距,如果一个数据离箱子两端的距离超过四分位数间距的1.5倍以上,通常被认为是异常值。如图3-4-7所示,箱线图中包含了一组数据的5个点:最大值、上四分位数、中位数、下四分位数、最小值。
图3-4-7箱线图
直方图是用来显示分组后的数值型数据频数分布的图形。如图3-4-8所示,横轴表示数据分组,纵轴表示频数或频率,各矩形(直条)的面积表示各组的频数(或频率),各矩形的面积之和为总频数(或总频率)。若各组组距不等,则用各组组距除以该组频数的商为矩形的高度,该组的组距为矩形的宽度,以保证矩形的面积等于该组的频数。对于等距分组数据,可以用矩形的高度直接表示频数的多少。
图3-4-8某公司员工月加工量(件)直方图
直方图与条形图很相似,二者的主要区别是:①条形图主要用于显示分类数据和顺序数据的分布,直方图主要用于显示数值型数据的分布;②条形图各条是分开排列的,直方图各矩形通常是连续排列的;③条形图是用条形的长度表示各类别频数的多少,直方图是用矩形的面积表示各组频数的多少。
图3-4-9中国手机网民规模及其占网民比例
统计地图是借助于地图反映研究对象数量特征的一种图型。它可形象地反映、对比统计对象之间的差异性,表现各种社会经济现象的特征、规模、水平、结构、地理分布、相互依存关系及其发展趋势。
使用Excel中的“图表向导”可绘制各种统计图。在Excel界面,单击“插入”→“图表”命令,就可以跟随“图表向导”完成统计图的绘制了。
图3-4-11Excel中的频数分布资料
图3-4-12条形图
【例3-4-2】以表3-3-2所示资料为例,说明饼图的绘制。
图3-4-13Excel中的频数分布资料
图3-4-14饼图
图3-4-15Excel输出的直方图
图3-4-16直方图
1.以竖条的高低代表各类别数据出现频数多少的图形称为()。
A.条形图B.饼形图C.对比条形图D.直方图
2.适合于比较研究两个或多个总体结构性问题的图形是()。
A.饼形图B.条形图C.环形图D.累积频数图
3.顺序数据适合绘制的图形有()。
A.条形图B.直方图C.箱线图D.线图
5.由一组数据的最大值、最小值、中位数和两个四分位数绘制而成的,反映一组数据分布的图形称为()。
A.条形图B.茎叶图C.直方图D.箱线图
6.考察两个变量之间是否存在某种关系时,适合采用的图形是()。
A.条形图B.散点图C.箱线图D.环形图
7.与直方图相比,茎叶图()。
A.没有保留原始数据的信息B.保留了原始数据的信息
C.适合于描述小批量数据的分布D.更适合描述分类数据
8.对已分组的数据通常使用()来显示其分布。
A.茎叶图B.直方图C.线图D.箱线图
9.统计表从形式上看,一般包括()。
A.总标题B.行标题C.列标题
D.指标数值E.调查单位
1.适合分类数据和顺序数据的图示方法有哪些?
2.描述数值型数据常用的图形有哪些?
3.统计表主要由哪几部分组成?编制统计表需要注意哪些问题?
1.据调查,某地消费者主要使用的银行机构集中在5家,依次是:中国工商银行(38.9%)、中国建设银行(19.4%)、中国农业银行(13.3%)、招商银行(10.8%)、中国银行(8.2%),其余的只占9.4%。指出上述数据的类型,并绘制饼图显示该数据。
2.某公司三月份31天的销售额(单位:万元)资料如下,指出数据的类型,根据数据绘制茎叶图、箱线图和直方图。
3.某公司45名员工的教育程度资料如下,绘制一个饼图反映该公司员工的教育程度构成。
【任务解析】
该任务引自中国互联网络信息中心(CNNIC)2012年7月19日在京发布的《第30次中国互联网络发展状况统计报告》。中国互联网络信息中心自1997年开始,对我国网民规模、结构特征、接入方式和网络应用情况进行了连续的调查研究,并于每年1月和7月定期发布《中国互联网络发展状况统计报告》。
那么,在完成一项调查之后,应怎样进行数据的整理?以什么形式展示整理的结果呢?本任务解答的就是这个问题。数据整理的目标是将调查所获得的大量零散的个体资料转化成内部结构和分布比较清晰的总体资料,数据整理的基本方法就是统计分组,即将个体资料归到不同的组或类别,分组后形成的频数分布可以让研究者清晰地看出总体内部的结构或分布特征。一项调查会涉及很多问题,而一次只能整理一个问题,每一个问题的调查数据都能归属于某一个数据类别,即分类数据、顺序数据或数值型数据,如网民的性别是一个分类数据,网民的文化程度是一个顺序数据,网民的收入水平是一个数值数据。不同类别数据的整理方法又有所不同,本任务分别介绍了分类数据、顺序数据和数值型数据的整理过程。《中国互联网络发展状况统计报告》就是由一个个问题的整理结果组成的。另外,图、表是展示统计整理结果必不可少的工具,是简明、高效地表现统计数据的重要方式。本任务介绍了统计表的基本结构和类型、统计图的常见形式及适用条件。《中国互联网络发展状况统计报告》图文并茂,充分运用了图表的表现形式。
本文仅用于学习和交流目的,不代表人邮教育社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。
本书根据高职院校以培养高技能人才为主的教学目标,按照工作过程,以项目导向、任务驱动来设计教材体例...
主要内容包括:会计电算化理论认知、账套和用户管理、公共基础信息设置、总账系统核算与管理、应收款系统核算与管理、...
全书分十个项目,包括:了解企业、会计工作组织与会计职业;描述会计、会计目标和会计方法;划分会计要素,建立会计等...
本书是“十二”职业教育国家规划教材。全书深入贯彻教育部《关于深化职业教育教学改革全面提高人才培养质量的若干意见...
本书是全国首批28所高职示范性院校建设项目成果,全书深入贯彻教育部2006年第16号《教育部关于全面提高高...
本书依据教育部《关于全面提高高等职业教育教学质量的若干意见》精神要求,针对高职培养高端技能型人才的目标,根...
本书以“基于工作过程”和“项目化”的职教理念为基础,针对中小企业电算会计岗位职业需要而开发,打破以知识传授...
2007-2024人邮教育社区·人民邮电出版社有限公司·Allrightsreserved