统计学(贾俊平)学习笔记(一) - iam77
争取每天一更!学习使我进步!学习使我快乐!因为统计学已经学完两年了 有些忘记了 而且学的是日语教材 和中文对不上号 所以要从新总结一下 !
9.16 fry
第一章 导论
概念
定义1.1 统计学(statistics)收集,分析,表述和解释数据的科学。
定义1.2 描述统计(descriptive statistics)是研究数据收集,整理和描述的统计学分支。
定义1.3 推断统计(inferential satatistics)是研究如何利用样本数据来推断总体特征的统计学分支。
定义1.4 只能归于某一类别的非数字型数据,称为分类数据(catagorical data)
定义1.5 只能归于某一有序类别的非数字型数据,顺序数据(rank data)
定义1.6 按数字尺度测量的观测值,数值型数据(metric data)
定义1.7 通过调查或观测而收集到的数据,成为观测数据(observational data)
定义1.8在实验中控制实验对象而收集的数据,成为实验数据(experimental data)
定义1.9 在相同或相近的时间点上收集的数据,称为截面数据(cross-sectional data)
定义1.10 在不同时间上收集到的数据,称为时间序列数据(time-series data)
1.3.1
定义1.11 包含所有研究的全部个体(数据)的集合,称为总体(population)
定义1.12 从总体中抽取的一部分元素的集合,样本(sample)
定义1.13构成样本的元素的数目,样本容量(sample size)
1.3.2
定义1.14 用来描述总体特征的概括性数字度量,称为参数(parameter)
定义1.15 用来描述样本特征的概括性数字度量,称为统计量(statistic)
1.3.3 变量
定义1.16 说明现象某种特征的概念,称为变量(variable)
定义1.17 说明事物类别的一个名称,分类变量(categorical variable)性别,
定义1.18 说明事物有序类别的一个名称,顺序变量(rank variable) 受教育程度,一等品,二等品
定义1.19说明事物数字特征的一个名称,数值型变量(metric variable)
定义1.20 只能取可数(三声)值的变量,离散性变量(discrete variable)
定义1.21 可以在一个或多个区间中取任何值的变量,成为连续型变量(continuous variable)
第2章 数据收集
2.1.2数据的直接来源 调查观察和实验
统计调查方式
定义2.1 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,称为抽样调查(sampling survey)
定义2.2为特定目的而专门组织的全面调查,称为普查(census)
定义2.3 按照国家有关法规的规定,自上而下统一布置,自下而上地逐级提供基本统计数据的调查方式,统计报表(statistical report forms)
2 数据的收集方法
问卷逻辑之类的 略
第三章 数据整理与展示
3.1 数据的预处理
3.1.1数据审核
原始数据(raw data)完整性,准确性审核
数据筛选(data filter)
3.1.3 数据排序
递增 递减
3.2 分类和顺序数据的整理和展示
3.2.1 分类数据的整理与图示
定义3.1 落在某一特定类别(或组)中的数据个数,称为频数(frequency)
定义3.2把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布(frequency distribution)可用excel统计
分类数据的图示
条形图(bar chart)分类数据分布
饼图(pie chart)各部分所占比例
3.2.2顺序数据的整理与图示
累积频数和累积频率
定义3.6 将各有序类别或组的频数逐级累加起来得到的频数,称为累积频数(cumulative frequencies)=SUM($A$2:A2)
定义3.7将各有序类别或组的百分比逐级累加起来,称为累积频率或累积百分比(cumulative percentages)求百分比时候 算出合计绝对引用 =A2/$A$7 ,累计的话如上
2.顺序数据的图示
(1)累积频数分布图。(2)环形图(annular chart)每个环可以分开统计比例
3.3数值型数据的整理与显示
定义3.8 根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,成为数据分组
定义3.9 分组后的数据称为 分组数据(grouped data)
定义3.10 把每一个变量值作为一组,称为单变量值分组。
定义3.11将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组。
定义3.12在组距分组中,一个组的最小值称为下限(low limit);一个组的最大值称为上限(uppper limit)。
sturges提出的经验公式
可以按斯特奇斯(Sturges)提出的经验公式来确定组数K:
来源:http://wiki.mbalib.com/wiki/组数
-
函数语法:FREQUENCY(data_array,bins_array)。
-
函数语法可以通过Excel 2007的帮助文件查找详细讲解。
-
使用此频数函数时,第一步建立数据表格中先将样本数据排成一列。
-
第五步设置完成后不要点击确定,由于频数分布是数组操作,所以不能单击“确定”按钮,要按“Ctrl+Shift+Enter” 组合键。
-
本例是按800~900、900~1000、1000~1100、1100~1200、1200~1300、1300~1400、1400~1500、1500~1600、1600以上,分为9个组进行频数分析。这就是第五步中【Bins_array】设置的区间。
来自百度经验
定义3.14 在组距分组时,如果各组的组距相等,称为等距分组。
定义3.15 在组距分组时,如果各组的组距不相等,称为不等距分组。
定义3.16每一组的下限和上限之间的中点值,称为组中值(class midpiont)(下限值+上限值)/2
3.3.2数值型数据的展示
分组数据:直方图
定义3.17 用矩形的宽度和高度(即面积)来表示频率分布的图形,称为直方图。(histogram)
2.未分组数据
(1)茎叶图
定义3.18 由茎,叶两部分组成的,反应原始数据分布的图形,(stem-and-leaf display)
可以看出数据分布和离散状况 是否对称 是否集中 离群点
茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。
另外今天听了一节可汗学院的统计课 学了箱形图 看异常值
3 时间序列数据:线图(line plot)
时间一般在横轴
4.多变量数据:雷达图(radar chart)
3.4 统计表
第4章 数据的概括性度量
4.1 数据的集中趋势(central tendency)和度量
4.1.1分类数据:众数
定义4.1.1一组数据中出现次数最多的变量值,称为众数(mode),用Mo表示。看集中趋势 数据量越大才有意义
4.1.2顺序数据:中位数和分位数
定义4.2 一组数据排序后处于中间位置上的变量值,称为中位数(median),用Me来表示。
2 分位数
四分位数(quartile),十分位数(decile)和百分位数(percentile)等
定义4.3 一组数据排序后处于25%和75%位置上的值,成为四分位数,四分位点。
4.1.3数值型数据:平均数
定义4.4一组数据相加后除以数据的个数所得的结果。mean
算数平均数
加权平均数(weighted mean)
表示权数。
即可。
定义4.5 各个变量值倒数的平均倒数,称为调和平均数(harmomic mean)
定义4.6 n个变量值乘积的n次方根,成为几何平均数(geometric mean)
设总体方差为σ2,对于未经分组整理的原始数据,方差的计算公式为:
对于分组数据,方差的计算公式为:
方差的平方根即为标准差,其相应的计算公式为:
未分组数据:
分组数据:
变异系数的计算公式为:
变异系数越小,变异(偏离)程度越小,风险也就越小;反之,变异系数越大,变异(偏离)程度越大,风险也就越大。
例:已知某良种猪场A种成年母猪平均体重为190kg,标准差为10.5kg,而B种成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。
此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。
由于,A种成年母猪体重的变异系数:
B种成年母猪体重的变异系数:
所以,A种成年母猪体重的变异程度大于B种成年母猪。
注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。
4.3 偏态与峰态的度量
4.3.1偏态及其测度
定义4.15 数据分布的不对称性,称为偏态(shewness)
定义4.16 对数据分布不对称性的度量值,称为偏态系数。记作SK。
偏度是利用3阶矩定义的,偏度的计算公式为:
式中,Sk——偏度;
μ3——3阶中心矩;
σ——标准差。
在一般情形下,当统计数据为右偏分布时,Sk > 0,且Sk值越大,右偏程度越高;当统计数据为左偏分布时,Sk < 0,且Sk值越小,左偏程度越高。当统计数据为对称分布时,显然有Sk = 0。
峰度的测定,一般是采用统计动差方法,即以四阶中心动差V4为测定依据,将V4除以其标准差的四次方σ4,以消除单位量纲的影响,便于不同次数分布曲线的峰度比较,从而得到以无名数表示的相对数,即为峰度的测定值(β)。计算公式为:
由统计计算分析可知,当次数分布为正态分布曲线时,β = 3,以此为标准就可比较分析各种次数分布曲线的峰度。当β > 3时,表示分布曲线呈尖顶峰度,为尖顶曲线,说明变量值的次数较为密集地分布在众数的周围,β值越大于3,分布曲线的顶端越尖峭。当β < 3时,表示分布曲线呈平顶峰度,为平顶曲线,说明变量值的次数分布比较均匀地分散在众数的两侧,β值越小于3,则分布曲线的顶峰就越平缓。一般当β值接近于1.8时,分布曲线呈水平矩形分布形态,说明各组变量值的次数相同。当β值小于1.8时,次数分布曲线趋向“U”型分布。实际统计分析中,通常将偏度和峰度结合起来运用,以判断变量分布是否接近于正态分布。
前4章完