统计学(贾俊平)学习笔记(一)

争取每天一更!学习使我进步!学习使我快乐!因为统计学已经学完两年了 有些忘记了 而且学的是日语教材 和中文对不上号 所以要从新总结一下 !

9.16 fry

第一章 导论

概念

定义1.1 统计学(statistics)收集,分析,表述和解释数据的科学。

定义1.2 描述统计(descriptive statistics)是研究数据收集,整理和描述的统计学分支。

定义1.3 推断统计(inferential satatistics)是研究如何利用样本数据来推断总体特征的统计学分支。

定义1.4 只能归于某一类别的非数字型数据,称为分类数据(catagorical data)

定义1.5 只能归于某一有序类别的非数字型数据,顺序数据(rank data)

定义1.6 按数字尺度测量的观测值,数值型数据(metric data)

定义1.7 通过调查或观测而收集到的数据,成为观测数据(observational data)

定义1.8在实验中控制实验对象而收集的数据,成为实验数据(experimental data)

定义1.9 在相同或相近的时间点上收集的数据,称为截面数据(cross-sectional data)

定义1.10 在不同时间上收集到的数据,称为时间序列数据(time-series data)

1.3.1

定义1.11 包含所有研究的全部个体(数据)的集合,称为总体(population)

定义1.12 从总体中抽取的一部分元素的集合,样本(sample)

定义1.13构成样本的元素的数目,样本容量(sample size)

1.3.2

定义1.14 用来描述总体特征的概括性数字度量,称为参数(parameter)

定义1.15 用来描述样本特征的概括性数字度量,称为统计量(statistic)

1.3.3 变量

定义1.16 说明现象某种特征的概念,称为变量(variable)

定义1.17 说明事物类别的一个名称,分类变量(categorical variable)性别,

定义1.18 说明事物有序类别的一个名称,顺序变量(rank variable) 受教育程度,一等品,二等品

定义1.19说明事物数字特征的一个名称,数值型变量(metric variable)

定义1.20 只能取可数(三声)值的变量,离散性变量(discrete variable)

定义1.21 可以在一个或多个区间中取任何值的变量,成为连续型变量(continuous variable)

 

第2章 数据收集

2.1.2数据的直接来源 调查观察和实验

统计调查方式

定义2.1 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,称为抽样调查(sampling survey)

定义2.2为特定目的而专门组织的全面调查,称为普查(census)

定义2.3 按照国家有关法规的规定,自上而下统一布置,自下而上地逐级提供基本统计数据的调查方式,统计报表(statistical report forms)

2 数据的收集方法

问卷逻辑之类的 略

第三章 数据整理与展示

3.1 数据的预处理

3.1.1数据审核

原始数据(raw data)完整性,准确性审核

数据筛选(data filter)

3.1.3 数据排序

递增 递减

3.2 分类和顺序数据的整理和展示

3.2.1 分类数据的整理与图示

定义3.1 落在某一特定类别(或组)中的数据个数,称为频数(frequency)

定义3.2把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布(frequency distribution)可用excel统计

分类数据的图示

条形图(bar chart)分类数据分布

饼图(pie chart)各部分所占比例

3.2.2顺序数据的整理与图示

累积频数和累积频率

定义3.6 将各有序类别或组的频数逐级累加起来得到的频数,称为累积频数(cumulative frequencies)=SUM($A$2:A2)

定义3.7将各有序类别或组的百分比逐级累加起来,称为累积频率或累积百分比(cumulative percentages)求百分比时候 算出合计绝对引用 =A2/$A$7 ,累计的话如上

2.顺序数据的图示

(1)累积频数分布图。(2)环形图(annular chart)每个环可以分开统计比例

3.3数值型数据的整理与显示

定义3.8 根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,成为数据分组

定义3.9 分组后的数据称为 分组数据(grouped data)

定义3.10 把每一个变量值作为一组,称为单变量值分组。

定义3.11将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组。

定义3.12在组距分组中,一个组的最小值称为下限(low limit);一个组的最大值称为上限(uppper limit)。

第1步:确定组数。一组数据分多少组合适呢?一般与数据本身的特点及数据的多少有关。由于分组的目的之一是观察数据分布的特征,因此组数的多少应适中。如果组数太少,数据的分布就会过于集中,组数太多,数据分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数应不少于5组且不多于15组。实际应用时,可根据数据的多少和特点及分析要求来确定组数。
第2步:确定各组的组距。组距是一个组的上限与下限的差。(定义3.13 class width) 
组距可根据全部数据的最大值和最小值及所分的组数来确定,及组距=(最大值-最小值)/组数。
第3步:根据分组整理成频数分布表。[2] 要先找出每个个案对应的组别 再用vlookup 匹配 在做一个数据透视表

 sturges提出的经验公式

可以按斯特奇斯Sturges)提出的经验公式来确定组数K:

  K=1+\frac{lg n}{lg 2}

来源:http://wiki.mbalib.com/wiki/组数

  • 函数语法:FREQUENCY(data_array,bins_array)。
  • 函数语法可以通过Excel 2007的帮助文件查找详细讲解。
  • 使用此频数函数时,第一步建立数据表格中先将样本数据排成一列。
  • 第五步设置完成后不要点击确定,由于频数分布是数组操作,所以不能单击“确定”按钮,要按“Ctrl+Shift+Enter” 组合键。
  • 本例是按800~900、900~1000、1000~1100、1100~1200、1200~1300、1300~1400、1400~1500、1500~1600、1600以上,分为9个组进行频数分析。这就是第五步中【Bins_array】设置的区间。

来自百度经验

 

定义3.14 在组距分组时,如果各组的组距相等,称为等距分组。

定义3.15 在组距分组时,如果各组的组距不相等,称为不等距分组。

定义3.16每一组的下限和上限之间的中点值,称为组中值(class midpiont)(下限值+上限值)/2

3.3.2数值型数据的展示

分组数据:直方图

定义3.17 用矩形的宽度和高度(即面积)来表示频率分布的图形,称为直方图。(histogram)

2.未分组数据

(1)茎叶图

定义3.18 由茎,叶两部分组成的,反应原始数据分布的图形,(stem-and-leaf display)

可以看出数据分布和离散状况 是否对称 是否集中 离群点

茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。

下面有一堆数据共30个
89 79 57 46 1 24 71 5 6 9 10 15 16 19 22 31 40 41 52 55 60 61 65 69 70 75 85 91 92 94
画出的茎叶图如下:
茎|叶
0 |1 5 6 9
1 |0 5 6 9
2 | 2 4
3 | 1
4 | 0 1 6
5 | 2 5 7
6 | 0 1 5 9
7 | 0159
8 | 5 9
9 | 1 2 4
比如第二行的数字如下:
1 | 0 5 6 9
则代表数据集中有10,15,16,19四个数字
可以这样理解茎+叶=实际的数值,如 1|0569 中茎值为1,叶值为 0,5,6,9 共四个叶值.
其真实数值计算方式:茎值连接叶值 .茎值:1叶值0连接起来就是10.
(2)箱线图
定义3.19 由一组数据的最大值,最小值,中位数和两个四分位数5个特征值绘制而成的,反应原始数据分布的图形,(box plot)
还有一个u型分布
就是没有两边的尾巴
 
 
 

 

 

 

另外今天听了一节可汗学院的统计课 学了箱形图 看异常值

3 时间序列数据:线图(line plot)

时间一般在横轴

4.多变量数据:雷达图(radar chart)

3.4 统计表

第4章 数据的概括性度量

4.1 数据的集中趋势(central tendency)和度量

4.1.1分类数据:众数

定义4.1.1一组数据中出现次数最多的变量值,称为众数(mode),用Mo表示。看集中趋势 数据量越大才有意义

4.1.2顺序数据:中位数和分位数

定义4.2 一组数据排序后处于中间位置上的变量值,称为中位数(median),用Me来表示。

2 分位数

四分位数(quartile),十分位数(decile)和百分位数(percentile)等

定义4.3 一组数据排序后处于25%和75%位置上的值,成为四分位数,四分位点。

首先确定四分位数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75

4.1.3数值型数据:平均数

定义4.4一组数据相加后除以数据的个数所得的结果。mean

算数平均数

加权平均数(weighted mean)

此外,加权平均值也可用下图表示,其中

  

表示权数。

理解方法:将原式看作

  

即可。

 

定义4.5 各个变量值倒数的平均倒数,称为调和平均数(harmomic mean)

定义4.6 n个变量值乘积的n次方根,成为几何平均数(geometric mean)

 

例:假定某地储蓄年利率(按复利计算):5%持续1.5年,3%持续2.5年,2.2%持续1年。请问此5年内该地平均储蓄年利率。
解:由

得到该地平均储蓄年利率:
计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是:[3] 
1、对比率、指数等进行平均;
2、计算平均发展速度
其中:样本数据非负,主要用于对数正态分布
3、复利下的平均年利率;
4、连续作业的车间求产品的平均合格率。
 
4.1.4众数,中位数,平均数的比较
左偏:数据存在极小值,必然拉动平均数向极小值靠近,众,中不受影响。x平<中位数《众
右偏 众《中《平
 4.2 离散程度的度量
定义4.7 非众数组的频数占总频数的比率,称为异众比率(variation ratio) Vr表示。
衡量众数对数据的代表程度。
 
4.2.2顺序数据:四分位差 计算数据离散程度
定义4.8 上四分位与下四分位数之差,称为四分位差(quaritle deviation),也称为内距或四分间距(inter-quartile range)用Qd表示。
四分位差计算公式  Qd=Qu-QL
 4.2.3 数值型数据:方差和标准差
极差
定义4.9 一组数据的最大值与最小值之差称为极差(range) R
R=max-min
 
平均差
定义4.10 各个变量值与其平均数利差的绝对值的平均数,称为平均差(mean deviation)Md
 
 
 
 
 
定义4.11 各个变量值与其平均数离差的平均数,成为方差。

设总体方差为σ2,对于未经分组整理的原始数据,方差的计算公式为:

  \sigma^2=\frac{\sum_{i=1}^N(X_i-\bar{X})^2}{N}

  对于分组数据,方差的计算公式为:

  \sigma^2=\frac{\sum_{i=1}^K(X_i-\bar{X})^2 f_i}{\sum_{i=1}^K f_i}

  方差的平方根即为标准差,其相应的计算公式为:

  未分组数据:\sigma=\sqrt{\frac{\sum_{i=1}^N(X_i-\bar{X})^2}{N}}

  分组数据:\sigma=\sqrt{\frac{\sum_{i=1}^K(X_i-\bar{X})^2 f_i}{\sum_{i=1}^K f_i}}

n个样本的自由度应该是n,但是把平均值去掉之后,这个n个样本组成的向量就满足了一个线性条件,也就是只能在一个维度是n-1的空间里取值,所以自由度变小了。degree of freedom
 
 
 
标准计算公式:
假设有一组数值X₁,X₂,X₃,……Xn(皆为实数),其平均值算术平均值)为μ,公式如图1。
标准差也被称为标准偏差,或者实验标准差,公式为

  

简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
 
4.2.4 标准分数
定义4.13 变量值与其平均数的离差除以标准差后的值 ,称为标准分数(standard score) z分数
 
标准分数=(观察分数 – 平均分)/标准差
标准分数 平均数为0 标准差为1
 
切比雪夫不等式
任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2,其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内[2]  。
4.2.5 相对离散程度:离散系数
一组数据的标准差预其相应的平均数之比,称为离散系数(coefficient of variation) 变异系数
用于比较不用样本的离散程度,离散系数大 小代表离散程度大小。

变异系数的计算公式为:

  C.V=\frac{S}{\bar{x}}\times 100%

  变异系数越小,变异(偏离)程度越小,风险也就越小;反之,变异系数越大,变异(偏离)程度越大,风险也就越大。

  例:已知某良种猪场A种成年母猪平均体重为190kg,标准差为10.5kg,而B种成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。

  此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。

  由于,A种成年母猪体重的变异系数:C.V=\frac{10.5}{190}\times 100%=5.53%

  B种成年母猪体重的变异系数: C.V=\frac{8.5}{196}\times 100%=4.34%

  所以,A种成年母猪体重的变异程度大于B种成年母猪。

  注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。

4.3 偏态与峰态的度量

4.3.1偏态及其测度

定义4.15 数据分布的不对称性,称为偏态(shewness)

定义4.16 对数据分布不对称性的度量值,称为偏态系数。记作SK。

 
 

偏度是利用3阶矩定义的,偏度的计算公式为:

  S_k=\frac{\mu_3}{\mu_2^{\frac{3}{2}}}=\frac{\mu_3}{\sigma^3}

  式中,Sk——偏度;

  μ3——3阶中心矩;

  σ——标准差

  在一般情形下,当统计数据为右偏分布时,Sk > 0,且Sk值越大,右偏程度越高;当统计数据为左偏分布时,Sk < 0,且Sk值越小,左偏程度越高。当统计数据为对称分布时,显然有Sk = 0。

 4.3.2 峰态及其测度
 
定义4.17 数据分布的平峰或尖峰程度,称为峰态,(kurtosis)
定义4.18 对数据分布的峰态的度量值,峰态系数。K
 

峰度的测定,一般是采用统计动差方法,即以四阶中心动差V4为测定依据,将V4除以其标准差的四次方σ4,以消除单位量纲的影响,便于不同次数分布曲线的峰度比较,从而得到以无名数表示的相对数,即为峰度的测定值(β)。计算公式为:

  \beta=\frac{V_4}{\sigma^4}=\frac{\frac{\sum(X_\bar{X})^4f}{\sum f}}{\sigma^4}

    由统计计算分析可知,当次数分布为正态分布曲线时,β = 3,以此为标准就可比较分析各种次数分布曲线的峰度。当β > 3时,表示分布曲线呈尖顶峰度,为尖顶曲线,说明变量值的次数较为密集地分布在众数的周围,β值越大于3,分布曲线的顶端越尖峭。当β < 3时,表示分布曲线呈平顶峰度,为平顶曲线,说明变量值的次数分布比较均匀地分散在众数的两侧,β值越小于3,则分布曲线的顶峰就越平缓。一般当β值接近于1.8时,分布曲线呈水平矩形分布形态,说明各组变量值的次数相同。当β值小于1.8时,次数分布曲线趋向“U”型分布。实际统计分析中,通常将偏度和峰度结合起来运用,以判断变量分布是否接近于正态分布

前4章完


版权声明:本文为iam77原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/iam77/p/7527556.html