笔记 - 统计学基础

描述统计学

集中趋势测量

平均数 – 均值

  • 均值是平均数的一种度量。
  • img
  • 若存在频数处理,假定频数为 f,img
  • 在数据非常对称,且仅显示出一种趋势时,我们可以使用均值,但如果出现极端异常值,会将均值拉高或拉低,这时候数据偏斜了。
    • 向右偏斜:大部分数据在左侧,极端异常值出现在右侧,会将均值拉高。
    • 向左偏斜:大部分数据在右侧,极端异常值出现在左侧,会将均值拉低。

平均数 – 中位数

  • 中位数是另一种平均数,即处于数据集中间的数字,当数据由于异常值而发生偏斜时可以使用中位数。
  • 算法
    • 排序
    • 若n为奇数,则img
    • 若n为偶数,则img

平均数 – 众数

  • 众数也是一种平均数,既可以用于数值型数据,也可以用于类别型数据,即求出数据集中频数最高的数据。
  • 算法
    • 分类
    • 求频数

分散性和变异性测量

全距

  • 全距又称为极差,即数据集中最大最小值的差值,img,最大值称为上界,最小值称为下界
  • 全距是表述数据分布情况的最简单的方法,但是有一些局限性,无法判断数据集中是否存在异常值,所以需要人工干预减少异常值的影响

四分位

  • 四分位只使用数据集的中间部分,去掉数据集中两端的边界数据,可以较为有效的去掉异常数据。
  • 算法
    • 排序
    • 如果数据恰好可以被分为四份,即下四分位为img,上四分位为img
    • 如果数据不能被4整除,即下四分位为img,上四分位为img
  • 可以用箱线图表示四分位数
    图片 1
  • IQR即四分位距,又称四分差,img

标准差

  • 以上两种方法计算了数据的分散性,但是数据的变异性比分散性更具体,标准差是比较直接的度量数据变异性的方法,可以反应出数据的波动情况。
  • img
  • 但是如果需要比较两个不同的数据集的波动情况,由于数据集不同,所以无法直接比较两个标准差,这时候需要将数据进行归一化。
  • 标准化即将imgimgimg,z值的含义是距离均值的标准差个数,可以根据z值比较数据。

推论统计学

样本和总体的估计:预测

  • 抽样分布:指的是从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布成为抽样分布。
  • 点估计量:样本均值称为总体均值的点估计量。
  • 用样本方差估计总体方差的时候,需要进行贝塞尔校正,因为我们数据集分布近似于正态分布,所以不可避免的我们抽样所取的数据大部分都处于中间,所以样本的差异性会少于整体的差异性,在用样本方差估计总体方差的时候,需要将n替换为n-1,即img
  • 标准偏差:点估计量可以指出样本均值与总体均值的可能偏离距离,称为均值标准误差。其中总体的标准偏差img,这里的σ是总体的标准差,样本的标准偏差img,这里的σ是样本的标准差。当n越大,SD越小,这意味着,抽样中的样本容量越大,作为总体均值的估计量的样本均值就越可靠,标准偏差在数据中的体现为距离均值的距离,所以n变大后,正态分布的图会变窄,因为区间减小了,所以直方图的组距也会减小。

假设检验

  • 假设检验是用来验证一个实验样本和已知的总体之间差别的检验方法。
  • α level 用于划分置信区间和临界区域。
  • 零假设 img
    • 对于相依样本或者重复测量,零假设一般指实验前后总体均值未发生明显变化。所谓相依样本是指同一个样本集,统计进行实验前后的数据进行对比来判断实验是否有效。
    • 对于独立样本,零假设一般指两个样本的总体均值实验后无明显差别。独立样本是指不同样本集进行相同的实验。
  • 对立假设img,即零假设取反
  • 我们无法证明零假设是对的,只能用数据来拒绝零假设
  • 检验类型
    • 相依样本或重复测量、独立样本
    • 单样本、双样本、多样本
  • 检验统计值

    • z值检验:样本容量较大(>30)时,且已知总体均值和标准差时,使用z检验
    • t值检验:样本容量较小,且总体均值和标准差未知时,使用t检验
    • 这里说的总体均值和标准差已知是指,总体样本是确定的,即可以通过样本计算出总体的均值和标准差。如果已有的样本不能代表整体,也无法根据样本估计出总体,那么这种情况下应该用t检验。
  • 检验方法

    • 单尾,实验具有方向性时,通常采用单尾检验,即已知实验效果是正向还是反向,单尾又分为单尾正向检验、单尾负向检验
    • 双尾,实验不具有方向性,且不知实验效果为正向还是反向时
  • z检验

    • 计算样本均值和样本标准差

    • 根据样本均值和样本标准差,计算样本标准偏差SD

    • 确定α level,常用的α level有.05、.01、.001

    • img,常用的α level及其对应的z值如下表,

One-tailed α level One-tailed z value Two-tailed α level Two-tailed z value
.05 1.65 .05 ±1.96
.01 2.32 .01 ±2.57
.001 3.08 .001 ±3.27
  • 根据样本求出的z值与对应α level查找z-table得出的z值做比较,可得是否在临界区域内,如果在临界区域内,则可拒绝零假设,若不在临界区域内,则接受零假设
  • t检验

    • 相依样本
      • 计算实验前后统计数据的差值,并求出差值的均值
      • 自由度是指在不影响给定限制条件的情况下,可以自由变换的信息的数量,可将自由度视作估算其他信息时可有的独立信息数量,当数据集为一维数据时,img
      • 计算样本标准差,img,其中di为统计数据差值
      • 计算样本标准偏差img
      • 根据α level和df,可从t-table中查得img
      • img,其中μ为对立假设中的均值差,比较img的大小,判断是否在临界区内
      • 如果在临界区内,则拒绝零假设,如果不在临界区内,则接受零假设
      • 可根据是否在临界区内与α level,计算P值
      • img是衡量效应大小的常见标准之一,用来衡量两个均值之间的标准化均差值,img越大,指样本均值距离总体均值越远。可表示干预前后,结果相差的标准差个数,img
      • 相关度量img表示的是某个变量的变化比例,指两个变量之间的关系程度,有时成为确定系数,越大表示相关性越大,img
    • 独立样本
      • 计算两个不同数据集的样本均值
      • 独立样本的自由度为img
      • 其中独立样本的标准差img
      • 计算合并方差img,其中imgimg为两个数据集的平方和,方差的公式为平方和/样本容量,用贝塞尔校正故样本容量用img代替
      • 计算独立样本的标准偏差img,这里的imgimg都用合并方差img代替
      • imgimg仍然查表得,其中img不一定为0
      • 对比img大小后,判断接收零假设或拒绝零假设
      • 同相依样本一样,计算imgimg