Biostatistics

Biostatistics

Kirschy

但很多情况下,我们将自己对事实的判断权无条件地让渡给了一些权威的统计学方法,一味地盲从一些统计学方法中的金标准(例如p值),在这样一种实践态度与行为下学习统计学,只会和统计学越走越远。统计学希望自己能够给你提供一个思考方式,而你却放弃思考,要求统计学直接给你一个答案,这就好像你对你的伴侣百般爱护,而你的伴侣只是馋你的身子,终究是不会有一个好的收场的……

1-概论

用样本统计数对总体参数进行推断——平均数和频率的统计推断、非参数检验、列联分析、方差分析、回归与相关分析、协方差分析。

数据分布特征——集中性、变异程度/离中趋势/离散程度、分布形态。
集中性:数据平均数(算术平均数 + 几何平均数)、位置代表值(众数 + 中位数)。
变异程度:异众比率、极差、平均离差、四分位差、方差与标准差、变异系数。
分布形态:偏度系数、峰度系数。

参数/参量(parameter)是对一个总体特征的度量;统计数(statistic)是根据样本数据计算所得的数值。

分类变量(categorical variable)/定性变量(qualitative variable)/名义变量(nominative variable):变量值定性,表示某个体属于集中互不相容的类型中的一种;另外是定量变量(quantitative variable)/数值变量(numerical variable)-连续与离散。
常数(constant)通常由变量计算而来,只是在一定的过程中保持不变(平均数、标准差、变异系数)。

错误=过失性误差。

准确性(accuracy)精确性(precision):前者是观测值与真值的差异,后者体现为观测值之间的方差。

2-数据的描述统计

抽样方法:随机抽样、顺序抽样/系统抽样/机械抽样/等距抽样、典型抽样/主观抽样。

  1. 随机抽样:简单随机抽样、分层随机抽样、整体抽样/整群抽样、双重抽样。
    简单随机抽样:适用于个体间差异较小、样本容量较小情况,不适用于具有某种趋向或差异明显或点片式差异的总体。
    整体抽样:将整体分为若干群,以群为单位进行随机抽样,对抽到群中的样本做全面调查。适用于不均匀分布的研究对象。抽样误差比简单随机抽样大。
    双重抽样:涉及两类变量,是通过观测简单性状去推测复杂形状(难以直接测量的)。
  2. 顺序抽样:总体最好不要有周期性变异或单调变化趋势。抽样所得样本并非相互独立,只能定性估计抽样误差。无法计算抽样误差、无法估计总体平均数的置信区间。
  3. 典型抽样:常用于大规模社会经济调查(大总体)。由于主观性而无法估计抽样误差。

处理效应:简单效应、主效应/平均效应、交互作用效应。

  1. 简单效应:同一因素两个水平度量指标的差。
  2. 主效应:同一因素内各简单效应的平均数。
  3. 互作效应:两因素简单效应间的平均差异。n因素互作对应(n-1)级互作。

试验设计的基本原则:重复、随机()、局部控制。重复与随机提供无偏且尽可能小的试验误差估计背景、重复与局部控制是降低试验误差。控制所有非处理因素保持不变具有难度,但可以根据这些因素的变化趋势将大的实验环境分解为若干个相对一致的小环境——“区组block/窝组fossa/重复”,在设置分组的时候就控制组内均一(相同遗传基础的同窝动物分为一组)。而小环境间变异可以通过方差分析剔除,以尽可能降低试验误差。当然也有combine一下变成随机区组试验。

单盲:受试者未知分组;双盲:受试者与测试者均未知分组。

数据整理的相关指标:

  1. Frequency/Absolute frequency - 频数/次数:即某一分组的数据个数。
  2. Relative frequency - 频率/比例:样本某一分组频数占样本全部数据的比重。
  3. Radio - 比率/频率比:任意两个分组之间的比值。

计量数据整理——全距/极差、组数、组距、组中值。

数据特征的定量描述

集中性描述:

  • 众数(mode,
  • 中位数(median,:index()=
  • 四分位数(quartile,:index()=,index()=
  • 平均数(mean,:加权平均写法
  • 离均差:样本中各观测值与其平均数之差,
  • 离均差平方和(mean deviation sum of square),其中a是任意实数。
  • 几何平均数(geometric mean,,适用于变量是对数正态分布或经对数转换后呈正态分布的数据,计算比率平均、反映连年的平均增长率。
  • 调和平均数/倒数平均数(harmonic mean,,如果是分组的频率写法则是。主要反映年度或阶段的增长率/生长率或生长量/规模,容易受极端值影响、偏小极端值明显影响更大。
加权调和平均数是加权算术平均数的“另一种形式”


,则有:

调和平均数是算术平均数的变形使用,差别在二者的变量和权数。算术平均数权数是,调和平均数权数是

对于同一批数据一般有。而众数、中位数与平均数作为描述数据集中性具有差异——左偏分布()、右偏分布(),注意命名上与峰的偏向完全相反!。

变异程度描述:

  • 异众比率(variation radio,:分组数据中非众数组的频数占总频数的比率。
  • 极差(range)
  • 平均离差(mean deviation,
  • 四分位差/四分位数间距(。在箱型图中使用——五虎上将之一。
  • 方差/均方(variance/mean square,:对于总体是,对于样本是。样本中的是自由度()——一组数据中可以自由取值的个数。取是因为当平均数确定后,个数据中只有一个在其他确定后随之而确定、不能自由取值。
  • 标准差(standard deviation,:总体标准差,样本标准差。正态分布情况下,。标准差主要用于衡量单样本数据变量分布的比分散变异程度。
  • 变异系数/离散系数(coefficient of variability,。变异系数用于衡量二到多个平均数相差悬殊甚至单位不同的样本变量数据的相对变异数(本身是无量纲的)。

分布形态特征描述

描述变量数据分布的“形状”——对称性、偏斜程度、扁平程度。

  • 系数偏度(coefficient of skewness,:利用众数、中位数和平均数之间的关系大致判断数据分布偏斜的方向,定量计算出系数更加明确——,其中代表组中值,分析一下实际上是离均差三次方的平均数除以标准差的三次方。代表对称分布,右偏、左偏。若从定量转到定性描述,大于1或小于-1都算是高度偏态分布、在此之内的0.5~1和-1~-0.5都是中度偏态分布。
  • 峰度(coefficient of kurtosis,:这里所谓的“峰”和“平”实际上是与标准的正态分布比较而言的,体现数据在平均数附近的集中程度。。标准正态分布是尖峰分布,反之为扁平。

3-概率与概率分布

统计是从样本中获取统计数,统计推断是从统计数来推断总体的参数,过程中依赖概率。

大数定律:实际上是用来阐述大量随机现象平均结果稳定性的一系列定律的总称,也是在试验次数充分大状态下将事件A发生的频率()视作概率()的原因。包含以下一些:

  • 伯努利定理(Bernoulli),即如果次独立试验中事件A发生了次,而p是事件A在每次实验中出现的概率。

  • 欣钦定理(Khinchine):说明算术平均数与总体平均数在充分大试验条件下的同一性。

离散型概率分布

二项分布

概率分布函数——

概率累计函数:

期望与方差: 。对于样本均值的期望与方差则分别除n即可。

泊松分布

当事件发生概率小、样本容量/试验次数大的时候(p小n大,一般以n>20p<0.05作为近似标准),二项分布转变成泊松分布。

哎呦确实不是很明确,这里放一些书上举的例子罢

显微镜视野中染色体有便宜的细胞计数、突变引发的遗传病患者数量分布、田间出现变异植株的计数、作物种子田内杂草的计数、单位容积的饮用水中细菌的数目、家畜产怪胎数、样方内少见植物的个体数等等。

其实就是适合于小概率事件推断。

概率分布函数:,其中,这里的含义就是“事件率”,是一个时间段内的事件发生频数,又称“单位时间事件率”。

期望与方差:

从二项分布到泊松分布

多少次了,现在算是更懂了。

核心就是,二项分布的本质是0/1分布的叠加,而在一个零一分布的块内,事件的发生概率只能是0、1之间。描述的是总事件数,当试验次数不够大的时候就会出现单次试验多次发生某一事件的现象,导致二项分布失效。

而这种失效的情况就主要在出现在预测方面。

总是要举例……

最近7天我乎的阅读总量是,而收藏总量是,那么就有阅读我文章后的收藏概率。如果不想太多,而只是考虑我们的事件粗粒度是以周来计算的,那么如果每周都有数量相当的人来读我的文章(),就能非常愉快地得到我下周的收藏量的概率分布:

尽管x取值可以到457,但后面的可能性接近于0,为了方便与后面的泊松分布进行图示比较,在此只展示前30的部分。
下周有15个人收藏的概率是

但事实上这种预估的精度并不足够,在天的尺度上,日均收藏量()是大于1的,,因此如果要实现天粗粒度的预测,则需要将时间尺度划分得更细(小时乃至更小),让在若干小的时间段内都只有可能至多出现1个收藏。更进一步地,可以通过划分出更小的单位(即更多的试验次数)来使二项式随机变量处理多个事件。通过使用较小的划分,我们可以使原始单位时间包含一个以下的事件。

数学化的表达就是,保证总事件数不会爆炸。

由于:

因此泊松公式:

从公式中可以看出,只要确定了(一般是时间),该式就退化成了概率关于事件发生次数的函数。 类似地,如果确定了,则该式退化成概率关于时间范围的函数。至于确定哪些参数、让函数最终退化成哪些参数的函数,就与研究目的相关了。

这个时候算出来15个人收藏的概率就是。会发现概率相差不大。

另外再补充点罢——

  • 泊松分布假设单位试验中的平均事件发生率恒定,即恒定。
  • 泊松分布是离散型概率分布,但与连续型概率分布中的指数分布密切相关,如果单位试验发生事件遵从泊松分布,则事件之间的试验次数距离遵从指数分布。
  • 较小时,泊松分布右偏。随着其增大而会逐渐对称,时的泊松分布就会逼近正态分布,一般在的时候基本逼近。

关于泊松分布在神经递质释放概率计算方面的应用:受限于尺度,很难计算出神经突触处神经递质量子数量()和神经递质的释放概率(),但大多数情况下(Eg:神经肌肉接头),突触处的n大p小,符合用泊松分布来预测突触处递质释放概率分布的条件,而在许多中枢神经系统突触中,由于释放量少而作用效果精,CNS突触中神经递质释放的概率可能不遵循泊松分布。因此只能用二项分布来拟合CNS突触的递质释放概率分布,目前的研究表明一般n在1~10的范围内。

连续型概率分布

连续型随机变量主要通过概率密度函数来描述不同范围内取值的概率。

正态分布/高斯分布

据中心极限定理,正态分布由二项分布概率函数在时推导出来。

中心极限定理

中心极限定理实际上是一组定理,一般表述为:对于独立并同样分布的随机变量,即使原始变量本身不是正态分布,随着随机变量数量的增加,许多具有有限方差的独立的且相同分布的随机变量的总和将趋于正态分布。

  • 棣莫佛-拉普拉斯定理(De Moivre–Laplace):中心极限定理的最初版本,直接指出“参数为的二项分布以为均值、为方差的正态分布为极限”。
  • 林德伯格-莱维定理(Lindeberg-Levy):独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。
  • 林德伯格-费勒定理(Lindeberg-Feller):是中心极限定理的高级形式,是对林德伯格-莱维定理的扩展,讨论独立的,但不同分布的情况下的随机变量和。它表明,满足一定条件时,独立的,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限。

实际上我一直想知道的是——如何从头推导出正态分布的概率密度函数。

概率密度函数- , Max= (那么显然决定了峰的高度) 。

论及图像,正态分布曲线在处各为一个拐点,函数凹凸性变化。

关于所谓标准正态分布(分布),实际上是控制了取值所得,令(进行标准化变换也只需要,这么做主要是方便查表啥的,这里引入也更加方便了判定):

双尾概率:在正态分布中,只有5%的概率(这里的概率是由累积概率分布来的)会,以及只会有1%的概率会。因此在正态分布中,对于某一显著水平都会有对应的临界值/分位数(比如上面的1.96、2.58之类)。

从二项分布到正态分布

你似乎来到了知识的荒原!

关于正态分布概率密度函数里的“

虽然但是,现在学了二重积分其实原因很清楚了。但是这种积分技巧无疑是相当美妙的,于是我依然选择将其记录这里。

均匀分布

概率密度函数:)。累积概率函数:)。

期望/均值:。方差:

指数分布

指数分布概率分布研究的是泊松过程的事件之间的时间间隔——动植物寿命、微生物繁殖若干倍所需时间。

随机变量服从概率密度函数():)。

累积概率函数:。进而有

期望/均值:。方差:

当然可以追求一些深度理解

在对事件之间经过的时间进行建模的时候,倾向于用时间而非事件率来描述模型参数。指数分布中的与泊松分布中的实际上同意,但是指数分布中对进行了不同的运用。在指数分布中,形成了指数分布的“衰减参数”/“衰减率”这个参数,表示发生一个频次的时间所需的平均时间——也自然而然地对应了指数分布的期望/均值为

从形而上的角度来说,指数分布明显与泊松分布有密切关联,那么指数分布从何而来?

由于研究的是泊松分布中事件发生的时间间隔,那么给定一个“单位时间”,这期间内没有一个事件发生的概率是:一年后猫死了。

那么在一个由个单位时间构成的长度时间内,啥事都没发生的概率是(是第一个事件发生的等待时间T大于t个时间单位的概率):年内猫才死的概率。

那么反过来想,就有是在时间内发生了一个事件的概率:年内猫会死的累积概率。

其实上面就是时间段概率的累加,即一个累积概率函数。进而求一个微分就能得到:猫在年中某一个时间点死掉的概率。

指数分布的一个重要特性——无记忆性或者写成。这种无记忆性说明指数分布适合于“故障率”恒定的情形,无论在某一个时间点之前经历了什么,都不会影响此后等待时间的分布。而指数分布也是唯一无记忆的连续分布,有趣的是,光是从“无记忆性”这一个方面也同样能给出指数分布的表达式。

偶然想到了毕导的视频,放在这里,只是提了一嘴。

风险函数(hazard function)是一类对象的寿命。这个函数,表示直到时刻时失效、死亡等事件发生的累积概率,而对时间微分后是死亡的概率分布。而反之则是在经历后,表示某样本的生存时间大于时刻的概率。

风险函数在一个大的时间尺度下基于生存函数构建了当前时刻的“风险“大小描述——到时刻时存活下来的个体在此后一个无限小的时间区间内失效、死亡之类结局事件发生的概率。那么按照无记忆性这个特点,应该是个常数(),于是可以解:

然后结合的条件,最后回到身上,同时得到时刻死亡概率:

然而然而,你会发现前面的kitty寿命的例子明显补兑,因为指数分布没有记忆性,它其实并不适合用于描述生物寿命和机械使用年限,还能活多少年不可能与你已经活了多少年没有关系。

在预测寿命方面,韦伯分布是一个更准确的概率分布模式。


补充

在这里顺便就补充一下另外的两种与伯努利试验密切相关的离散型概率分布,主要是查指数分布的时候拓展到的,内容不多也没啥难的。

几何分布

其实其实,可以把指数分布看作几何分布的连续版。

几何分布(:在n次伯努利试验中,试验k次才得到第一次成功的机率。那么很容易得到——。此外期望为、方差

负二项分布

几何分布是负二项分布的一个特例。

负二项分布(:多的一个表示试验停止的条件。负二项分布一种是在所有到次成功时即终止的独立试验中,失败次数k的分布。明显对于几何分布来说就是取整数的情况一般又称“帕斯卡分布”的情况则又称“波利亚分布”

在p保持()、r要求变化的状态下给出下面的图:

在r要求保持()、p变化的状态下给出下面的图:

韦伯分布

这个是与寿命预测相关的,指数分布来预测生物寿命还是太奇怪了一些。

韦伯分布的概率密度函数为:

其中是比例参数(scale)、是形状参数(shape)。当的时候就是指数分布,另外当的时候又称“瑞利分布”的大小有不同的含义(为了拟合适应具体的情况,可以对进行微调以实现对寿命等实际情况的更好模拟):

  • :死亡率/故障率随时间而减小。
  • :死亡率/故障率恒定。
  • :死亡率/故障率随时间而增大。

均值: ;方差:

函数:在概率论和组合数学中很常用,是阶乘函数在实数与复数域上的扩展(当时,),而当复数域中时则有,其中(复数的实部大于零)。

抽样分布

由样本统计数所对应的概率分布叫抽样分布/统计数据分布。对于一个总体,从中抽取样本后每一个样本都可以对其计算一个统计数,而这些统计数的集合就构成一个抽样分布。统计推断的理论基础也就是抽样分布。

若所有可能样本的某一统计数的平均数等于总体的相应参数,那么该统计数是总体相应参数的无偏估计值

样本平均数的抽样分布

单样本平均数抽样分布

书上例子与计算

样本平均数的平均数与总体平均数相等:

样本平均数的方差与样本大小有关:。这里的是样本平均数的标准误差,也即平均数的标准误。那么也很自然地,如果从一个的正态分布整体进行抽样,那么其样本就会是一个的正态分布。

中心极限定理(书上表述):如果被抽样整体不是正态总体,但具有平均数和方差,当样本容量不断增大,样本平均数的分布也越来越接近正态分布,具有平均数和方差。该定理对于连续型变量或非连续性变量都适用。无论总体为何种分布,一般只要样本容量,就可以应用中心极限定理,认为样本平均数的分布是正态分布。

在计算样本平均数出现的概率时,其正态离差可以按照下式计算:

有点意思,写到正态总体抽样分布没明白 “不服从标准正态分布” 是啥意思(从单样本中产生的单个统计数为什么说服从某个分布),发现这个正态离差没有讲明白……

另外有标准正态离差这个概念,就是用来对数据进行标准化处理的,写作。而在这里的变成了,所谓的 “不服从标准正态分布” 指的就是从抽样样本中得到某平均数的概率分布符合正态分布。

双样本平均数差数抽样分布

书上例子与计算

两个样本平均数差数分布的平均数方差

从两个独立正态总体()中抽出的样本平均数差数的分布也是正态分布()。

样本频率的抽样分布

单样本频率的抽样分布

也是样本比例的抽样分布。可以用样本频率()估计总体频率()。

当n充分大时()、放回抽样允许样本频率的抽样分布向正态分布()逼近。

平均数方差

双样本频率差数的抽样分布

抽样产生两个大样本进行比较,两个样本频率之差的抽样分布依然可以用正态分布来近似。

平均数
方差

正态总体抽样分布

是从正态总体抽取样本,构造统计数并构成一个分布。

分布

适用于总体方差未知且样本容量不大()的情况,此时的样本方差无法直接约等估计

此时不服从标准正态分布,而是服从自由度分布。

引入统计数t,其中作为样本平均数的标准误仍可认为是的估计值。

分布的概率密度函数如下(函数见前述):

期望:)。方差:)。

t分布曲线同样左右对称,但相较于正态分布而言具有更高的尾部分布和更低的顶部分布。不同的自由度对应不同的t分布曲线形态,当时曲线很接近正态分布曲线,则等同于正态分布曲线。

分布

假设从标准正态总体()中抽取个独立样本,则会得到个标准正态离差(),即由个相互独立的标准正态分布的随机变量的平方和服从特定自由度的分布。有如下定义:

自由度仍为,对于不同的自由度,分布有概率密度函数:

和一个显然的概率累积函数:

曲线仅分布于区间,呈反形偏态分布,自由度的降低而偏度系数增大、自由度升高则趋于左右对称。当时接近正态分布(中心极限定理,实际上分布就是对任意分布取样并向标准正态分布转化的过程)。

分布

同样是从正态分布总体()中抽取样本,但是只抽两个,会产生两个不同的自由度,然后继续在正态总体中按照先前产生的两个自由度进行一系列随机独立抽样,在众多样本中就会产生很多

再定义,即系列抽样产生系列构成一个分布,其概率密度函数是由两个独立变量的概率密度所共同构成的联合概率密度函数:

和一个显然的概率累积函数:

平均数:(因为在大量抽样的情况下,构成值的两个方差都相当于同一个总体方差,都是其无偏值)。

曲线形态与分布类似。

4-统计推断

从总体到样本是概率分布,从样本到总体是统计推断。
主要是假设检验/显著性检验(hypothesis test/significance test)参数估计(estimation of parameter)两个方面。

假设检验的原理与方法

假设检验是根据总体的理论分布和小概率原理,对未知或不完全知晓的总体提出两种对立的假设(无效假设/零假设&备择假设),由样本统计结果计算判定应该被接受的假设。统计学上将小概率标准判定为0.05或0.01,样本结果支持小概率事件发生就是备择假设,vice versa。

“无效”:样本统计数表示的处理效应与总体参数之间没有真实差异,差异来源于随机误差。

样本平均数假设作例 ​

单样本与总体

</div><div class="notel-content">  <p>硅肺病患者群体血红蛋白含量遵从正态分布,平均数$\mu_0&#x3D;126mg&#x2F;L$,方差$\sigma^2&#x3D;240(mg&#x2F;L)^2$,这些都是总体的数据。</p>

用实验药物克矽平治疗六名硅肺病患者,处理后的大小为6的样本具有统计数:

那么就提出:克矽平治疗不能让患者血红蛋白含量上升(注意没有说“显著上升”,因为这里假设的目的是确定样本平均数与总体平均数的差异是由试验处理产生的),所假设的样本平均数应该与总体平均数相同、方差有对应变化。

在零假设下,就相当于是在假设情况下的正态分布中的一个取定的随机变量。由上,,那么计算正态离差,由判断此情况不可能发生的概率有多大来进行衡量:,然后查表可知(绝对值表明双尾概率),在136mg/L的单尾概率就是一半,,未达否定零假设的显著水平。

要判断零假设是否合理,就要看该假设的情形发生的可能性在统计学上是否被接受。

,因此熟识后也可以根据的大小进行判断。

</div>

两个样本相互比较

</div><div class="notel-content">  <p>两个样本来自两个总体,分别有$\bar{x}_1$、$\bar{x}_2$、$\mu_1$、$\mu_2$等数据。零假设是两个样本来源的总体具有同样的平均数($\mu_1&#x3D;\mu_2$)。</p></div>

双尾检验与单尾检验

其实上面样本平均数检验的例子中已经涉及一部分。

根据小概率的显著标准值将整个正态区间划分为三个部分,划分于两个临界值:,两边是否定区。

单尾就是只有一个否定区,单尾检验查表时需要将双尾概率×2。

,则检验的否定区为,反之亦然。

两类错误

  1. 第一类错误 / 错误 / 弃真错误:否定了真实假设(只在否定时发生),发生这种错误的概率就是选定的概率显著水平
  2. 第二类错误 / 错误 / 纳伪错误:接纳了错误假设(只在接受时发生)。

显然选定的概率显著水平不能过高也不能过低,过高导致纳伪错误增加、过低导致弃真错误增加。

有一个假设检验功效/检验效能,表示正确拒绝无效假设和接受备择假设的概率,由固定检验显著水平后的表示(不犯第二类错误的概率)。

增大、总体方差减小、样本容量增大(等价于样本方差减小),都可以提高检验效能。这些影响都可以通过上面的图形得到具象化的含义解释,核心就是要让两个正态分布的峰尽可能分开并减少两侧尾的重叠。当然选择合适的也很重要。

样本平均数的假设检验

单样本平均数假设检验

前文已述,判断样本平均数与总体平均数是否有真实差异的检验。分为总体方差已知和未知两种情况

已知

此时无论样本大小,样本平均数的分布都服从正态分布,进行标准化后服从标准正态分布(分布),用检验法进行假设检验。

具体例子一张图

未知

这时就要根据样本大小进行抉择。时认为样本平均数分布近似服从正态分布(中心极限定理),可以由样本方差来近似总体方差,因而仍然可以选用检验法;当时则受样本自由度影响,小样本差异较大,应该换用检验法

具体例子两张图

具体操作差不多但是这里还是放图是因为涉及计算和单尾检验的事。

然后是检验,虽然前面展示的概率密度函数表达式复杂,但是由自由度和显著值共同产生的值表便利了检验判定,流程实际上与检验大差不差,从样本的统计数中计算出即可()。

双样本平均数假设检验

前文亦已述,检验两个样本平均数()所属的总体平均数()是否来自同一总体()。

总体方差&已知

无论俩样本容量多大,样本平均数差数的分布都服从正态分布,用检验。

在零假设情况下():

具体例子一张图

总体方差&未知

与单样本平均数假设检验类似,如果两个样本数量都比较大( and ),那么考虑中心极限定理可以沿用检验。流程依然类似()。下面不会再给出例子。

另外一个情况就是只要任一样本数量较小( or/and ),都只能用检验。检验流程略麻烦(),又下分有两类情况,选用啥主要是看怎么处理的。

成组数据(pooled data)平均数比较的检验

两个抽样样本彼此独立,都从各自总体中抽取。无论两个样本容量是否相同,所得的都是“成组数据”。以组平均数比较差异显著性。又可以继续细分:

  1. 方差同质情况检验可以确定两个样本所属总体的方差关系,如果,则可以用两个组样本各自的样本方差来对进行估计(加权计算平均数)——。进而计算两样本平均数差数的标准误:,最后的服从自由度分布。

  2. 方差异质且样本容量相同。仍然可用检验(计算流程无异,计算时可以简化出),最后计算所得的应该是服从自由度分布。

  3. 方差异质且样本容量不同:此时计算所得不再服从对应自由度的分布,只能进行近似检验。要将两个样本方差都视作总体方差的估计来计算(),然后是一些近似的校正操作:

具体例子两张图

成对数据(paired data)平均数比较的检验

要求两个样本间配偶成对,每一对的样本只有一个不同处理、其他实验条件保持一致,可以较大程度控制试验误差、精确度高。

配对设计方法适用情形:两个受试对象分别受两种不同处理(两个受试对象最好也是同一种东西)、同一受试对象接受两种不同的处理、同一受试对象处理前后的自身配对、同一受试对象两个部位给不同的处理。

Note:对于部分成组数据来说,即便两个成组数据的样本容量相同,也不能进行成对数据模式的比较,因为成组数据的每一个变量都是独立的、没有配对比较的基础。成对数据平均数比较的控制变量意味更浓。

不同配对样本间的条件差异可以通过各配对样本差数来消除,假设检验时设为两个样本差数的总体为0(,即处理前后没有变化),不需要假定两个样本对应的总体方差相同。

设两个样本的变量分别为,一共配出对,那么各配对样本差数平均数:

样本差数方差:

样本差数平均数标准误有值有。在零假设情况下,。最后按自由度查表即可。

具体例子一张图

样本频率的假设检验

总体/样本中的个体具有两个“属性”,这些属性在容量中具有对应频率,依照样本中的频率来对总体中的概率进行统计推断的过程就是样本频率的假设检验。进行样本频率的假设检验的基本原理是二项分布,而当样本容量较大、某一种属性的出现频率时,二项分布趋近于正态分布,此时可以将频率数据视作正态分布处理并进行统计推断。

单样本频率假设检验

适用于一个样本频率的总体频率与某一理论频率的的差异显著性。根据样本的大小又有三种处理方式(检验方法):

  1. or :二项分布检验。(在未知的情况下,可以用的标准误来估计:)。
  2. :二项分布趋近正态分布,检验前需要进行连续性矫正。检验,检验。需要进行连续性矫正的时候,检验参考时的分布。
  3. and :不需要进行连续性矫正即可进行检验。在不需要进行连续性矫正的情况下,
具体例子一张图

双样本频率假设检验

类似地,适用于检验两个样本频率()所属总体频率差异()的显著性,是认为“一般”都会假定两个样本所属总体的方差相等()为基本前提。同样分为三种情况:

  1. or :二项分布检验。对于从样本中统计出来的,可以用两个样本频率差数的方差来估计总体频率的方差和标准误,时就有:,其中
  2. :二项分布趋近正态分布,检验前需要进行连续性矫正。检验,检验。需要进行连续性矫正的时候,检验参考时的分布。
  3. and :不需要进行连续性矫正即可进行检验。在不需要进行连续性矫正的下,
具体例子一张图

样本方差同质性检验

其实换个更熟悉的说法是“方差齐性检验”。由于样本平均数和频率的假设检验以样本所属总体方差和总体方差的同质性为基础,在进行假设检验之前进行方差齐性检验十分有必要(有点想吐槽为什么书上不先写这一部分)。

单样本方差齐性检验

是样本所属总体方差与已知总体方差没有区别,即。在样本方差与总体方差之间构建起关联的就是前面讲到的分布:,分母与总体方差关联,分子与样本方差关联(,样本所属总体方差是一个从样本方差推断出来的值)。又由于在抽样数量足够大的情况下,样本均值与方差均值数值上可以考虑相等(),所以可以变换为:

此时的服从自由度分布。

具体例子一张图

双样本方差齐性检验

两个样本进行检验,分别有样本容量、样本方差(一般会选样本方差更大的那个作)、推断的样本所属总体方差。检验方法是检验,检验时服从分布()。

具体例子一张图

参数估计的原理与方法

回望该节最开始的地方,参数估计是与假设检验地位相当的另一个方面(其实是逆过程),但是现在才讲到……

估计量与估计值

  • 估计量(estimator, 是用于估计总体的未知参数 () 的统计数 (Eg: , , ……) :追求无偏性)、有效性(众多样本产生的无偏估计量中选择标准差小的)、一致性(大样本估计值更加接近总体参数)。
  • 估计值(estimated value)是就是某一估计量的具体数值。

参数估计可以分为点估计和区间估计两类,直接以样本统计数作为总体对应参数就是点估计();区间估计是在一定概率(,又即置信度,一般默认取双尾的置信度)保证下用样本统计数估算出总体参数的可能范围,范围即所谓置信区间(不包含上下限)。

参数估计的原理

根据中心极限定理和大数定律,无论总体是否正态分布,样本平均数都近似服从的正态分布:其中是标准正态分布下置信度的临界值。

将括号内改写为相对于的范围,显然概率值并不会变:

那么区间内包含这种事的可靠程度就是,这个区间也就是置信区间(估计值误差)。下面的内容可以算是对前面的复习。

单总体参数估计

单总体平均数估计

  • 总体方差已知:置信度为的总体平均数的区间估计为
  • 总体方差未知
    • 样本容量:置信度为的总体平均数的区间估计为
    • 样本容量:置信度为的总体平均数的区间估计为

单总体频率估计

  • and :置信度为的总体频率的区间估计为
  • or
    • :置信度为的总体频率的区间估计为。若未知则可用替代
    • :置信度为的总体频率的区间估计为。若未知则可用替代

双总体参数估计

双总体平均数差数估计

  • 总体方差已知:置信度为的总体平均数差数的区间估计为
  • 总体方差未知
    • and :置信度为的总体平均数差数的区间估计为
    • or
      • 成组数据
        • :置信度为的总体平均数差数的区间估计为。自由度为
        • and :置信度为的总体平均数差数的区间估计为。自由度为
        • and :置信度为的总体平均数差数的区间估计为。自由度为经过校正的,在此不再给出。
      • 成对数据:置信度为的总体平均数差数的区间估计为。自由度为

双总体频率差数估计

  • and :置信度为的总体频率的区间估计为
  • or
    • :置信度为的总体频率的区间估计为
    • :置信度为的总体频率的区间估计为

基于参数估计的样本容量确定

估计总体平均数时样本容量

  • 估计单总体平均数时样本容量:在总体方差已知的情况下,总体平均数置信度置信区间为,可以进一步改写为。因此如果给定预期估计误差为(单方向的误差),那么可以求出估计的样本量
  • 估计双总体平均数时样本容量:置信区间的估计误差部分可能有两种情况——(总体方差已知或均为大样本) 和 (总体方差未知或存在小样本)。因此有两个限制,两个样本容量应该一样大()、总体方差应为已知。此时再给定一个估计误差,可以推算出样本容量:

估计总体频率时样本容量

  • 估计单总体频率时样本容量时的估计误差为时的估计误差为。明显在给定置信度和估计误差的情况下都是可以计算出的,只是相对来说前者会更好算一些,这里给一下:
  • 估计双总体频率时样本容量:和前面出于基本一样的原因,尽管假设检验中情况多种多样,但求出样本容量的要求就比较苛刻了(要求两个样本容量相同,还有不出现分布的前提,下面已经提前处理掉了)。时估计误差为时估计误差为。虽然都可以算但还是前者容易算一些,这里给出:

5-非参数检验

参数检验与非参数检验的显著区别就是,参数检验是在明确知道(给定或能明确假定的)总体分布的情况下进行的,检验的主要任务是用样本统计数来对总体参数进行估计/检验。

那么与之相对,非参数检验(nonparametric test)/任意分布检验(distribution-free test)可以在不考虑总体参数和总体分布的情况下,从数据本身来获得所需要的信息(对样本所代表总体的分布/分布位置)进行假设检验。

非参数检验几乎可以处理包括分类数据和顺序数据在内的所有类型的数据,参数检验通常只能用于定量数据的分析。如果数据明确具有进行参数检验的条件再来用非参数检验的话会导致检验功效下降、易犯II类错误。

游程检验

目的:检验样本独立性,确定重复出现的变量值随机。理论基础是二分类序列或类型出现顺序的随机性问题。

游程检验(run test)/连贯检验(coherence test)/串检验(strings test)是一个典型的针对二分变量样本标志表现排列所形成游程的多少进行判断的检验方法,可用于判断观测值的顺序是否随机。

游程:对于可以二分的总体,样本分为两类后,其中一类符号连续出现的“段”就叫游程(),在数值代指中游程是重复的变量值中游程的个数(0000111011的游程为4,对于其中第二个游程有“游程长度”为3)。

对于一个经典的抛硬币伯努利试验,在变量序列中正反面的交替不会太频繁但也不会太少。对于结果序列,其中正面1反面0的出现频数与游程数和概率有关,如果已知出现频数则与概率无关了。给定试验次数的情况下,游程数与游程长度明显有负相关,交替太频繁认为“混合”、交替太少认为是“成群”。

游程检验的流程

建立假设为二分的数据类型随机出现于序列中,则有三种情况——数据非随机、数据混合、数据成群。

游程检验的统计数就是又称个数,对于二分数据频数有范围:

在给定的条件下,出现任何一种不同结构序列的可能性都是

对于普通的伯努利试验来说,预期显然是。在有个游程的时候,二分类型的游程数量应该接近1:1,在奇数的时候任一方多一个、偶数的时候一样多就是了。则有条件分布:

于是可以根据上面的式子计算给定某个的值,形成游程个数的分布(游程分布表),进而量化出显著性水平。但具体的检验方法又受的大小影响:

  • 均不大:查询游程检验表直接推断。不同都会产生对应临界值

  • 均较大:样本容量大,若零假设成立则由“精确分布”的性质,可以借用正态分布表得到具体的值。对于的正态分布有如下参数估计——

具体例子两张图

符号检验

在总体未知且样本小的情况下,可以将原始观测值“按照设定的规则”转换为正负号(设定某一标准进行二分),对正负号统计个数以进行检验。很自然地会想到对样本数据进行相对总体中位数的处理,那么显然理论上产生的符号序列中符号个数的分布应该服从的展开,此时,可以建立假设并进行符号检验(sign test)。

为样本数据与理论总体中位数没有差异。记,则对于某一显著水平有最低临界值,满足关系:

具体使用中的符号检验表就是不同值下的,检验时如果则在水平上接受。单尾检验时将符号检验表中

具体例子一张图

上面给的是单样本的符号检验,但实际上即便对于两个配对样本,其符号检验都没有太大差异。后者的是假设俩样本的中位数相等()罢了,用甲的中位数去处理乙的样本数据来产生符号序列。

秩和检验

符号检验具有一个明显缺点,即忽略了观测值与中心位置之差的具体差值大小。而同时考虑到正负号与差值大小的检验方法就是秩和检验(Wilcoxon rank-sum test)/符号秩检验(Wilcoxon signed-rank test)。

原理与方法

秩/秩次:数值变量由小到大、等级变量由弱到强所排列的序号(),对于序列中某一个变量,都有一个对应的秩次。如果连续多个变量的值相同,则该观测值具有几个变量对应秩次的平均,即平均秩次。

秩和:用秩次替换原始数据,按某种顺序排列的序号之和即为秩和。例如将样本容量分别为的两个样本混合并按照变量值由小到大排序,产生新的秩。然后对原本各自样本求秩和(),有关系式。而对于秩和检验来说,其用于检验的统计数是对差值取绝对值,然后分别按照不同的符号相加。

秩和检验需要提前假定样本点来自连续对称的总体分布,在此前提下的总体中位数显然应等于平均数。首先建立假设:样本中位数与总体中位数相同(),与符号检验一致。流程如下。

  1. 计算产生距离序列;
  2. 个绝对值排序,对应个秩,若有相同距离则取平均秩次;
  3. )、)。有,就是前面换了个表达。
  4. 双尾检验的应表现为。检验统计数取为。单尾检验的,vice versa。
  5. 根据值直接查符号秩检验表,确定特定显著水平下否定的临界值。
    较大时可以用正态近似,“得到一个与有关的正态随机变量的值,再查表得到对应值”。

单样本秩和检验

具体例子一张图

双样本秩和检验

成对数据秩和检验

由于数据成对(paired),检验两个样本中位数是否相同其实等价于对两组数据做差处理,对差值检验是否为0。

具体例子一张图

两个独立样本秩和检验

  • Brown-Mood中位数检验:两个样本容量不同,没有配对关系、相互独立()。对应的两组样本分别有总体中位数,此时将两组样本混合产生序列中位数应该有关系。检验过程涉及列联表过程(与相同的观测值可以忽略掉,或者随机放在任意一边),具体原理将在第6章中涉及。

    样本中大于的变量,则的分布在时表现为超几何分布():

    在进行判断的时候遵循以下原则:

    针对不同的样本大小需要进行一些调整↓

    • 大样本在无效假设时可用超几何分布的标准正态近似性进行检验,对应地有判定值的值:

    • 小样本必须进行连续性校正:

具体例子一张图

  • Whitney-Mann-Wilcoxon秩和检验:类似于单样本Wilcoxon秩和检验,相较于只看符号的Brown-Mood中位数检验也看了两样本具体观测值的相互关系。检验目的是看两个样本是否来自同一总体。

    那么类似的过程,混合两个样本并按顺序排列,形成新的秩。而回到两个样本就有各自的秩和,将称为Wilcoxon秩和统计数。进一步地有 or (Mann-Whitney统计数)——前者表示样本观测值大于样本观测值的个数,后者类推。时的两个Mann-Whitney统计数应具有相同的分布。有关系式如下↓

    然后就可以直接根据M-W统计数来查表判断是否接受假设了。

    依然有一些调整↓

    • :此时的秩和分布接近正态分布,可以计算相关参数(平均数、标准差)进行模拟。而一般的W-M-W秩和检验主要适用于的情况。

      如果存在“并列数据”,则需要进行近似检验,此时对标准差进行校正:是并列秩次数据的函数。

具体例子一张图

检验

又称“Kruskal-Wallis秩和检验”。

适用于不满足正态分布或方差异质的二至多样本比较,定义有检验统计数是混合后序列中原本第个样本的秩和、是第个样本的样本容量、是所有样本混合后的总容量。

当不同样本间具有较多相同秩次的变量时,估计的会偏小而需要校正:其中是相同秩次变量个数。

原始数据多样本比较的秩和检验

具体例子一张图

注意多组、各组样本容量大情况下近似法的使用。

频数表数据多样本比较的秩和检验

流程基本与原始数据多样本比较的秩和检验类似,两个注意点:

  • 同一组段或等级的值一律取平均秩次,再用各组段的频数加权。
  • 由于用频数统计,因此相同秩次会比较多,注意用上面提供的校正公式对进行校正。但如果能根据直接拒绝,则不用去计算校正值
具体例子一张图

6-列联分析

列联表与χ²统计数

列联表用于处理离散的分类数据,是一种由两个以上的变量进行交叉分类的频数分布表,本质是挖掘行向量组()和列向量组()之间的相关性。最常见的是2×2列联表,一般形式见下。

列联表分布涉及观测值()与期望值()分布两部分,对于任意单元格理论值有

而如何对期望值和观测值之间的差异进行定量的统计学判定,需要回顾一下之前的分布:表示相互独立的多个正态离差平方和(),当样本量充分大而允许估计时,可以用简化得出,该统计数表示的是自由度下连续型变量的分布,而对于分类数据来说,就是分类数据的分类数

对分类数据进行检验,其基本原理是应用观测值与理论值之间的偏离程度来决定其值的大小。

因此在列联表的分析中具有不同的计算方式(绝对差数→平方表示→等量齐观),计算对象指定在观测值与理论值上。

检验流程一如既往。提出零假设备择假设→确定显著水平→计算→查表进行统计推断()。

Note!由于分布是连续出身,对离散的分类数据来说产生的是一个近似值,有下面的注意事项:

  • 任何一组的理论值必须大于5。如果有的情况,务必并组或增大样本容量。

  • 自由度时需要进行连续性矫正,矫正后的会比原来小:

拟合优度检验

拟合优度检验/适合性检验/吻合性检验,就是上面对观测值与理论值是否存在差异的假设检验。

在遗传学基因型比率表现中很常见,下面给出一些预制菜:

对于数据组数多于两组时,还可以用简式进行计算。

独立性检验

零假设为行向量组影响与列向量组无关,假设各类别之间没有关联。根据显著水平查表判定机械流程。

列联表结构中,独立性检验的自由度有。如果也一样要记得连续性矫正。

2×2型

2×2型中必定涉及连续性矫正,简式计算有:,避免对理论值这类中间值的计算。

2×C型

给出不用计算中间理论值的简式:

R×C型

给出不用计算中间理论值的简式:

Fisher精确检验与McNemar检验

Fisher精确检验

基于2×2列联表分析,检验两个分类变量是否独立,可精确P值,适合于小样本检验或理论频数非常小情况。表述的是在边际总数不变的情况下,出现使用当前分类处理分配模式的可能性大小。

具体例子

没办法书上常举具体例子来说事,实际上并不是很喜欢。然而又不想让过于实际的事例直截地出现在文档中,因此就只好在该folding下面展开说说了。

此时进行检验用的是二项式分布,直接计算总取样方法和指定分类取样方法数量比就可以了。

从5个死亡的婴儿(婴儿死亡数目就是这个例子下的“边际总数”)中选4个进到CMT组的方式数是、存活的34个婴儿中选出6个进到CMT组的方式数是,从39个婴儿中选出10个进入CMT组的方式数是。最后计算有

什么你问我为什么写的是?因为书上还说需要考虑极端的边际情况,即“负”效应都是一种处理造成(死亡的新生儿都是CMT死的)的。那么这时候有:

而真正的值是考虑当前边际与极端边际发生概率的和:。和显著水平的一比就知道该拒绝零假设了。

至于Fisher精确检验与检验的区别……

检验是基于分布的,当样本容量很大时,这种分布就为检验的理论抽样提供了比较好的近似值。但是,当样本容量比较小时,这个近似值就不太可信,从检验得到的P值可靠性也就降低了。

McNemar检验

又称“非独立样本频率/比率的检验”。

在2×2列联表上更改为对立事件是否发生作为计数对象,此时的事件构成总体可以用二项分布进行描述。而McNemar检验是对二项分布“非此即彼”事件结果发生概率所进行的拟合优度检验。

此时用于假设检验查表的统计数是:认定样本来自的两个配对总体分布无显著差异时,预期“是/否”和“否/是”的数目相等。

具体例子一张图

列联表中的相关系数

φ相关系数

列联相关系数

V相关系数

比较

差分概率的置信区间与相对风险

7-方差分析

  • Title: Biostatistics
  • Author: Kirschy
  • Created at : 02-22-2025 00:00:00
  • Updated at : 04-01-2025 00:43:07
  • Link: https://kirschyr.github.io/2025/02/22/Biostatistics/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments