2019-04-01 21:56:02
这是统计意义的结束吗 使科学变得更加不确定的斗争

根据两个最负盛名的学术期刊 - 美国统计学家和自然界 - 推荐“统计学意义”这一术语的建议,科学界充满了热情。

该杂志编辑在介绍美国统计学家关于该主题的特刊时,敦促“移动到超越'p <0.05的世界',”确定研究结果是否具有统计学意义的着名的5%门槛。如果一项研究通过了这项测试,则意味着结果仅由偶然性造成的概率小于5%。这通常被理解为意味着该研究值得关注。

该杂志的基本信息 - 但不一定是本期43篇文章的共识,其中一篇是我的贡献 - 科学家首先应该“拥抱不确定性”和“体贴,开放和适度”。

虽然这些都是优良品质,但我相信科学家们不能让它们模糊科学所要求的精确性和严谨性。不确定性是数据中固有的。如果科学家进一步削弱已经非常弱的0.05的阈值,那么这将不可避免地使科学发现更难以解释,更不可能被信任。

在困难之上打桩困难

在传统的科学实践中,科学家产生假设并设计实验以收集支持假设的数据。然后,他或她收集数据并进行统计分析,以确定数据是否确实支持该假设。

一个标准统计分析是p值。这会生成0到1之间的数字,表示对假设的强支持,边际支持或弱支持。

但我担心放弃这些判断的证据驱动标准会使设计实验变得更加困难,更不用说评估它们的结果了。例如,如果没有目标精度水平,如何确定合适的样本量?研究结果如何解释?

这些都是重要的问题,不仅适用于资助或监管机构的研究人员,也适用于日常生活受统计判断影响的任何人。这包括任何接种药物或接受手术,驾驶或乘坐车辆,投资股票市场,拥有人寿保险或依赖于准确的天气预报的人......并且名单还在继续。同样,许多监管机构依靠统计数据每天做出决策。

科学家必须使用该语言来表明一项研究或一组研究提供了支持关系或效果的重要证据。统计显着性是用于此目的的术语。

这一运动背后的团体

对“统计显着性”一词的敌意来自两组。

第一个主要是科学家在他们的研究产生p = 0.06时感到失望。换句话说,那些研究不做的人。这些主要是科学家们发现0.05标准太高的障碍,无法在学术期刊上发表,这些学术期刊是学术知识的主要来源 - 以及任期和晋升。

第二组关注的是未能复制科学研究,他们将部分原因归咎于这种失败。

例如,一组科学家最近重复发表了100篇心理学实验。 100项原始研究中有97项报告了统计学上显着的发现(p <0.05),但只有36项重复实验能够取得显着结果。

如此多的研究复制失败可能部分归咎于发表偏倚,只有在发表重大发现时才会产生这种偏倚。出版偏倚导致科学家过高估计影响的程度,例如两个变量之间的关系,使复制的可能性降低。

使情况更加复杂的是,最近的研究表明,p值截止值并未提供足够的证据证明已发现真实的关系。事实上,在社会科学的复制研究中,现在似乎接近0.05的标准阈值的p值可能意味着科学主张是错误的。只有当p值小得多,可能小于0.005时,科学主张才有可能表现出真正的关系。

导致这一运动的混乱

许多非统计学家将p值与没有发现的概率混淆。

让我们看看自然文章中的一个例子。两项研究检查了服用药物后疾病风险的增加。两项研究均估计,如果患者服用该药物,患病风险比不患病人高20%。换句话说,两项研究都估计相对风险为1.20。

然而,一项研究估计的相对风险比另一项更精确,因为其估计是基于更多患者的结果。因此,一项研究的估计值具有统计学意义,另一项研究的估计值则不然。

作者引用了这种不一致性 - 一项研究获得了显着的结果而另一项研究没有 - 作为统计学意义导致对科学结果的错误解释的证据。

然而,我认为合理的总结只是一项研究收集了统计学上显着的证据而一项没有,但两项研究的估计结果表明相对风险接近1.2。

从这往哪儿走

我同意自然文章和美国统计学家的社论,即从所有精心设计的科学研究中收集的数据应该公开提供,并提供全面的统计分析摘要。除了每个研究的p值,重要的是公布这些估计的效应大小和置信区间的估计,以及所有数据分析和数据处理的完整描述。

另一方面,只有提供有力证据支持重要协会或新效应的研究才能在主要期刊上发表。对于这些期刊,应通过要求初始关系报告和新发现的较小p值来增加证据标准。换句话说,让科学家公布他们更加确定的结果。

最重要的是,拆除公认的统计证据标准将减少科学家在发表自己研究时的不确定性。但它也会增加公众接受他们发布的调查结果的不确定性 - 这可能会有问题。

猜您喜欢的其它内容