“全文为3187,预计学习时间为10分钟
资料来源:未飞溅
在“ Business Insider”的标题中说:“根据一项全国性抗体研究,有21%的纽约人感染了日冕病毒。”当我看到这句话时,我知道这是统计差异的典型案例。
在新皇冠被击中的日子里,各种数据,感染次数,感染率,死亡率,治愈率都在飞涨……在统计学家看来,这仅仅是对“创新方式以及人们如何误解数据”。本文介绍了导致误解的数据-数据差异的元凶之一。
偏差是多少?
偏差是多少?那取决于词汇场景。在本文中,我们重点介绍失真的统计类型。在统计数据中,偏差与系统失衡有关。
如果不平衡的结果具有误导性,则不一定意味着它们是由误导性意图引起的。统计偏差可能是由于疏忽,无知,高成本或数据篡改造成的。统计人员可以使用“偏差”一词来指代以下内容:
·技术定义立即宣布
·随机分组中的意外事件
·结论错误
过度期望
在统计中,偏差是猜测者的期望值和他的估计值之间的差,它是基于与目标的系统偏差而得出的。与射箭类似,弓箭的定位也不准确。
高偏差并不意味着您必须在任何地方射击(分散在各处),但是它可能导致优秀的弓箭手总是在舷窗下射击。
头条新闻说,这项研究估计约有21%的纽约人感染了冠状病毒,我认为这是偏高的,为什么?因为这涉及到随机化数据收集,所以我来谈谈第二个统计子定义。
选择偏见
触发系统偏差结果的一种特殊方法是以有问题的方式收集数据。对于这些脾气暴躁的统计学家而言,选择倾向是“老熟人”。
如果目标群体的不同成员以不同的概率来到样本中,则会出现选择偏差,换句话说,您是从随机选择的样本中得出结论,在这种情况下,您的样本无法代表目标人群,这使得结论不可靠。
假定目标人群是所有纽约人,除非每个居民都同样有可能被纳入调查,否则您将不会获得随机样本(SRS)。.当然,纽约的抗体研究不满足此要求。
在打开本文之前,我想知道他们如何巧妙地收集了有关孤立生活者的数据,结果却没有考虑到这一点。这项研究选择居民以完全孤立自己的可能性有多大?有多少纽约人甚至不考虑自己?我们不知道
覆盖率不匹配:如果您的方法不能覆盖所有内容,则将省略一些未发现的部分。
这种选择方差称为覆盖方差。如果某些部分没有机会采样,则样本无法覆盖整个总体。解决此问题的一种实用且快速的解决方案之一是定义人口扩展人口。与其得出有关“所有纽约人”的结论,不如检查“所有纽约人”。
但是,如果不能完全解决,情况可能会更糟。如果我们有一个更有趣的样本移位怎么办?如果非零概率也导致系统错误怎么办?如果可以的话,该怎么办?治愈“这将使外行人比其他人更容易测试?
让我们看一下收集浏览器数据的过程。在这项研究中,纽约人在“杂货店和大卖场”中接受了测试,这意味着陌生人在哪里受到外部感染?当您需要增加曝光量时,您要去哪里?参观杂货店和大型超市等拥挤的地方。研究在哪里进行?这就是在这些地方完成的。换句话说,病毒风险较高的人在抗体研究中被清算的可能性更高。
资料来源:未飞溅
如果您真的不惧怕死亡,请经常去杂货店和大卖场,这些人比那些试图减少感染风险的人更经常外出。这两种类型中的哪一种更可能产生COVID-19抗体?您认为哪种类型的人更有可能在合适的时间和合适的位置选择合适的人参加研究?
原因:认为这是一个好主意的人与众不同
实际上,这项研究的设计是一个宾果表,其中包含不同类型的选择性偏见-样本偏见,覆盖偏见,自选偏见,便利偏见,志愿者偏见等。一个分心的弓箭手可以轻松地到达目标并连续不断地击中目标,至少可以看到结果并进行调整,但是具有选择性偏见的研究人员并不那么幸运。错误级别。
有偏见的结论
实际上,不均匀的抽样概率并不是使我们难以得出合理结论的唯一因素,还有其他偏差可能会影响统计结论。
如果测量结果在系统上不正确,则存在信息偏差。如果抗体测试本身存在研究人员未知的问题怎么办?如果它们仅检测到超过用于假阳性结果的严格阈值的抗体该怎么办?然后在这些检测中忽略了病毒检测并降低了估计值。
资料来源:未飞溅
如果信息失真和选择性失真是在相反的方向上看不见的,那么估计是太高还是太低?未知。我们到底能知道些什么?杂货店和大卖场中的一些人从所谓的抗体测试中得到了令人兴奋的测量值,但是我们实际上对纽约人的实际接触率了解多少?
报告偏差和确认偏差
“偏离”与我们偏爱的说话方式特别相关:指出某人在某些事情上是错误的。
公平地说,Business Insider报告实际上做得很好。他们甚至将结果称为“初步”结果,并提到了我提到的一些抽样问题。这些警告与纽约州州长和研究小组最初发布的警告相同。相反,我抱怨互联网上的分布夸大信息。
有些人没有花时间阅读整篇文章,而是将这个标题视为整个故事。如果他们与他人共享“学习”的内容,则可以创建教科书示例以报告偏差。
当人们得出结论而不是基于所有已知信息来源得出结论时,报告就会出现偏差。
每当人们仅传递信息中最极端或最“刺激性”的部分而忽略削弱结论的无聊部分时,报告就会产生偏差。只要人们有这种动机,这种变化就随处可见:
·复杂事物的简短摘要(例如,将所有内容压缩为280个字符的推文)。
·尊重并理解他人的意见(例如,当他人遇到确认错误时)。
·防止读者单方面思考(例如,编辑科学出版物的记者)。
通过策略说服某人(例如,熟练地“跳过”的经验研究可以质疑您的潜在论点)
不管有何报告差异的意图,它们的存在都会削弱结论的有效性。犯过偏差错误的研究人员是否知道自己犯了此类错误?答案是否定的,他们一直是确认错误的受害者。
确认错误可能会影响感知,感知和记忆与自己观点不一致的证据的能力。如果我们提出这种认知趋势,我们将从统计领域转向心理阈值。简而言之,证据对您是否“有用”取决于您的先验观点。如果您不小心,将获得信息监视,并记住谁确认您的观点。如果您看不到事情的全貌,那么人们甚至可能都不知道他们只是单方面的个人观点,并且错误地举报了他们。
这项研究毫无价值吗?
许多人将基于这项纽约抗体研究得出结论,这些结论支持废话,但一些具有较高数据素养的读者可能不会受到影响。
这是否意味着这项研究毫无价值?不,研究假设仍然很好。由于我们几乎无法从数据中了解确切的细节,因此得出超出事实结论的唯一方法是使用假设来弥补差距。这就是统计信息的性质。研究假设不是魔术,研究的价值取决于相应的研究假设。
不幸的是,并非所有的研究人员都能提出良好的研究假设并得出这样的实际结论。就像我是一位在数据收集方面具有丰富实践经验的统计学家,而不是抗体测试专家一样,您可以质疑我对数据准确性做出合理假设的能力。我不信任自己,所以我对纽约市的病毒暴露率一无所知。这项研究对我来说毫无价值。我对选择偏见会导致较高的评价表示怀疑,但我也知道研究结果可能是错误的,我们也不知道错误的程度。如果您告诉朋友我的预期感染率小于21%,您的行为将随机表明刚才提到的失真。
资料来源:未飞溅
但是,当病毒研究专家与熟悉纽约行为的医学专家和心理学家合作时,他们会与了解开发和部署过程的所有实际细节(包括在杂货店中进行的抗体测试)的人员合作。适当地离开那里以支持良好的假设,以便研究人员可以充分利用有效数据。通过充分合作,这项研究实际上是值得的。
艺术行业具有使专业人士能够从事专业工作的专业,而王冠流行的新情况使我们回到了这一事实。
发表评论
让我们一起分享AI学习和AI开发的干货
如果转载,请在后台留言并遵循转载说明