当前位置:大学毕业论文> 专科论文>材料浏览

统计数据方面有关学术论文怎么写 跟统计数据的陷阱类硕士毕业论文范文

主题:统计数据论文写作 时间:2024-03-19

统计数据的陷阱,本文是有关统计数据本科论文开题报告范文与统计数据和陷阱有关论文写作参考范文.

统计数据论文参考文献:

统计数据论文参考文献 有关大数据的论文统计源期刊数据挖掘论文统计源期刊是什么意思

和统计数据打的交道多了,什么见鬼的事情都能遇上.统计数据显示,在铀矿工作的工人居然与其他人的寿命相当,有时甚至更长!难道统计结果表明在铀矿工作对身体无害么?

当然不是!其实,统计数据本身并没有说谎,铀矿工人的寿命真的不比普通人低,难就难在我们如何拨开数据的外表,从中挖掘出正确的信息.事实上,只有那些身强体壮的人才会去铀矿工作,他们的寿命本来就长一些,正是因为去了铀矿工作,才把他们的寿命拉低到了平均水平,造成了数据的“伪独立性”.这种现象常常被称为“健康工人效应”.

类似地,有数据表明打太极拳的人和不打太极拳的人平均寿命相同.事实上呢,太极拳确实可以强身健体、延长寿命,但打太极拳的人往往是体弱多病的人,这一事实也给统计数据带来了虚假的独立性.

有虚假的独立性数据,就有虚假的相关性数据.统计数据显示,去救火的消防员越多,火灾损失越大.初次听到这样的结论,想必大家的反应都一样:这怎么可能呢?仔细想想你就明白了:正因为火灾损失大,才会有很多人去救火.因果关系弄颠倒了.数据只能显示两件事情有相关性,但并不能告诉你它们内部的逻辑关系.

事实上,两个在统计数据上呈现相关性的事件,有可能根本就没有因果关系.统计数据显示,足球队的获胜率,竟然与队员的球袜长度成正比.难道把队员的球袜都换长一些,就能增加进球数了吗?显然不是.数据背后真正的因果关系是,球队的获胜率和队员的球袜长度都与队员的身高呈正相关,这导致了获胜率与球袜长度之间表现出虚假的相关性.

类似的例子还有很多.统计数据表明,手指越黄的人,得肺癌的概率越大.但事实上,手指的颜色和得肺癌的概率之间显然没有直接的因果联系.那么为什么统计数据会显示出相关性呢?这是因为手指黄和肺癌多是由吸烟造成的,于是又营造出一种虚假的相关性.

读到这里,大家脑子里或许会产生这么一个颠覆性的念头:根据同样的道理,我们又凭什么说吸烟会致癌呢?万一吸烟和肺癌也都是由另外一个东西同时导致的怎么办?

其实,要想知道吸烟与癌症之间究竟是否有因果联系,方法本来很简单:找一群人随机分成两组,规定一组抽烟一组不抽烟,十几年后再把这一拨人找回来,看看是不是抽烟的那一组人患肺癌的更多一些.这个实验方法本身是无可挑剔的,但它太不道德了,因此我们只能考虑用自然观察法,选择一些本来都不吸烟的健康人进行跟踪观察,然后呢,过一段时间这拨人里总会出现一些失意了、堕落了犯上瘾的人,于是随着时间的流逝这自然而然地分成了可供统计观察的两组人.注意,这里“是否吸烟”这一变量并不是通过随机化得来的,它并没有经过人为的干预,而是自然区分出来的.这是一个致命的缺陷!统计结果表明,犯上烟瘾的那些人得肺癌的几率远远高于其他人.这真的能够说明吸烟致癌吗?仔细想想你会发现这当然不能!原因恰似之前提过的例子:完全有可能是因果关系颠倒了,或者某个第三方变量同时对“爱吸烟”和“患肺癌”产生影响.

现实中的统计数据往往会表现出一些更加诡异复杂的反常现在象,带来更多意想不到的麻烦.辛普森悖论是统计学中最有名的悖论:各个局部表现都很好,合起来一看反而更差.统计学在药物实验中的应用相当广泛,每次推出一种新药,我们都需要非常谨慎地进行临床测试.但有时候,药物实验的结果会匪夷所思.假设现在我们有一种可以代替安慰剂的新药,统计数据表明,这种新药的效果并不比安慰剂好.

简单算算就能看出,新药只对40%的人有效,而安慰剂则对50%的人有效.新药按理说应该更好啊,那问题出现在哪里呢?是否因为这种新药对某一类人有副作用?于是研究人员把性别因素考虑进来,将男女分开来统计.

大家不妨实际计算一下:对于男性来说,新药对高达70%的人都有效,而安慰剂则只对60%的人有效;对于女性来说,新药对30%的人都有效,而安慰剂则只对20%的人有效.滑稽的一幕出现了:我们惊奇地发现,新药对男性更加有效,对女性也更加有效,但对整个人类则无效!

这种怪异的事屡见不鲜.曾有一个高中的师弟给我发短信,给了我两所大学的名字,问该填报哪个好.我考虑了各方面的因素,甚至非常认真地帮他查了一下两所大学的男女生比例,并且很细致地将表格精确到了各个院系.然后呢,怪事出现了:A学校的每个院系的女生比例都比B学校的同院系要高,但合起来一看就比B学校的低.当然,进错了大学找不到女朋友是小事,但医药研究需要的是极其精细的统计实验,稍微出点差错的话害死的可就不是一两个人了.

上面的例子再次告诉我们,统计实验的“随机干预”有多么重要.从上面的数据里我们直接看到,这个实验的操作本身就有问题:新药几乎全是女性在用,男性则大都在用安慰剂.被试者的分组根本没有实现完全的随机化,这才导致了如此混乱的统计结果.不难设想,如果每种药物的使用者都是男女各占一半,上述的悖论也就不会产生了.当然,研究人员也并不笨,这么重大的失误一般还是不会发生的.问题很可能出在一些没人注意到的小细节上.比如说,实验的时候用粉色的瓶子装新药,用蓝色的瓶子装安慰剂,然后让被试人从中随机选一个来用,结果呢,女孩子们喜欢粉色,选的都是新药;男的呢则大多选择了蓝瓶子,用的都是安慰剂.最后,200份新药和200份安慰剂正好都发完,因此不到结果出来时,就没有人会注意到这个微小的性别差异所带来的统计失误.

当然,上面这个药物实验的例子并不是真实的,一看就知道那个数据是凑出来方便大家计算的.不过,永远不要以为这种戏剧性的事件不会发生.《致命的药物》-书详细披露了20世纪美国的一次重大药害事件,其原因可以归结到药物实验上去.人们推测,事故发生的原因就与一些类似的统计学现象相关.

这些离奇的统计学现象有时会让人感到恐慌:连统计数字也不可靠了,还有什么能真实地反映这个世界运转的规律呢?

(摘自人民邮电出版社《思考的乐趣:Matrix67数学笔记》 作者:顾森)

括而言之:上述文章是适合不知如何写统计数据和陷阱方面的统计数据专业大学硕士和本科毕业论文以及关于统计数据论文开题报告范文和相关职称论文写作参考文献资料.

提高高等教育事业统计数据质量与价值的路径
摘要教育统计是人们了解教育、认识教育、管理教育的重要渠道 它用数字让我们认识教育的组成和需要;用科学的统计指标体系对高校的办学条件进行客观评估 通过它进行纵横比较,高校可以更好地进行管理 针对目前高校.

2019年书刊印刷企业经济运营统计数据解读
由印工协书刊印刷专业委员会、北京印刷协会和中国人民解放军印刷协会共同编辑整理的2015年全国107家书刊印刷企业完成经济效益统计资料汇编已经于2016年7月发布 该资料汇集的107家会员企业以书刊印刷.

论劳动工资统计数据质量的提高措施
摘要劳动工资统计具有专业性和规范性……特征,是国民经济统计过程中非常重要的组成部分,及时且准确地掌握劳动工资的状况对推动社会发展与了解民生发挥着极为重要的作用 不断提高劳动工资统计数据质量,保障数据的.

企业联网直报环境下提高基层统计数据质量
摘要随着社会主义市场经济的不断发展,对统计信息的需求越来越大,统计信息的质量也越来越高 文章结合近年来乡镇统计工作的实践,对基层统计数据质量提出了几点思考 关键词企业联网直报;基层统计数据质量;思考D.

论文大全