Tag Archives: 统计

你是谁?

看了一下这个月的访问量统计。
北京——46
济南——26
深圳——19
上海——12
杭州——9
哈尔滨——8
广州——8
武汉——7
西安——6
南京——5
来自北京的点击奇怪的高,应该不只是搜索引擎吧?是哪位熟人呢?

简单概率题

摘录自实验设计和解释的注意事项,作者为Peter Norvig
40岁的女性得乳腺癌的几率为1%。乳腺癌患者中的80%在乳房X光扫描中会被确诊。另外9.6%的非乳腺癌患者在X光扫描中也会被判为乳腺癌。一个40岁女人在例行乳房X光扫描中被诊断出乳腺癌,她实际得乳腺癌的几率有多大?
只有大约15%的医生能答对这个问题。大部分医生估算的几率为70%到80%之间,而正确答案为7.8%。
假设有1000个40岁女人,1%,也就是10人是乳腺癌患者。其中80%,也就是8人会被X光确诊。那剩下的990个女人呢?她们中的9.6%,也就是95人,也会被X光诊断为乳腺癌。所以总共会有95+8 = 103个(忧心忡忡的)女人被X光诊断为乳腺癌,实际其中只有8个人确实是乳腺癌患者。8/103 = 7.8%

柏拉之图

QC七大手法中有一式在我们这里叫柏拉图。我不知道为什么要叫它“柏拉图”,它和古希腊的那个哲学老头子一点关系都没有,而是和一个意大利的社会经济学老头子有关系。这个人叫Vilfredo Pareto (1848-1923),读起来确实和柏拉图有点像。不过也许叫佩瑞多图比较好吧。

上课时老师讲,图是这样做的:水平轴表示分类,垂直主轴表示总不良数,垂直次轴表示累计不良率。不良数和累计不良率是对应的,条形图的长条之间不可有间距,因此就得到下面这样的图:

这个图是Minitab生成的默认格式,看上去中规中矩,不过:

这个图的不良分布不是很接近80/20的那种,所以导致每个分类都很矮,对比不是很明显。数据展示的一个基本常识是,将数据升降变化的斜度设置到45度左右,这样会比较取悦人眼。对于柏拉图这种展示变化的图来说,斜度当然大一些好。
如果不良分布很接近80/20原则,那么条形图的前两项会很高,由于累计百分比的起点和条形图第一项等高,累计百分比的那条线就会很平,还是不好看。

Excel生成的还比较好看一点,斜度是可以自己控制的(MiniTab好像不可以)。不过又有人会说这个图不标准了。

下面是我见过的一些柏拉图,是出现在一些质量书籍和网上的,根据老师的说法,这些就算不都是错的,也算是很不标准的了。

总结一下:

没人规定柏拉图一定要怎样画。
有些柏拉图省略了累计不良率的那条曲线,这样图形更加一目了然。
横向的条形图会让图形显得更加不平衡,可以加强人对主要缺点的印象。
人家说“一图胜千言”,我说如果把图简化一半,就相当于精简了500字。越简单越好。
不同的内容适合不同的表达方式,需要具体对待,而不是拿着一个格式到处去套用。
如果柏拉图的数据离80/20比较远,则需考虑更合适的分类方法,或者干脆考虑换个主题……

为什么美丽的人更聪明

Why beautiful people are more intelligent
by Satoshi Kanazawaa,*, Jody L. Kovarb
www.sciencedirect.com
摘要
1. 这个结论基于四个假设:
1) 头脑聪明的男人更容易成就事业
2) 事业有成的男人更容易得到美丽的女子
3) 聪明是可遗传的
4) 美丽是可遗传的
2. 关于美丽:
1) 人对美丽的认识是与生俱来的, 与社会的关系不大
2) 美丽不完全是皮肤那么深. 美同时代表着健康
3. 古今对比
远古人类中, 个高体壮者更易获得支配地位. 今人亦倾向于认为个高体壮者更易成功, 而个高体壮者确实也更易成功.
4. 省略掉的假设(没必要了):
1) 美的男人更容易成就事业
2) 聪明的女人更容易成就事业
3) 孩子从父亲继承美
4) 孩子从母亲集继承聪明
5. 证据(略)
6. 讨论
假设1. 有进取心的男人更容易事业有成
假设2. 事业有成的男人更容易获得美丽的女子
假设3. 有进取心可遗传
假设4. 美丽可遗传
推论: 美丽的人更有进取心
人类进化的过程, 是人类作为一个群体, 越来越聪明, 越来越美丽的过程, 优质的基因会保留下来, 不受欢迎的基因被逐渐淘汰. 没有个体差异就没有进化. 本文的结论是大规模统计意义上的, 实际中美貌和聪明会被很多其他因素中和掉, 因此也只有进化, 而没有分化.
这样的文章, 像我这种不聪明也不美丽的人看了自然不爽, 于是打算写东西反驳, 写了十多行后发现自己在强词夺理, 于是放弃了. 就算到郑渊洁童话中铁门后面的那个世界里, 骷髅人们还是会去比较谁的骨头更好看.

TED笔记——Peter Donnelly

上周TED放了Peter Donnelly的演讲,其中讲到一个例子:抛硬币时哪个结果更容易得到,是”正-反-正”还是”正-反-反”?
答案出乎大多数人意料:后者”正-反-反”更容易得到。Donnelly说”正-反-正”平均抛10次硬币就可以获得一次,而”正-反-反”需要8次就可以获得一次。
Donnelly讲,不一样的地方在于”正-反-正”是一个自我交迭序列。
通俗的讲,如果你投”正-反-正”,当你最后一次投错,投到”正-反-反”时,你要寄希望于第四次从”正”开始,至少再来三次才可能得到”正-反-正”。
而如果你投”正-反-反”最后一次投错,得到”正-反-正”时,你只要寄希望于后两次得到”反-反”,也就是说,至少需要再来两次就可以得到”正-反-反”。
Donnelly讲得其实还生动一些。有兴趣的可以去TED下载他的演讲。
偶还写了一个死算的Python小程序来做验证,当测试5000次平均值时,答案已经相当接近Donnelly的结果了。
这个故事告诉我们,学习统计学是多么重要啊。也许有时候彩票预测不全是胡扯呢。