从论坛上最近的几个帖子来看,貌似相当一部分人的脑子已经被正态分布严重“毒化”了。例如,有人问,若总体不是正态分布能否求均值和标准差(作为描述统计量)?还有人问,新闻标题的字符长度服从什么分布(有意用正态分布),下面回复中也几乎都是正态分布的天下。为什么我们如此教条地对待正态分布?
我猜想,一个致命的原因就是数理统计的理论发展有相当大一部分都是建立在正态分布的根基上,这与实际应用中的统计需求存在明显的矛盾。统计分析并不同于找对象(在心里想好了要相亲的对象的性格、外貌、喜不喜欢猫、是否爱吃辣等“理论框架”之后再赴约),而是带有探索的意味。以我愚见,这可能是John Tukey在"The Future of Data Analysis"一文中强调的重点之一,不幸的是,我们至今仍然把数理统计高高供奉在统计学的神坛上,甘愿成为“正态教”的信徒。
作为实例,下面是数理统计版中100个帖子标题的字符长度,感兴趣的客官不妨琢磨琢磨它的分布:
20 20 13 15 2 11 31 10 12 20 13 56 7 13 19 46 16 19 14 9
20 10 22 13 2 43 11 15 20 14 26 10 19 33 15 15 65 7 16 18
10 32 14 17 14 24 19 60 13 17 27 7 12 7 11 70 50 8 13 8
15 2 20 27 39 7 7 26 21 19 22 8 26 42 8 17 37 17 5 14
21 8 28 18 69 12 23 12 17 14 17 8 20 31 36 25 20 6 6 11
赞赏
作为一名没有固定工作的自由职业者,我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然,捐赠纯属自愿。无论金额多少,都是一片诚挚的心意。支付方式如下:
| 微信 | ← 奋力支开它俩 → | 支付宝 |
|---|---|---|
![]() |
其它爱心通道 ↓ Venmo: @yihui_xie Zelle: xie@yihui.name PayPal: xie@yihui.name |
![]() |
若使用 Venmo/Zelle/Paypal,请添加备注“gift”或“donation”,以免捐赠被视为我的可税收入。若使用 Paypal,支付类型请选 Family and Friends,而不要选 Goods and Services。
在不影响生活的前提下,我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考,2024-25 年间我共收到约三万美元捐赠,完税后我转手捐出了一万五千美元。

