我现在越来越觉得人是很懒惰的动物,尤其是在思考问题上。常常就被一些貌似有理的理由给说服了,而不去认真推敲——这是懒惰的一个方面。前辈们常常给我们探索出很多条路,或是遗留给我们很多物质或精神财富,我们就容易死抱着它们——这是懒惰的另个方面。
这种懒惰,体现在统计里面最明显的就是我们对各种度量指标的信任和依赖(注意这两个词分别对应着前面说的懒惰的两个方面)。举一例说明:
对于数据的概括性度量,我们可以从几种趋势、离散趋势和偏态与峰态这三个方面着手去度量,在离散趋势的度量中,统计学中有一个度量相对离散程度的指标“离散系数”,它是用一组数据的标准差与其相应的平均数之比而得来的,这种度量方法,看似在标准差的基础上进了一大步,前人对它的解释都是称其“消除变量值水平高低和计量单位不同对离散程度测度值的影响”,很动听的解释,也确实有一定的道理,但是我觉得其实这种度量方法也未必能显示出相对离散程度。请看下面的三组数据:

先看一、二两组数据,从右图中直观来看,我个人觉得第二组的离散程度应该比较大,而从计算的离散系数结果可知,第一组数据的相对离散程度几乎是第二组的四倍,与常理似乎不符;如果说这一点有争议的话(因为直观上的离散程度可能有主观判断的问题存在),那么看第一组和第三组数据,很明显,第三组数据只是在第一组的数据上分别都加上了2,按理说,这两组数据的相对离散程度应该是差不太远,可结果是第一组的相对离散程度是第三组的两倍多。
其实我在这里啰嗦一通,本意不在于离散系数本身,动动脑筋,我的观点一样会被打倒。我真正的目的有二:(1)有点怀疑精神,书是应该批判地读的(上学期听老程在讲台上大手一挥:“就算是中央文件,我们也是可以拿来讨论的!”嗯,很不错);(2)对于数据的度量,应该从多个角度进行,我举这个例子,其实也是走了个极端,只用一个指标度量,钻了个空子而已。
赞赏
作为一名没有固定工作的自由职业者,我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然,捐赠纯属自愿。无论金额多少,都是一片诚挚的心意。支付方式如下:
| 微信 | ← 奋力支开它俩 → | 支付宝 |
|---|---|---|
![]() |
其它爱心通道 ↓ Venmo: @yihui_xie Zelle: xie@yihui.name PayPal: xie@yihui.name |
![]() |
若使用 Venmo/Zelle/Paypal,请添加备注“gift”或“donation”,以免捐赠被视为我的可税收入。若使用 Paypal,支付类型请选 Family and Friends,而不要选 Goods and Services。
在不影响生活的前提下,我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考,2024-25 年间我共收到约三万美元捐赠,完税后我转手捐出了一万五千美元。

