很多人可能都觉得描述统计简单,就是加加减减算算平均值啥的。可是问题到了多元的环境下就大不一样了,一个严重的问题就是排序,由此导致最小值、最大值、中位数等统计量都不好定义。就拿二维变量来说,怎样确定散点图中的某个点是数据的中位数?或者更通俗地讲,谁是数据的中心?一维的时候没什么争议,从最小到最大数过去,中间位置那个就是中位数。
这个题目已经有些年代了,25年前一个叫Oja的家伙讨论过了这个问题,并定义了多元情况下的统计量。最近两天R-help上面正在讨论Oja中位数,直到今天早上,有个Dortmund的家伙宣布他要写一个函数包了。
相关论文:
- Computation of the multivariate Oja median(只是草稿,非正式论文)
- Multivariate analysis by data depth: descriptive statistics, graphics and inference, (with discussion and a rejoinder by Liu and Singh)
赞赏
作为一名没有固定工作的自由职业者,我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然,捐赠纯属自愿。无论金额多少,都是一片诚挚的心意。支付方式如下:
| 微信 | ← 奋力支开它俩 → | 支付宝 |
|---|---|---|
![]() |
其它爱心通道 ↓ Venmo: @yihui_xie Zelle: xie@yihui.name PayPal: xie@yihui.name |
![]() |
若使用 Venmo/Zelle/Paypal,请添加备注“gift”或“donation”,以免捐赠被视为我的可税收入。若使用 Paypal,支付类型请选 Family and Friends,而不要选 Goods and Services。
在不影响生活的前提下,我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考,2024-25 年间我共收到约三万美元捐赠,完税后我转手捐出了一万五千美元。

