数据标准化是统计里面常用的手段,这种处理对数据有什么影响呢?这次只是看看减均值除方差的那种标准化方式;最后均值为0方差为1就不用说了;说两点别的性质吧。
- 不改变秩。
- 不改变变量之间的相关系数——无论是Pearson相关系数还是Spearman或Kendall相关系数还是偏相关系数都不会改变。(结论推导很简单也比较有意思,先简单地推出Pearson,由1可推出Spearman和Kendall,由Pearson又可以推出偏相关系数)
由于数据标准化的性质,以下场合使用比较频繁:
- 回归分析中常用这种手段去除截距项。
- 在一些需要加权平均的综合指标排名中,为了消除量纲影响(其实这几乎是标准化的本质用途),也常用标准化数据的方式。
- 为了在图中更清楚地看出若干个变量的相关关系,可以使用标准化的方法(仍然类似于消除量纲影响),让数据处于相近的数量级水平,这样作图会比较直观。
如何进行数据的标准化?
答曰:若使用SPSS,在Descriptives(描述统计)分析中,有一个"Save standardized values as variables"选项,我每次都偷懒,用这种方法计算的;若正儿八经地算,那么就用Compute,套着公式做吧;用Excel输入公式计算当然也可以,用两个函数Average和Stdev,在一个单元格中写好了,bia~ji~往下一拖,就完事了。
今天之所以想起这么个事儿,是因为帮一位博士做论文中的统计分析时,发现了上面的第2条性质,接着用标准化后的数据做了个图。
赞赏
作为一名没有固定工作的自由职业者,我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然,捐赠纯属自愿。无论金额多少,都是一片诚挚的心意。支付方式如下:
| 微信 | ← 奋力支开它俩 → | 支付宝 |
|---|---|---|
![]() |
其它爱心通道 ↓ Venmo: @yihui_xie Zelle: xie@yihui.name PayPal: xie@yihui.name |
![]() |
若使用 Venmo/Zelle/Paypal,请添加备注“gift”或“donation”,以免捐赠被视为我的可税收入。若使用 Paypal,支付类型请选 Family and Friends,而不要选 Goods and Services。
在不影响生活的前提下,我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考,2024-25 年间我共收到约三万美元捐赠,完税后我转手捐出了一万五千美元。

