主成分回归与偏最小二乘回归

我一直都觉得主成分回归（Principle Component Regression，PCR）是很奇怪的方法，原因是主成分分析仅仅与自变量有关，为什么用自变量自身的协方差结构做出来的成分（Principle Component，PC）可以去和因变量作回归呢？PCA本身与因变量毫无关系，难道PC就会与Y有很好的关系？

PCR的优点（大家一般都这么说）在于PC是互相独立的，这样的话回归便不会有多重共线性的问题（大家对此感到很高兴），然而这里面潜在的危险就是，万一成分与因变量无关呢？

事实上我的这点疑虑早已经有人写过文章了，Ali S. Hadi和Robert F. Ling（1998）在The American Statistician上发表了一篇关于PCR的警告，文章给出了一个例子，例子的现象就是，前p-1个PC跟因变量一点关系都没有，而最后一个PC解释了因变量所有的变异。奇怪么？不奇怪。作者们也这么说：原因在于PCA仅仅依赖于X，如果非要用PC的方法，那么应该考虑PC对因变量的贡献。

说白了，偏最小二乘回归（PLSR）基本上就是这个问题的答案。

赞赏

作为一名没有固定工作的自由职业者，我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然，捐赠纯属自愿。无论金额多少，都是一片诚挚的心意。支付方式如下：

微信	← 奋力支开它俩 →	支付宝
	其它爱心通道 ↓ Venmo: `@yihui_xie` Zelle: `xie@yihui.name` PayPal: `xie@yihui.name`

若使用 Venmo/Zelle/Paypal，请添加备注“gift”或“donation”，以免捐赠被视为我的可税收入。若使用 Paypal，支付类型请选 Family and Friends，而不要选 Goods and Services。

在不影响生活的前提下，我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考，2024-25 年间我共收到约三万美元捐赠，完税后我转手捐出了一万五千美元。

谢益辉 2008-09-26