研究生的统计模型课

说实在的，我对这课意见比较大。过了一周了，今天抽点时间写写吧。上周是第一次去听课，见到了传说中的田茂再老师，果然又是一位有个性的“嗔”人。据传说，此人曾经在香港用概率论知识助人赌马，收效如何就不得而知了。我猜这位老师当年一定是数学学太多了，形象思维太强，他在思考“八点到九点半”这样一个时间概念时居然用粉笔在黑板上画起时钟在那儿绕圈儿，我不禁佩服得五体投地。（形象思维的特点，在老杜和黄向阳老师讲课过程中也可以观察出，只不过没有田老师这样强烈，那二位顶多是在思考矩阵时想象着n行m列，而他居然连思考时间段都要画个钟）

言归正传。我看了看这门课用的教材，目录如下：

I. Density Smoothing

Histogram

Kernel Density Estimation

Further Density Estimation

Bandwidth Selection in Practice

II. Regression Smoothing

Nonparametric Regression

Bandwidth Selection

Simutaneous Error Bar

整个课程基本就是讲光滑方法（非参数理论），与我想象的统计模型课差远了。我时常怀疑，对光滑方法这么深入的研究在统计上究竟有多大意义。就拿我去听的这堂课来说，关于直方图（Histogram）的带宽h的选择（Bandwidth Selection），从数学推导上得出这个带宽（它直接关系到密度函数的求得）与两个因素有关：一是样本量n，二是密度函数的导函数 $f'$ 。我们按照黄向阳老师一贯的“看什么都不对”的眼光来审视这两个结论：

一、关于样本量：废话，有脑子的人想想就知道，样本量越大，带宽当然就可以选得越宽。

二、关于密度函数的导函数：更废话，要是都已经知道了密度函数的导函数那还要推导密度函数干嘛？这不扯的么？典型的本末倒置啊。于是有人发明了所谓的Plug-in方法来弥补这点缺憾，我想问，难道你心里不觉得悬乎么？你咋知道正态分布与未知的总体分布相近呢？这不又是扯的么？

三、我们在推导密度函数时，最后得出的结论竟然是要用自己推导自己，绕了个大圈，沿途观赏了伟大的Taylor展开、伟大的高阶无穷小、伟大的MSE、伟大的依分布收敛、伟大的XXX……最后还是绕回自个儿家了。从这个意义上讲，阿基米德说给他一根棍子他就能撬动地球，那我也可以，只要你给我一根能撬动地球的棍子就可以了（撬不动的话我就怪棍子，怪你给我的棍子不能撬动地球）。

唉，统计模型，多好的课啊，无限广阔的统计新天地，干嘛不讲讲SEM、PPR、Resampling、MCMC、Bootstrap、Neural Networks……若有幸田sir能看见我的啰嗦，也请提提批评意见。

另：这门课上认识了冯伟广的师兄孟鹏辉，嗯，算是一大收获。

赞赏

作为一名没有固定工作的自由职业者，我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然，捐赠纯属自愿。无论金额多少，都是一片诚挚的心意。支付方式如下：

微信	← 奋力支开它俩 →	支付宝
	其它爱心通道 ↓ Venmo: `@yihui_xie` Zelle: `xie@yihui.name` PayPal: `xie@yihui.name`

若使用 Venmo/Zelle/Paypal，请添加备注“gift”或“donation”，以免捐赠被视为我的可税收入。若使用 Paypal，支付类型请选 Family and Friends，而不要选 Goods and Services。

在不影响生活的前提下，我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考，2024-25 年间我共收到约三万美元捐赠，完税后我转手捐出了一万五千美元。

谢益辉 2006-03-20