许宝騄在多元分析领域的工作
T.W.Anderson
(斯坦福大学)
从1938年到1945年,许宝騄发表了多篇处于多元分析数学理论的发展前沿的论文。可以认为,他是受到了他所接近的当时也在伦敦的大学里的R.A.Fisher的影响。1945年后他在哥伦比亚大学和北卡洛林那大学教授多元分析课程,在那里他训练在这个领域做研究的员工。作为一个训练有素的数学家,许宝騄推动了矩阵理论在统计学中的应用并且证明了有关矩阵的一些新的定理。
多元理论的一个关键要素是样本协方差阵S的分布。如果所有的p维向量都是相互独立的且来自同一个分布,则服从所谓Wishart分布且密度为
(1)
这里A是正定的,是依赖于p阶矩阵∑的常数,n=N-1是“自由度”。对于p=2的情形,Fisher(1915)在他的著名论文中得到了a11,a22以及的分布,这标志着严格推导小样本分布理论的开始。Wishart在1928年的文章用几何方法推导了密度(1),大致说来这个方法是Fisher方法的推广。从Wishart的文章发表后,人们给出了许多其它的证明,其中许宝騄[6]基于代数和分析给出的证明特别优美。为了推导p,n时的密度,许假定了在p-1,n-1时的密度已知。除了这个矩阵及它的密度外,还需要一个p-1维的正态向量和一个n维正态向量。经过一点代数运算,只须推导n维向量模的平方的分布即可完成证明。
Mahalanobis, Bose和Roy(1937)通过把A写成TT'得到了A的分布,这里T是下三角矩阵(tij=0,i<j)。他们从X1, ¼, XN的分布导出了T的p(p+1)/2个元素的分布,这些元素被称为“长方形坐标”。当∑=I时T的非零元素被证明是独立的。T的对角线之外的非零元素具有标准的一元正态分布,而对角线上的第i个非负元素,服从自由度为n-i+1的分布。不同于Mahalanobis,Bose和Roy的更多几何性质的方法,许在[9]中对“长方形坐标”的分布的推导是代数和分析方法。这与他在[6]中推导Wishart分布在方法上有相同的特点。
多元分析中另一个需要推导的基本的分布是某些行列式方程的根的分布。这些分布被许宝騄[7],Fisher(1939),Girshick(1939),Mood(1951)和Roy(1939)各自独立地几乎同时发现,因而意味着这是多元理论的“自然”的发展。(Girshick和Mood的工作本来是打算作为博士论文的内容,但在了解了Fisher和许宝騄的工作后,他们转向了别的题目。关于Fisher和Roy各自独立的工作,Bose(1977)曾有有趣的评论。)对于半正定矩阵A和正定矩阵B,假定是
(2)
的根。若A和B独立且分别服从分布W(∑,m)和W(∑,n),这里m≥p,n≥p,则q1,¼,qp的密度等于一个常数乘以下式
(3)
如果的根是,则.许宝騄作变换,这里Df是以为对角线上元素的对角形矩阵。如果Wij以概率1是正的,则变换是一对一的。推导过程包括:(i)在A和B的密度中用上述表达式代入;(ii) 乘以变换的雅可比式;(iii) 对W的元素进行积分以得到的边缘密度;(iv)最后转换为q1,¼,qp的密度。这个推导过程中的困难之处是雅可比式的计算。事实上,在这篇文章中许宝騄对任意p写出了雅可比式的表达式但只对p=3的情形给出了证明。(对由偏导数组成的12阶方阵给出了显式表达和计算。)
后来,许宝騄找到了一种容易掌握的计算雅可比式的方法并在北卡洛林那大学的课程中讲授。遗憾的是,许一直没有把讲稿成文发表。但是,当时听课的员工们把内容记录了下来。在得到已回到中国的许的同意后,Deemer和Olkin(1951)详细阐述了这些方法和结果,从而使其为人们所应用。许在[7]中也处理了m<p的情形。的根的密度等于一个常数乘以下式
(4)
这里,Anderson(1958)的第13章的阐述是基于许以及Deemer和Olkin的文章。上述密度中的常数因子这里未具体写出。这个常数的值是重要的(例如在计算似然比检验中的矩时),需要认真对待。
在求根的分布时关键之点是Wishart分布是中心的,假设,令
,
则A与B相互独立,B服从中心Wishart分布,而A服从非中心Wishart分布,依赖于, å 和
k-1(Y的秩是1或2时的非中心Wishart分布也被Anderson和Girshick(1944)独立地得到,且打算作为博士论文的内容)。在[11]许讨论了当B有中心Wishart分布而A有非中心Wishart分布时的根。这些随机的根的分布只通过
(5) .
的根依赖于和å. 当时,的精确分布是十分复杂的。许讨论了当时Nt/Ns, t,s=1,¼,k和Y都不变时的渐近问题。这时 和 的元素的联合极限分布是正态分布。如果(5)的根各不相同且都是正的,则Df 或Dq与W的元素经适当正则化后有联合渐近正态分布。
许宝騄还研究了更一般的情形:(5)有重根且有的根可以为0,设(5)的互异的非零根是,分别有重数m1, ¼,于是根0的重数为,令
(6)
(7)
那么,正则化后根的v+1个组按极限分布是相互独立的。对应lh>0的那个组的密度等于一个常数乘以下式
(8)
这里x1>…>xm>0 (m=mh),对应于零根的那个组的密度等于一个常数乘以(4)式,其中p用(5)中零根的重数代换,n用(5)中零根的重数与k-1之和代换(当k-1≥P时)。正如我们将要看到的,对零根的考虑是处理秩的问题时必不可少的。包含多重正根体现了数学上的一般性。处理这种一般性需要很高的创造才能和数学技巧。Anderson(1951)对于Df (或Dq)及同时对W作了相应的处理。
若 和 å有如下分块:
(9) ,
其中A11和å11都是p1阶方阵,A22和å22都是p2阶方阵。样本的典型相关和总体的典型相关分别是下列方程的根
(10)
许在[12]中对于任意重数的根(包括0),找到了正则化样本典型相关的渐近分布。这篇文章是与[11]平行的。
在[10]中,对于检验零假设:m1=…= mk,许研究了Wilks的似然比准则的统计量和Lawley的迹准则的统计量V=trAB-1。他证明了,如果上面定义的NY有极限,则NV+NlogW依概率趋向于0。实际上,这意味着当备择假设以样本量的平方根的倒数的速度接近零假设时,这两个检验的表现是相似的。[14]表明,通过化归成典则形式,上述结论对一般的线性假设的检验也成立。[15]中讨论的问题可以用上面的符号来表达。m1,¼, mk位于p维空间的一l维超平面等价于Y的秩是l或0是(5)的p-l重根。为了检验这个假设,Fisher(1938)建议使用检验统计量(Anderson(1951a)证明似然比检验是基于)。许从[11]导出,Fisher的统计量乘以N后的极限分布是自由度为(p-l)(k-1-l)的c2分布。
比的渐近分布。在[19]和[23]中许将Cramer(1937)的渐近展开理论和Berry(1941)的定理用于比的分布上去。设,,其中所有Yi与所有Xj独立,Y1, ¼, Ym相互独立同分布,共同分布有某阶正的绝对矩,X1, ¼, Xn独立同分布,共同分布与前一分布有同样阶的正的矩。的分布可以写为
(11) .
和经适当正则化后的分布函数均可展开,其误差具有Berry界。利用这两个分布的卷积,许找到了(11)的具有一定误差界的展开式。
序列相关用于检验具有相同正态分布的随机变量X1, ¼, XN的独立性,它可以写成T=Q/S,其中,,通过一个改变尺度的正交变换:(X1, ¼, XN) ®(Y1, ¼, YN),我们可将Q, S写成,。这样,在独立性假设下,每个Yi有分布N(0,1),于是
(12)
若aij依赖于N,则依赖于N。当这些根的序列满足某些条件时,分布(12)在N 无限增大时有一个渐近展式。
作为早期工作[16]的进一步发展,许在[26]中研究了样本量无限增大时函数的极限分布,这里是独立样本的均值向量。利用均值的中心极限定理和函数f(×)的泰勒展开,许得出结论:极限分布为正态分布或正态变量平方的加权和的分布(若线性项的方差趋于0),许利用他的一般结果得到了很多检验统计量特别是多元分析中的统计量的渐近分布。
参考文献
Anderson,T.W.(1951a). Estimating linear restrictions on regression coefficients for multivariate normal distributions. Ann. Math. Statist. 22 327-351.
Anderson,T.W.(1951b). The asymptotic distribution of certain characteristic roots and vectors. Proc. Second Berkeley Symp. Math. Statist. Probability, Univ. California Press. Berkeley and Los Angeles.103-130.
Anderson, T.W. (1958). An Introduction to Multivariate Statistical Analysis. John Wiley and Sons, New York.
Anderson, T.W. and Girshick, M.A. (1944). Some extensions of the Wishart distribution. Ann. Math. Statist. 15, 345-357.
Berry, A.C. (1941). The accuracy of the Gaussian approximation to the sum of independent variates. Trans. Amer. Math. Soc. 49 122-136
Bose, R.C. (1977). Early history of multivariate statistical analysis. J. Mult. Anal. 4 3-22.
Cramer, H. (1937). Random Variables and Probability Distributions, Chap.7 Cambridge Univ. Press.
Deemer, Walter L. And Olkin, Ingram (1951). The Jacobians of certain matrix transformations useful in multivariate analysis. Based on lectures of P.L.Hsu at the University of North Carolina, 1947, Biometrika 38 345-367.
Fisher, R.A. (1915). Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika 10 507-521.
Fisher,R.A.(1938). The statistical utilization of multiple measurements, Ann. Eugen, 8 376-386.
Fisher R.A.(1939). The sampling distribution of some statistics obtained from non-linear equations ann. Eugen. 9 238-249
Girshick, M.A.(1939). On the sampling theory of roots of determinantal equations. Ann. Math. Statist. 10 203-224.
Lawley, D.N. (1938). A generalization of Fisher’s z-tes. Biometrika 30 180-187
Mahalanobis, P.C., Bose R.C. and Roy. S.N. (1937). Normalisation of statistical variates and the use of rectangular co-ordinates in the theory of sampling distributions. Sankhya 3 1-40.
Mood, A.M. (1951). On the distribution of the characteristic roots of normal second-moment matrices Ann. Math. Statist. 22 266-273.
Roy, S.N. (1939). p-statistics or some generalizations in analysis of variance appropriate to multivariate problems, Sankya 4 381-396.
Wishart, John (1928). The generalized product moment distribution in samples from a normal multivariate population. Biometrika 20 32-52
注: 这是美国科学院院士T.W.Anderson的英文论文的中译文(陈家鼎译).原论文“HSU's work in multivariate analysis”载于The Annals of Statistics, 1979, Vol.7, No.3, 474-478