网站导航

产品说明

产品说明
正规矩阵有哪些特色? 时间:2026-01-25 21:27:51

  

正规矩阵有哪些特色?

  在研究特征值问题时,“能否对角化”至关重要:对角化意味着矩阵结构变得清晰明了,计算与理解都随之变得简单。本文沿着这一主线,从实对称与埃尔米特矩阵出发,借助舒尔分解,把视野推向更广阔的“正规矩阵”。它们不仅都能通过酉相似被对角化,而且特征向量可选成标准正交基,从而得到清晰的谱分解与正交投影解释;也正是在这里,代数结构与几何直观,以及“最佳逼近”的最优化意义自然汇合。阅读本文,你将看到正规矩阵为何格外“规整”,又为何在理论与应用中如此重要。

  撰文 朱慧坚(广州南方学院数学与统计学院副教授)、丁玖(广州南方学院数学与统计学院教授)

  我们在《返朴》上刊登的关于矩阵理论的系列文章中,上一篇《如何理解矩阵的特征值问题?》讨论了一般方阵的特征值问题,并区分了两大类矩 阵,即可对角化类和不可对角化类。刻画第一类矩阵的一个准则是所有特征值都是半单的,换句话说所有特征值的代数重数(特征多项式线性因子的幂指数)等于几何重数(特征子空间的维数),第二类的矩阵就缺乏这一性质,或言之至少一个特征值的几何重数小于代数重数。

  作为欧几里得空间??迈进复数域的直接推广,所有分量为复数的?维向量全体,按照通常的向量加法和数乘这两个代数运算,以及向量之间所谓的“埃尔米特内积”,组成了酉空间??。我们在上文中证明了,?阶可对角化矩阵?存在?个线,… , ?? ∈ ??,它们构成??的一个基底。如果以这些向量为列定义?阶方阵

  那么?? = ??,其中?是一个对角矩阵,其对角元素为?的?个特征值(可以重复;断言“?恰有?个特征值”是代数学最重要原理之一“代数基本定理”的直接产物)。由于?是可逆矩阵,上面的矩阵乘积等式可改写成? = ???−1,即?相似于?。这就是术语“可对角化”的含义所在。正因为对角矩阵是结构最简单的矩阵(零矩阵和单位矩阵是它们的特例),而?不仅与?共享所有的特征值,而且也继承了这些特征值的代数重数和几何重数,寻找方阵的可对角化条件很有实用价值。

  由于矩阵的相似关系和三角形的相似关系一样都是等价关系,即此种二元关系具有自反性、对称性和传递性,因此阶数是固定正整数?的所有矩阵,根据它们之间是否存在相似关系,被划分为互不相交的“相似类”:同一类中的全体矩阵之间彼此都相似,而属于不同类的任意两个矩阵之间与相似无缘。这样一看,如果一个相似类中的矩阵是可对角化的,那么该类中的所有对角矩阵都可视为这一类矩阵成员的“杰出代表”,它们的对角元素都是?个相异固定常数的不同?-排列,其中每个常数出现的次数等于它作为特征值的重数。所以其中每一个对角矩阵都有资格被称为类中矩阵的“标准型”。

  看看人类成员之间的朋友关系,就不及矩阵的相似关系那么严谨完备。现实中的朋友关系符合“等价关系”三要素中的前两条:自反性——自己当然是自己的朋友;对称性——张三和李四是朋友也意味着李四和张三是朋友。但是第三条传递性就无法保证了:即便张三和李四是朋友,李四又是王五的朋友,也不能确保张三和王五也是哥们,说不定他们反而是“老死不相往来”的宿敌呢!事实上,倘若朋友关系是个等价关系,那么社会就会被划分成无数个封闭的小圈子,这就大大减少了人际关系的丰富性和复杂性。从这里也可领会为何 “数学比人生容易多了”这一颠扑不破的真理。

  正是由于对角矩阵提供了可对角化矩阵的最简形式,我们很自然地想知道哪些矩阵可以对角化。本文旨在开启一趟探寻之旅,带你领略可对角化矩阵的数学之美。

  物理巨擘杨振宁先生近期以 103 岁高寿仙逝,留给世人无尽的缅怀。在他浩如烟海的著述与演讲中,始终强调对“对称之美”的执着追求。“对称”也给数学家带来了无尽的愉悦和遐想。以此为引,我们将目光投向实对称矩阵。

  实对称矩阵,顾名思义,就是其中元素都是实数并且关于主对角线对称的方阵。更精确地说,一个?阶实矩阵? = (???),如果对所有的行和列指标?和?,都满足??? = ???,则称它为实对称矩阵。用矩阵转置的符号来表示,就是满足?? = ?的实矩阵。实对称矩阵有一个优美的性质:其特征值总是实数。

  先作几点说明。我们假设读者已经读过前篇《如何理解矩阵的特征值问题?》,对基本概念有所了解。本文约定:为了适配矩阵乘法规则,除非特别说明,文中所有向量默认为列向量。在酉空间??中,两个复向量? = (x1, … , ??)和? = (y1, … , ??)的埃尔米特内积定义为复数

  ,若用矩阵乘法表示,可以写成???,其中的上标?意指“共轭转置”,它是两种可交换运算的复合:先对向量的各分量取共轭,然后进行转置。一般矩阵的转置运算对乘法满足“逆序律”,即(??)?= ????,由此推出对共轭转置同样满足(??)?=????。

  数学家之所以采用大写字母?表示共轭转置,是为了纪念法国数学家埃尔米特(Charles Hermite,1822-1901)。他对矩阵二次型理论贡献卓著,由其姓氏派生的形容词 Hermitian(埃尔米特的)已成为矩阵理论的常用术语。在上篇文章里我们用星号∗代替了?,它们在各类线性代数教材中都很常见,本质含义相同。但前者主要用于研究“无限维线性算子”的学科泛函分析,是内积空间“共轭算子”的通用符号。在酉空间??中,由埃尔米特内积诱导出的埃尔米特范数(也叫2-范数)被定义为

  ;它是欧几里得空间??中欧几里得范数概念的自然推广。除非?是零向量,否则总有‖?‖ 0。

  二维平面或三维空间中通常的向量垂直概念,不仅可以直接推广到欧几里得空间,也同样可以延伸到酉空间。若??中的两个向量?和?的埃尔米特内积等于零,则称它们相互正交,写成? ⊥ ?。对于??内的任意子集?,它在??中的正交补定义为??里所有与?内每个向量都正交的向量集合,记为?⊥。正交补?⊥是??的子空间,且若?是??的一个子空间,则??是?和?⊥的直和。这意味着,??中的任意向量均可唯一分解成?中的一个向量和?⊥中的一个向量之和。

  现在令?为?阶实对称矩阵?的一个位于复数域内的特征值,且非零向量? ∈ ??为对应于?的一个特征向量。对等式?? = λ?两端左乘??,得???? = λ???。两边同除以正数???,便有

  这是一个用特征向量表达特征值的美丽公式,式中的分子叫?的二次型,如此称谓是因为将它展开乘出后,结果是?个自变量x1, … , ??的二次多项式函数;分母则是向量?的埃尔米特范数的平方。实对称矩阵二次型与特征值密切相关,可用于探讨诸如正定矩阵、半正定矩阵这样的特殊矩阵,这些关系和性质在最优化理论中有着基本的意义。我们会在以后详细介绍。

  因为矩阵?是实对称的,由?? = ?推出(????)?= ????? = ????,即复数????的共轭复数等于它本身,故????只能是实数,它和正实数???的商——特征值?必须是实数。既然实对称矩阵的所有特征值均为实数,它们对应的特征向量可以取为实向量;因为决定相关特征向量的那些齐次线性方程组的系数全是实数,因而解也是实数。所以我们完全可以放下包袱,而不必多此一举地跳出实数框架,去探究复数迷宫。诚然,如果我们硬要在复数域里找出所有的复特征向量,增加的计算工作量也是微乎其微的:只需选取同一个特征值对应的两个实特征向量?和?,通过? + i?的形式,就能直接构造出对应的复特征向量。

  如果细心回味对“实对称矩阵的特征值必为实数”的如上证明,就会发现它其实不仅适用于实对称矩阵,只要复矩阵满足?? = A,上述推理过程依然完全适用。我们将满足?? = ?的矩阵称为埃尔米特矩阵。埃尔米特在 1855年证明此类矩阵总是具有实特征值。他不仅在数论、椭圆函数、不变量理论、正交多项式等领域耕耘不辍,在培养人才方面也有一套,他在巴黎综合理工学院教过的最有名的学生是庞加莱(Jules Henri Poincaré,1854-1912),后者成为了那个时代公认的数学领袖。

  我们知道,埃尔米特矩阵对应于不同特征值的特征向量是线性无关的(证明详见《如何理解矩阵的特征值问题?》)。除此之外,它是否还有更加优美的性质?答案是肯定的,那便是“正交性”。设?和?是埃尔米特矩阵?的两个相异特征值,其各自对应的特征向量为?和?。分别用??和??左乘矩阵等式?? = ??和?? = ??的两端,得数值等式

  从几何上来看,平面上或空间里的两个非零向量之间的夹角只要不是0度(即方向相同)或180度(即方向相反),则它们是线性无关的。直观上可以想象,若两个向量的方向几乎相同(即它们之间的夹角几乎为零)或几乎相反(即它们之间的夹角几乎是平角),则它们几乎是线性相关的(在实际应用计算中,由于舍入误差的影响,甚至可以认为它们已经是数值线性相关了)。在酉空间里,两个向量之间“夹角”的余弦等于它们的埃尔米特内积之实部除以它们的埃尔米特范数之积(这由柯西-施瓦茨不等式保证)。如上的几何直观催化出如下的思想:向量之间的夹角可以作为“线性无关(或相关)程度”的一个量化指标,即夹角越靠近零度或180度,则它们之间的“线性无关度”就越低。如果它们之间相互正交,即夹角为90度,则可以推测它们“最线性无关”,线度的两个向量。下面我们证明:如果一组非零向量两两正交,则它们一定是线性无关的。这个事实说明正交性强于线,… , ??为??中的彼此正交的非零向量。若对?个复数a1,… , ??,有等式

  现在,我们准备攻克本文面临的第一个坚固堡垒:埃尔米特矩阵的每个特征值是否是半单的? 想要拿下它,所需的“攻坚利器”是“上三角化定理”。这一结果对一般的复矩阵同样适用,由俄罗斯数学家舒尔(Issai Schur,1875- 1941)发现。舒尔一生几乎都在德国学习与任教,研究领域包括群表示论(以通常所称的“舒尔引理”为人熟知)、数论与组合数学。他最广为人知的结果是下面的“舒尔矩阵分解定理”;因为它在本文中仅被用来证明其他结果,我们只好以引理称之:

  引理. 设?为一复方阵。则存在一满足条件??? = I的同阶矩阵?,使得????为一上三角矩阵。

  其中?是单位矩阵,??? = ?的几何意义是“方阵?的所有不同列两两正 交,并且每列的埃尔米特范数等于1”。满足如此要求的复矩阵称为酉矩阵,如果?同时也是实矩阵,则被更直观地叫做正交矩阵。所谓的上三角矩阵指的是这种方阵,它位于主对角线下方(即行指标大于列指标)的元素全为零。由特征方程的定义可见,上三角矩阵(下三角矩阵同理)的所有特征值,若按代数重数重复排列,恰好就是其主对角线上的所有元素。注意:虽然上(下)三角矩阵的特征值唾手可得,它们却不一定是半单的,《如何理解矩阵的特征值问题?》中列举的那个2阶上三角矩阵(对角元素均为0、右上角元素等于1)就是一个反例。

  酉矩阵的定义告诉我们,上面引理中的酉矩阵?是可逆矩阵,且逆矩阵就等于它的共轭转置:?−1 = ??。所以该引理等于是说:任何复方阵都酉相似于某个上三角矩阵。需要注意的是,只有所有特征值均为半单的方阵才能相似于一个对角矩阵;但一般而言,大多数普通方阵通常无法对角化,充其量只能相似到上三角矩阵。这里的关键在于,所使用的变换矩阵可不是一般的非奇异矩阵,而是性质更为特殊的酉矩阵。

  可以用数学归纳法证明舒尔的分解定理,第一步先证引理对1阶矩阵为真(这是显然成立的,因为此时?已经是上三角矩阵了,就取?为1阶单位矩阵,即数1)。第二步,首先假设引理对所有? − 1阶矩阵为真,然后证明它对?阶矩阵也为真。然而,相较于对一般自然数?的证明,证明? = 3的特例更为直接明了。后者不仅过程干脆利落,更重要的是能一目了然地揭示证明的思想,有助于直观把握定理的本质。

  为任一3阶复矩阵。在《如何理解矩阵的特征值问题?》中,我们根据代数基本定理证明了?总共有三个复特征值(重数包括在内),记其中之一为?,以?为它所对应的一个特征向量,并已被标准化,即它的埃尔米特范数等于1。想象一下我们身处的三维欧几里得空间?3,正如?-轴垂直于??-平面一样,在三维酉空间?3中,由?张成的一维子空间 span{?} = {??? ∈ ?}(几何上是三维复空间里经过原点沿着?方向的一条直线)的正交补空间{?}⊥ = {? ∈ ?3??? = 0},是一个二维的子空间(几何意义是三维复空间里经过原点的一个平面)。在这个平面内有两个彼此正交且埃尔米特范数都等于1的向量,分别记作?和?。这样,{?, ?, ?}成为?3的一组标准正交基。以基向量?, ?, ?为列构造的3阶复矩阵? = [?,?,?]是一个酉矩阵,即??? = I3,其中I3是3阶单位矩阵。

  回到?阶埃尔米特矩阵?的特征值问题。由上述引理,存在同阶的酉矩阵?,使得????为上三角矩阵。然而从(????)?= ????? = ????,我们知道上三角矩阵????也是埃尔米特矩阵,基于两个简单事实:“上三角矩阵的转置是下三角矩阵”和“同时为上三角和下三角的矩阵只能是对角矩阵”,推出????是个对角矩阵,记作?,其对角元素为?的全部(计入了代数重数的)特征值?1, … , ??。

  将???? = ?改写成等价形式?? = ??,便知对于? = 1, … , ?,酉矩阵?的第?列是?对应于特征值??标准化了的特征向量。既然这?个特征向量相互正交,它们也是线性无关的,故我们终于建立了如下的结论:

  推论. 设?1, … , ??为埃尔米特矩阵?的所有不相同的特征值,则?酉相似于有?个对角块的块对角矩阵?;对? = 1, … , ?,?的第?个对角块是?????,其中??是?第 j个特征值??所对应的特征子空间?(??? − ?)的维数,即??的几何重数(同时也是??的代数重数)。

  到目前为止,我们已经攻下“哪类矩阵可以对角化”的第一关。既然埃尔米特矩阵能酉相似于对角矩阵,我们肯定会对在其中扮演了关键角色的酉矩阵产生好奇:酉矩阵本身是否也能“酉相似于”对角矩阵呢?或许会有读者惊 奇,回答是肯定的。

  设?为一?阶酉矩阵。之前的引理告诉我们,存在一个酉矩阵?使得????为一上三角矩阵,令其为?。则? = ????,故

  根据假设,??? = ?,所以?????? = ?,对此等式两端左乘??和右乘?推出

  上式表明上三角矩阵?遗传了酉矩阵?的“酉性”。结论只能是这个上三角矩阵一定是对角矩阵。为免繁琐,我们不打算给出这一断言的一般性证明。但是如下的3阶例子足以令人信服,并能勾勒出对一般情形的论证途径。假定?是3阶上三角矩阵

  命题 4. 任一酉矩阵酉相似于一个对角矩阵,其特征值位于复平面的单位圆上。

  根据逆矩阵的理论(参见之前文章《从反函数的观点看逆矩阵》),?阶酉矩阵?的定义条件??? = ?,即?的?个列组成??的标准正交基,隐含??? = ?,即?的?个行也组成??的标准正交基。故对酉矩阵?而言,有双重等式??? = ??? =?。如果去掉其中的后一个等式,就会引出更广的一类矩阵。

  如果?是一埃尔米特矩阵,则??? = ?2 = ???,从而它也是个正规矩阵。此外,如上所言,酉矩阵集合也构成了所有正规矩阵全体的一个子集。运用强大的舒尔分解定理,我们可以用与处理酉矩阵时几乎同样的技术,证明“正规矩阵酉相似于对角矩阵”:

  设?阶复矩阵?满足等式??? = ???。如前所述,令?为一?阶酉矩阵,使得? ≜ ????为一上三角矩阵。因为? = ????,故有

  即上三角矩阵?继承了正规矩阵?的“正规性”。利用与之前一样的方法,就能推出这个上三角矩阵确实也是对角矩阵。我们依旧只对3阶矩阵证明这点,为此令

  比较这两个相等矩阵表达式右端的对应元素,显然有? = ? = ? = 0,从而?是一个对角矩阵。对一般?阶正规矩阵的证明如法炮制。

  定理 1. 任给?阶正规矩阵?,存在同阶酉矩阵?,使得????是一个复对角矩阵,其对角元素为?计入了重数后的所有特征值,且?的各列均为这些特征值各自所对应的特征向量,它们组成了酉空间??的一个标准正交基。特别地,

  (i)任何埃尔米特矩阵均酉相似于一个实对角矩阵;若限制在实数域内,则所有实对称矩阵正交相似于某个实对角矩阵;

  我们提请读者注意,虽然实对称矩阵可以正交相似于实对角矩阵,因而完全可以一劳永逸地在实数范围内讨论此类矩阵的特征值问题,然而,一般的正交矩阵却没有这个福气。比如,考虑平面上围绕原点逆时针转动?角度的旋转矩阵

  知,?有单特征值−1,以?为一相关特征向量。?的重数为? − 1的特征值是1,与之对应的? − 1个相互正交的特征向量取自?在??中的正交补空间{?}⊥。

  那么,何时一个正交矩阵可以正交相似于一个实对角矩阵?答案是:正交矩阵正交相似于一个实对角矩阵当且仅当它是对称的。如果正交矩阵是对称的,则根据命题 1,它的特征值均为实数,定理 1(ii)保证了它酉相似于一个实对角矩阵,但此时酉矩阵实际上可取为实矩阵,这是因为所有特征向量满足的齐次线性方程组的系数都是实数。故该对称正交矩阵正交相似于一个实对角矩阵。反过来,设正交矩阵?正交相似于一个实对角矩阵?,这意味着存在一个正交矩阵?满足? = ????。两边施加矩阵转置运算,运用矩阵乘积的转置等于因子矩阵转置后反序相乘的性质,得到

  在定理 1 的叙述中,与给定正规矩阵酉相似的对角矩阵,它的对角线元素可以是所有依重数而重复的特征值的任意排列。现在,我们约定一个新的排列,它看上去最美观、最整齐,就是将个数等于重数的相同特征值放在一起。在这样的规则下,令?阶正规矩阵?的所有不相同的特征值为?1, … , ??,并对? =1, … , ?,设??的代数重数和几何重数为??。则将定理 1 中与?酉相似的对角矩阵的对角线元素从左上角到右下角依次排列为:?1个?1、?2个?2,……,??个??。然后令?1为一?行?1列矩阵,它的所有列是对应于?的特征值?1的相互正交且埃尔米特范数为1的特征向量、?2为一?行?2列矩阵,它的所有列是对应于?的特征值?2的相互正交且埃尔米特范数为1的特征向量、……、??为一?行??列矩阵,它的所有列是对应于?的特征值??的相互正交且埃尔米特范数为1的特征向量。将这些“体型瘦高”的矩阵放在一起,组成一个以分块矩阵形式写成的?阶酉矩阵

  然后,定理 1 就可更加丰富地以下方“正规矩阵谱分解定理”的面貌出现,其详细的表述如下:

  定理 1′. 设?为一?阶正规矩阵,则?可对角化。更详细地说,若令?1, … , ??为?的全部相异特征值,它们的几何重数分别为?1, … , ??,则存在分块形式为(2)的酉矩阵?,其中对? = 1, … , ?,第?块??的所有列组成特征子空间?(??? −?)的一个标准正交基,以及对角矩阵?,使得如下谱分解等式成立:

  上述正规矩阵谱分解式(3)中的每一个矩阵?????与我们在之前文章《从线性算子的角度看广义逆矩阵》中引进的正交投影发生了联系。首先,这是一个投影矩阵,因为(??(??)?)2=??(??)???(??)?=??(??)?,且又由于(??(??) ? )?= ??(??)?,即它是埃尔米特矩阵,??(??)?是将酉空间??映射到??的值空间(即与半单特征值??相关的特征子空间?(??? − ?))上的正交投影算子。对每一个? = 1, … , ?,将??(??)?记作??,则当? ≠ ?时有???? = 0,并且

  而(3)式的解说词便是:正规矩阵?是从酉空间到?的特征子空间上的所有正交投影矩阵以相关特征值为系数的“加权和”。

  由正交投影的几何意义,对??中的任一向量?,投影之后的结果???在所有对应于??的特征向量中,在??的埃尔米特范数下,和?相距最近。除了可酉对角化这一特色外,如此的最优性质赋予了正规矩阵的第二特色。

  然而,如果我们仔细反刍关于正规矩阵的上述“谱分解公式”(3),就会发现,性质“可酉对角化”并非是这个分解式为真的必要条件。只要矩阵是可对角化的,这种分解就能冒出,只不过除非能借助酉矩阵完成将其“对角化”的使命,分解公式(3)中的投影算子只能是“斜角投影”而非“直角投影”,因而就与“最佳逼近”失之交臂了。作为这篇文章的结尾,我们列出更一般的谱分解定理,相信读懂此文后愿意动手的读者能写下证明的大意:

  可对角化矩阵谱分解定理. 设?为一?阶可对角化复矩阵。若令?1, … , ??为?的全部相异特征值,它们的重数分别为?1, … , ??,则存在一个非奇异矩阵

  其中对? = 1, … , ?,第?块??的所有列组成特征子空间?(??? − ?)的一个基底,以及对角矩阵?,使得如下谱分解等式成立:

  ? = 1, … , ?。故?????的平方等于?????,换言之?????是个映射到对应特征子空间上的投影矩阵,但一般不是正交投影。