矩阵迹的性质 嗨客科普 | 入门数据科学必懂的矩阵运算知识

矩阵相关的运算是理解数据科学的模型及其算法的关键。本文列举一些矩阵相关的概念、运算规则和矩阵分解的内容。本文为数据嗨客数据科学科普系列文章,更多精彩内容敬请关注数据嗨客hackdata.cn。

01

基本概念

假设 A 为一个 m×n 矩阵,aij表示 A 的第i行第j列的元素。如果矩阵的行数和列数相等,则称之为方阵。如果一个方阵中主对角线上元素均为1而其他元素均为0,则称之为单位矩阵,一般记作 I。

>>>>

矩阵的转置

A 的转置矩阵通常记为 AT,它是一个n × m矩阵,其第j行第i列元素与 A 的第i行第j列元素相等。假设 A 和 B 为两个矩阵,c为常数,则矩阵的转置运算满足以下性质:

矩阵行列式计算性质_矩阵迹的性质_矩阵迹的求导公式证明

>>>>

矩阵的逆

对于n × n方阵 A ,如果存在n × n方阵 B 使得 AB = BA = I ,则称 B 是 A 的逆矩阵。如果矩阵 A 存在逆矩阵,则称 A 为可逆矩阵。逆矩阵满足唯一性的特点,即如果 A 为可逆矩阵,则其逆矩阵唯一。A的逆矩阵也记为 A-1。

矩阵的求逆运算满足以下性质:

矩阵迹的求导公式证明_矩阵迹的性质_矩阵行列式计算性质

>>>>

矩阵的秩

矩阵的秩(rank)是指其行向量(或列向量)中线性无关的向量的最大个数。矩阵 A 的秩通常记为rank(A)。假设 A 是m × n矩阵,则满足 rank(A) ≤ min(m,n)。如果等式成立,即 rank(A) = min(m,n),则称 A 为满秩(full rank)矩阵。

对于n × n方阵 A ,如果 A 是满秩的,当且当 A 是可逆矩阵。 如果 A 不是满秩矩阵,则也称 A 为奇异矩阵。

>>>>

矩阵的迹

n × n方阵 A 中主对角线元素之和,称为矩阵 A 的迹(trace)。矩阵 A 的迹一般记作 tr(A),由定义易知 tr(A) = ∑iaii。假设 A 和 B 均为n × n方阵,c和d为常数,则矩阵的迹满足以下性质:

矩阵迹的性质_矩阵迹的求导公式证明_矩阵行列式计算性质

>>>>

向量范数和矩阵范数

范数(norm)是一个用来对向量或矩阵中元素大小进行度量的数值。常用的向量范数包括1-范数,2-范数和p-范数。假设x为n维列向量矩阵迹的性质,则x的1-范数是指其元素绝对值之和:

矩阵迹的性质_矩阵行列式计算性质_矩阵迹的求导公式证明

向量的2-范数是指向量中所有元素的平方和的平方根,即

矩阵迹的性质_矩阵迹的求导公式证明_矩阵行列式计算性质

向量的p-范数是指元素绝对值的p次方和的1/p次幂,即

矩阵行列式计算性质_矩阵迹的求导公式证明_矩阵迹的性质

常用的矩阵范数包括1-范数,∞-范数和F范数。

矩阵的1-范数是指矩阵列向量元素绝对值之和的最大值,即

矩阵迹的性质_矩阵迹的求导公式证明_矩阵行列式计算性质

矩阵的∞-范数是指矩阵行向量元素绝对值之和的最大值,即

矩阵行列式计算性质_矩阵迹的求导公式证明_矩阵迹的性质

矩阵的F范数又称为Frobenius范数,是指矩阵所有元素的绝对平方和的平方根,即

矩阵迹的求导公式证明_矩阵迹的性质_矩阵行列式计算性质

>>>>

矩阵的正定性

对于n × n方阵 A ,如果对于任意非零向量 w 均满足wTAw> 0矩阵迹的性质,则称 A 为正定矩阵(positive definite matrix)。如果对于任意向量w 均满足wTAw≥ 0,则称 A 为半正定矩阵(positive semidefinite matrix)。

通常我们还可以根据矩阵的特征值来判定矩阵的正定性:

如果矩阵 A 的所有特征值均大于0,则 A 为正定矩阵。

02

矩阵求导

假设 x、w、a和 b为列向量,X、 A 和 B 为矩阵。一些常用的矩阵求导公式如下:

矩阵迹的求导公式证明_矩阵行列式计算性质_矩阵迹的性质

矩阵迹的性质_矩阵行列式计算性质_矩阵迹的求导公式证明

03

矩阵分解

>>>>

特征值分解

假设 A为n × n方阵。A 的特征值(eigenvalue)和对应的特征向量(eigenvector)是指满足

Au= λu

的标量λ以及非零向量u。将 A 的特征值写成对角矩阵Σ,即σii= λi,将对应的特征向量 ui 按列组合成矩阵 U。我们得到

AU = UΣ

如果矩阵 A 包含n个线性无关的特征向量,即 U 为n × n的满秩矩阵。因此U 也为可逆矩阵,则

A = UΣU-1

将n × n的满秩方阵 A 分解成上式的矩阵相乘的过程称为特征值分解(eigenvalue decomposition)。特别地,当 A 为对称方阵时,可以分解成

A = UΣUT

此时 U 为正交矩阵,Σ 为对角矩阵。

A的所有特征值之和等于 A 的迹,即 tr(A) = ∑iλi。将矩阵 X的特征值记为 eig(X),则以下性质成立:

eig(AB) = eig(BA)

>>>>

奇异值分解

特征值分解要求矩阵是方阵,实际中我们遇到的矩阵大部分不是方阵。对于一般的m × n矩阵 A ,我们可以对矩阵 A 作奇异值分解(Singular Value Decomposition,SVD):

A = UΣVT

其中 U 是一个m × m方阵,且满足UUT= I 。U 的列向量通常称为 A 的左奇异向量。V 是一个n × n方阵,且满足VVT= I。V 的列向量通常称为 A 的右奇异向量。Σ 是一个m × n的矩形对角矩阵,其对角线元素 σi 称为矩阵 A 的奇异值。

实际上,奇异值分解与上一小节介绍的特征值分解存在如下对应关系:

U 是由矩阵 AAT的特征向量组成的;

V 是由矩阵 ATA 的特征向量组成的;

矩阵 A 的奇异值的平方既是AAT的特征值,也是ATA的特征值。

上述对应关系可以通过以下两个式子进行说明:

矩阵行列式计算性质_矩阵迹的性质_矩阵迹的求导公式证明

矩阵迹的性质_矩阵行列式计算性质_矩阵迹的求导公式证明

矩阵迹的性质_矩阵行列式计算性质_矩阵迹的求导公式证明

———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99

滚动至顶部