矩阵相关的运算是理解数据科学的模型及其算法的关键。本文列举一些矩阵相关的概念、运算规则和矩阵分解的内容。本文为数据嗨客数据科学科普系列文章,更多精彩内容敬请关注数据嗨客hackdata.cn。
01
基本概念
假设 A 为一个 m×n 矩阵,aij表示 A 的第i行第j列的元素。如果矩阵的行数和列数相等,则称之为方阵。如果一个方阵中主对角线上元素均为1而其他元素均为0,则称之为单位矩阵,一般记作 I。
>>>>
矩阵的转置
A 的转置矩阵通常记为 AT,它是一个n × m矩阵,其第j行第i列元素与 A 的第i行第j列元素相等。假设 A 和 B 为两个矩阵,c为常数,则矩阵的转置运算满足以下性质:
>>>>
矩阵的逆
对于n × n方阵 A ,如果存在n × n方阵 B 使得 AB = BA = I ,则称 B 是 A 的逆矩阵。如果矩阵 A 存在逆矩阵,则称 A 为可逆矩阵。逆矩阵满足唯一性的特点,即如果 A 为可逆矩阵,则其逆矩阵唯一。A的逆矩阵也记为 A-1。
矩阵的求逆运算满足以下性质:
>>>>
矩阵的秩
矩阵的秩(rank)是指其行向量(或列向量)中线性无关的向量的最大个数。矩阵 A 的秩通常记为rank(A)。假设 A 是m × n矩阵,则满足 rank(A) ≤ min(m,n)。如果等式成立,即 rank(A) = min(m,n),则称 A 为满秩(full rank)矩阵。
对于n × n方阵 A ,如果 A 是满秩的,当且当 A 是可逆矩阵。 如果 A 不是满秩矩阵,则也称 A 为奇异矩阵。
>>>>
矩阵的迹
n × n方阵 A 中主对角线元素之和,称为矩阵 A 的迹(trace)。矩阵 A 的迹一般记作 tr(A),由定义易知 tr(A) = ∑iaii。假设 A 和 B 均为n × n方阵,c和d为常数,则矩阵的迹满足以下性质:
>>>>
向量范数和矩阵范数
范数(norm)是一个用来对向量或矩阵中元素大小进行度量的数值。常用的向量范数包括1-范数,2-范数和p-范数。假设x为n维列向量矩阵迹的性质,则x的1-范数是指其元素绝对值之和:
向量的2-范数是指向量中所有元素的平方和的平方根,即
向量的p-范数是指元素绝对值的p次方和的1/p次幂,即
常用的矩阵范数包括1-范数,∞-范数和F范数。
矩阵的1-范数是指矩阵列向量元素绝对值之和的最大值,即
矩阵的∞-范数是指矩阵行向量元素绝对值之和的最大值,即
矩阵的F范数又称为Frobenius范数,是指矩阵所有元素的绝对平方和的平方根,即
>>>>
矩阵的正定性
对于n × n方阵 A ,如果对于任意非零向量 w 均满足wTAw> 0矩阵迹的性质,则称 A 为正定矩阵(positive definite matrix)。如果对于任意向量w 均满足wTAw≥ 0,则称 A 为半正定矩阵(positive semidefinite matrix)。
通常我们还可以根据矩阵的特征值来判定矩阵的正定性:
如果矩阵 A 的所有特征值均大于0,则 A 为正定矩阵。
02
矩阵求导
假设 x、w、a和 b为列向量,X、 A 和 B 为矩阵。一些常用的矩阵求导公式如下:
03
矩阵分解
>>>>
特征值分解
假设 A为n × n方阵。A 的特征值(eigenvalue)和对应的特征向量(eigenvector)是指满足
Au= λu
的标量λ以及非零向量u。将 A 的特征值写成对角矩阵Σ,即σii= λi,将对应的特征向量 ui 按列组合成矩阵 U。我们得到
AU = UΣ
如果矩阵 A 包含n个线性无关的特征向量,即 U 为n × n的满秩矩阵。因此U 也为可逆矩阵,则
A = UΣU-1
将n × n的满秩方阵 A 分解成上式的矩阵相乘的过程称为特征值分解(eigenvalue decomposition)。特别地,当 A 为对称方阵时,可以分解成
A = UΣUT
此时 U 为正交矩阵,Σ 为对角矩阵。
A的所有特征值之和等于 A 的迹,即 tr(A) = ∑iλi。将矩阵 X的特征值记为 eig(X),则以下性质成立:
eig(AB) = eig(BA)
>>>>
奇异值分解
特征值分解要求矩阵是方阵,实际中我们遇到的矩阵大部分不是方阵。对于一般的m × n矩阵 A ,我们可以对矩阵 A 作奇异值分解(Singular Value Decomposition,SVD):
A = UΣVT
其中 U 是一个m × m方阵,且满足UUT= I 。U 的列向量通常称为 A 的左奇异向量。V 是一个n × n方阵,且满足VVT= I。V 的列向量通常称为 A 的右奇异向量。Σ 是一个m × n的矩形对角矩阵,其对角线元素 σi 称为矩阵 A 的奇异值。
实际上,奇异值分解与上一小节介绍的特征值分解存在如下对应关系:
U 是由矩阵 AAT的特征向量组成的;
V 是由矩阵 ATA 的特征向量组成的;
矩阵 A 的奇异值的平方既是AAT的特征值,也是ATA的特征值。
上述对应关系可以通过以下两个式子进行说明:
———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99