OLS 系数:在线性模型 y=Xβ+ε(含截距可把 1 列并入 X)下,最小二乘解为
β^=(XTX)−1XTy,
前提是 XTX 可逆。
系数方差:若误差满足 E[ε∣X]=0、Var(ε∣X)=σ2I(同方差、独立),则
Var(β^∣X)=σ2(XTX)−1.
实际中用残差方差估计 σ2,并由对角元得到每个系数的标准误。
R2:衡量拟合优度
R2=1−SSTSSE=SSTSSR,
其中 SSE 为残差平方和,SST 为总平方和。加入自变量不会降低 R2。
调整 R2:惩罚加入过多自变量
Rˉ2=1−SST/(n−1)SSE/(n−p),
其中 n 为样本数,p 为参数个数(含截距)。
Ridge vs LASSO:
-
Ridge(L2):
βmin∥y−Xβ∥22+λ∥β∥22
使系数连续收缩、降低方差,但通常不会把系数压到严格 0。
-
LASSO(L1):
βmin∥y−Xβ∥22+λ∥β∥1
倾向于产生稀疏解(部分系数被压到 0),可做变量选择。
两者都是通过引入偏差换取方差下降(bias-variance tradeoff),λ 越大收缩越强。