我们知道在大部分机器学习问题中,都是在寻找因变量 \(Y\) 和自变量 \(X\) 之间的关系, 在概率的语义下,用条件概率 \(P(Y|X)\) 定义这种关系。 GLM框架给定义条件概率 \(P(Y|X)\) 提供了一种通用性方法, GLM包含了一类统计模型,可以在不同的场景下选择其中合适的模型去应用。 在GLM框架下要确定一个具体的模型,理论上需要确定两个信息:
根据标签 \(Y\) 的数据分布选取一个合适的指数族分布作为变量 \(Y\) 的概率分布假设。
确定一个连接函数 \(g(\cdot)\),把特征数据 \(X\) 的线性预测器 \(\beta^T x\) 与 \(Y\) 的概率分布的均值参数 \(\mu\) 连接在一起 \(\beta^T x=g(\mu)\) 。
不同的场景标签 \(Y\) 拥有不同的数据范围和分布,就需要选取特定的指数分布。 本节开始,我们介绍指数族中常见分布的GLM,帮助大家在遇到具体的场景时, 能用GLM解决问题。根据数据的不同,我们分为如下几类:
连续值变量,对应着实数值回归问题场景。
二值离散变量,对应着二分类问题场景。
多值离散变量,对应着多分类问题场景。
计数离散变量。
OLS模型通过最小化残差平方和(Residual Sum of Squares,RSS)来估计模型的参数, 有时也叫平方损失(Square loss)。
()¶\[RSS = \sum_{n=1}^{N} (y_n - \hat{y}_n)^2\]
其中,\(y_n\) 是样本的真实值,\(\hat{y}_n\) 是此样本的模型预测值。 在OLS中,通过极小化上述损失函数求得参数的解。利用直接解析法或者梯度下降法
()¶\[\hat{\beta} = \mathop{\arg \max}_{\beta} \sum_{n=1}^{N} (y_n - \hat{y}_n)^2\]