我们知道在大部分机器学习问题中，都是在寻找因变量 :math:`Y`
和自变量 :math:`X` 之间的关系，
在概率的语义下，用条件概率 :math:`P(Y|X)` 定义这种关系。
GLM框架给定义条件概率 :math:`P(Y|X)` 提供了一种通用性方法，
GLM包含了一类统计模型，可以在不同的场景下选择其中合适的模型去应用。
在GLM框架下要确定一个具体的模型，理论上需要确定两个信息：

- 根据标签 :math:`Y` 的数据分布选取一个合适的指数族分布作为变量 :math:`Y` 的概率分布假设。
- 确定一个连接函数 :math:`g(\cdot)`，把特征数据 :math:`X` 的线性预测器 :math:`\beta^T x` 与 :math:`Y` 的概率分布的均值参数 :math:`\mu`
  连接在一起 :math:`\beta^T x=g(\mu)` 。


不同的场景标签 :math:`Y` 拥有不同的数据范围和分布，就需要选取特定的指数分布。
本节开始，我们介绍指数族中常见分布的GLM，帮助大家在遇到具体的场景时，
能用GLM解决问题。根据数据的不同，我们分为如下几类：

- 连续值变量，对应着实数值回归问题场景。
- 二值离散变量，对应着二分类问题场景。
- 多值离散变量，对应着多分类问题场景。
- 计数离散变量。


OLS模型通过最小化残差平方和(Residual Sum of Squares,RSS)来估计模型的参数，
有时也叫平方损失(Square loss)。

.. math::

    RSS = \sum_{n=1}^{N} (y_n - \hat{y}_n)^2


其中，:math:`y_n` 是样本的真实值，:math:`\hat{y}_n` 是此样本的模型预测值。
在OLS中，通过极小化上述损失函数求得参数的解。利用直接解析法或者梯度下降法

.. math::

    \hat{\beta} = \mathop{\arg \max}_{\beta} \sum_{n=1}^{N} (y_n - \hat{y}_n)^2