gradient descent

梯度下降法

梯度:
  • 在单变量的函数中,梯度就是函数的微分,代表着函数在某个定点切线的斜率。
  • 在多变量函数中,梯度是一个向量,梯度的方向就指出了函数在给定点上升最快的方向
参数更新公式:

​ 其中$\alpha$为步长,$\nabla J(\theta)$为损失函数的梯度,$\theta$为权重

代价函数:

​ 衡量模型预测的值$h_{\theta}(x^{(i)})$与真实值$y$之间的差异的函数

形式:

  • 均方误差 $m$为训练样本的个数
  • 交叉熵(用于逻辑回归)

    ​ 其中

用矩阵表示:(均方误差)