线性回归

Posted by Bend on August 9, 2019

回归问题

假定我们现有一大批数据,包含房屋的面积和对应面积的房价信息,如果我们能得到房屋面积与房屋价格间的关系,那么,给定一个房屋时,我们只要知道其面积,就能大致推测出其价格了。

所以,回归问题的特点是:回归问题通常是用来预测一个值,且预测的结果是连续的。

一个比较常见的回归算法是线性回归算法(Linear Regression)(LR)

一个预测问题在回归模型下的解决步骤为:

  • 积累知识: 我们将储备的知识称之为训练集(Training Set),很好理解,知识能够训练人进步。

  • 学习:学习如何预测,得到输入与输出的关系。在学习阶段,应当有合适的指导方针,江山不能仅凭热血就攻下。在这里,合适的指导方针我们称之为学习算法(Learning Algorithm)

  • 预测:学习完成后,当接受了新的数据(输入)后,我们就能通过学习阶段获得的对应关系来预测输出。

学习过程往往是艰苦的,“人谁无过,过而能改,善莫大焉”,因此对我们有这两点要求:

  • 有手段能评估我们的学习正确性。
  • 当学习效果不佳时,有手段能纠正我们的学习策略。

线性回归

问题阐述

假设现在我们遇到一个实际问题:现在我们有一堆数据,分别包含房屋的面积和对应面积的房价信息,要求我们当我们得到一个新的房屋面积时,预测房子的价格。这里我们将问题简化为单变量问题来看

House Size and Price

回归过程

回归过程

将训练集放入学习算法当中进行训练,为假设函数 $h(x)$ 找出最适合的参数,当放入一个训练集之外的数据时,函数给出预测。

符号定义

  • 特征(feature):$x$ , 房屋的面积
  • 特征向量(输入): $x^i$ ,$i$用来描述第几套房子
  • 样本数:m,用来描述数据量的多少
  • 目标变量:y,
  • 参数(Parameters):$\theta_i$