机器学习

线性回归

Posted by Bend on August 9, 2019

回归问题

假定我们现有一大批数据，包含房屋的面积和对应面积的房价信息，如果我们能得到房屋面积与房屋价格间的关系，那么，给定一个房屋时，我们只要知道其面积，就能大致推测出其价格了。

所以，回归问题的特点是：回归问题通常是用来预测一个值，且预测的结果是连续的。

一个比较常见的回归算法是线性回归算法（Linear Regression）(LR)

一个预测问题在回归模型下的解决步骤为：

积累知识：我们将储备的知识称之为训练集（Training Set），很好理解，知识能够训练人进步。
学习：学习如何预测，得到输入与输出的关系。在学习阶段，应当有合适的指导方针，江山不能仅凭热血就攻下。在这里，合适的指导方针我们称之为学习算法（Learning Algorithm）
预测：学习完成后，当接受了新的数据（输入）后，我们就能通过学习阶段获得的对应关系来预测输出。

学习过程往往是艰苦的，“人谁无过，过而能改，善莫大焉”，因此对我们有这两点要求：

有手段能评估我们的学习正确性。
当学习效果不佳时，有手段能纠正我们的学习策略。

线性回归

问题阐述

假设现在我们遇到一个实际问题：现在我们有一堆数据，分别包含房屋的面积和对应面积的房价信息，要求我们当我们得到一个新的房屋面积时，预测房子的价格。这里我们将问题简化为单变量问题来看

House Size and Price

回归过程

回归过程

将训练集放入学习算法当中进行训练，为假设函数 $h(x)$ 找出最适合的参数，当放入一个训练集之外的数据时，函数给出预测。

符号定义

特征（feature）：$x$ ，房屋的面积
特征向量（输入）： $x^i$ ，$i$用来描述第几套房子
样本数：m，用来描述数据量的多少
目标变量：y，
参数（Parameters）:$\theta_i$