吴恩达《机器学习》课程笔记——第四章：多变量线性回归

lky-learning 2019-02-24 原文

4.1 多维特征

在之前的内容中，只探讨了单一特征的回归模型，也就是 m 个样本实例中，每个样本实例 x 只有一个特征，比如房价预测中的 m 个样本中，每个样本只有“房间尺寸”这一个特征。

在实际情况中，更多的是涉及到多维特征模型，比如影响房价的因素（即特征）除了房间尺寸外，还有房间数、楼层等等。这时就需要引入多维特征。

多维特征：在 m 个样本实例中，每个样本实例 x 都有 n 个特征。注释表示为：x _j⁽ⁱ⁾，代表特征矩阵中的第 i 行的第 j 个特征，也就是第 i 个训练实例的第 j 个特征。

支持多变量的假设函数 h 可以表示为：h_θ(x) = θ₀x₀+θ₁x₁+θ₂x₂+…+θ_nx_n ，其中 x₀为人为引入，x₀= 1。此时模型中的参数 θ 是一个 n+1 维的向量，任何一个训练实例也都是 n+1 维的向量，特征矩阵X的维度是 m*( n+1 )。因此公式可以简化为：h_θ(x) = θ^TX，其中上标T代表矩阵转置。

4.2 多元梯度下降法

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和，即：

接下来就是要通过梯度下降的方法来使得代价函数最小：

公式中的 ( h_θ(x⁽ⁱ⁾) – y⁽ⁱ⁾) * x_j⁽ⁱ⁾ 是代价函数 J(θ) 对 θ 的导数。

matlab代码示例：

theta = theta – alpha * ( 1 / m ) * X’ * ( ( theta’ * X’ )’ – y ) 其中X：( m , n + 1 ) ，theta：( n + 1 , 1 ) ，y：( m , 1 ) ，m 代表样本数，n代表特征数。

4.3 （归一化）特征缩放

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

归一化（特征缩放）的优点：

（1）归一化后加快了梯度下降求最优解的速度。

（2）归一化有可能提高精度（归一化是让不同维度之间的特征在数值上有一定的比较性）。

下图能更清晰的体现归一化和未归一化时最优解寻解过程的区别：

未归一化：

归一化：

从上面可以看出，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

两种归一化的方法：

（1）min-max标准化

定义：也称为离差标准化，是对原始数据的线性变换，使得结果映射到0-1之间。

本质：把数变为【0,1】之间的小数。

转换函数：（X-Min）/(Max-Min)

如果想要将数据映射到-1,1，则将公式换成：（X-Mean）/(Max-Min)

其中：max为样本数据的最大值，min为样本数据的最小值，Mean表示数据的均值。

（2）Z-score（0均值）标准化方法

定义：这种方法给与原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1.

本质：把有量纲表达式变成无量纲表达式。

转换函数：（X-Mean）/(Standard deviation)

其中，Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

4.4 学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

梯度下降算法的每次迭代受到学习率的影响，如果学习率

版权声明：本文为lky-learning原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/lky-learning/p/10424560.html

吴恩达《机器学习》课程笔记——第四章：多变量线性回归的更多相关文章

大白话5分钟带你走进人工智能-第四节最大似然推导mse损失函数（深度解析最小二乘来源）（2）
第四节最大似然推导mse损失 […]...
手把手教你学numpy，从此数据处理不再慌【三】
本文始发于个人公众号：TechFlow，原创不易，求个关注今天是numpy专题的第三篇，我们来聊聊numpy […]...
模式识别笔记-集成学习之AdaBoost
目前集成学习(Ensemble Learning) 分为两类：个体学习器间存在强依赖关系、必须串行化生成的序 […]...
100天搞定机器学习|Day16 通过内核技巧实现SVM
前情回顾机器学习100天|Day1数据预处理100天搞定机器学习|Day2简单线性回归分析100天搞定机器学 […]...
KNN
思路：空间上距离相近的点具有相似的特征属性。执行流程：　　•1. 从训练集合中获取K个离待预测样本距离最近 […]...
pandas | DataFrame基础运算以及空值填充
本文始发于个人公众号：TechFlow，原创不易，求个关注今天是pandas数据处理专题的第四篇文章，我们一 […]...
word2vec是如何工作的？
如何有效的将文本向量化是自然语言处理（Natural Language Processing: NLP）领域非 […]...
深度学习在搜索业务中的探索与实践
深度学习在搜索业务中的探索与实践本文根据美团高级技术专家翟艺涛在2018 QCon全球软件开发大会上的演讲内 […]...

随机推荐

GitHub 上最火的开源项目 —— Java 篇
很多开发者在看到自己感兴趣的项目时会使用 Star 功能，可以说 Star 的数量在一定程度上代表了开源项目的 […]...
一看便会微信后台服务器开发
目录微信后台服务器开发开通公众号配置权限流程介绍功能实现必备知识点 http服务 Token机制 t […]...
『动善时』JMeter基础 — 43、JMeter对数据库的查询操作
目录 1、使用“用户自定义变量”实现参数化 2、在SQL Query中使用占位符传递参数（1）传递的参数值 […]...
mysql 开发进阶篇系列 39 mysql日志之二进制日志(binlog)
mysql 开发进阶篇系列 39 mysql日志之二进制日志(binlog) 一.概述二进 […]...
Windows Thin PC体验 & 语言包更改（win 7 included）
本作品由Man_华创作，采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。基于htt […]...
[C#] 尝鲜.net6.0的C#代码热重载
[C#] 尝鲜.net6.0的C#代码热重载看到.NET 6 Preview 1 发布，里面“除了 XAML […]...
Discuz插件开发中的困惑 – tdyzy
Discuz插件开发中的困惑 1、关于缓存这几天一直纠结于Discuz的缓存问题，今天终于有点小发现：首先D […]...
Android有趣的全透明效果–Activity及Dialog的全透明(附android系统自带图标大全)[转]
原文地址：http://blog.csdn.net/sodino/article/details/582214 […]...

展开目录

目录导航