统计学习方法

第一版

第二版

第 1 章 统计学习及监督学习概论

统计学习的主要特点是

  1. 统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
  2. 统计学习以数据为研究对象,是数据驱动的学科;
  3. 统计学习的目的是对数据进行预测与分析;
  4. 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
  5. 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

假设空间(hypothesis space)

其中是参数为θθ \theta 的函数(决策函数),也称为模型(Model),参数向量θθ \theta取值与DD D维欧式空间RDRD \mathbb{R}^D,也称为参数空间(parameter space),DD D 为参数的数量(维度)

模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数

特征空间(feature space)
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这
时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于
一个特征。

输入空间中的一个输入向量x=(x1,x2)x=(x1,x2) x = (x_1,x_2),在多项式模型中特征向量是(x21,x1x2,x22,...x12,x1x2,x22,… x_1^2,x_1x_2,x_2^2,…)
一般说的线性模型,指的是特征向量的线性组合,而不是指输入向量,所以说模型都是定义在特征空间上的

统计学习的三要素

  1. 模型的假设空间(hypothesis space),简称:模型(model)
  2. 模型选择的准则(evaluation criterion),简称:策略(strategy)或者学习准则
  3. 模型学习的算法(algorithm),简称:算法(algorithm)

以线性回归(Linear Regression)为例:
模型: f(x;w,b)=wTx+bf(x;w,b)=wTx+b f(x;w,b) = w^Tx +b
策略(strategy)或者学习准则: 平方损失函数 L(y,yˆ)=(yf(x,θ))2L(y,y^)=(y−f(x,θ))2 \mathcal L(y,\hat{y}) = (y-f(x,\theta))^2
算法:解析解analytical solution(闭式解closed-form solution)和数值解numerical solution,如:closed-form的最小二乘的解以及梯度下降法

机器学习的定义

#mermaid-1628844716058{font-family:”trebuchet ms”,verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-1628844716058 .error-icon{fill:#552222;}#mermaid-1628844716058 .error-text{fill:#552222;stroke:#552222;}#mermaid-1628844716058 .edge-thickness-normal{stroke-width:2px;}#mermaid-1628844716058 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-1628844716058 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-1628844716058 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-1628844716058 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-1628844716058 .marker{fill:#333333;stroke:#333333;}#mermaid-1628844716058 .marker.cross{stroke:#333333;}#mermaid-1628844716058 svg{font-family:”trebuchet ms”,verdana,arial,sans-serif;font-size:16px;}#mermaid-1628844716058 .label{font-family:”trebuchet ms”,verdana,arial,sans-serif;color:#333;}#mermaid-1628844716058 .cluster-label text{fill:#333;}#mermaid-1628844716058 .cluster-label span{color:#333;}#mermaid-1628844716058 .label text,#mermaid-1628844716058 span{fill:#333;color:#333;}#mermaid-1628844716058 .node rect,#mermaid-1628844716058 .node circle,#mermaid-1628844716058 .node ellipse,#mermaid-1628844716058 .node polygon,#mermaid-1628844716058 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-1628844716058 .node .label{text-align:center;}#mermaid-1628844716058 .node.clickable{cursor:pointer;}#mermaid-1628844716058 .arrowheadPath{fill:#333333;}#mermaid-1628844716058 .edgePath .path{stroke:#333333;stroke-width:1.5px;}#mermaid-1628844716058 .flowchart-link{stroke:#333333;fill:none;}#mermaid-1628844716058 .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-1628844716058 .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-1628844716058 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-1628844716058 .cluster text{fill:#333;}#mermaid-1628844716058 .cluster span{color:#333;}#mermaid-1628844716058 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:”trebuchet ms”,verdana,arial,sans-serif;font-size:12px;background:hsl(80,100%,96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-1628844716058:root{–mermaid-font-family:”trebuchet ms”,verdana,arial,sans-serif;}

未知的目标函数(理想中完美的函数):
版权声明:本文为kingreatwill原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/kingreatwill/p/15138144.html