借用 Andrew Ng Machine Learning 公开课视频一张图,举个例子:
在上式中,记Size为 X X X,Price为 Y Y Y,三种拟合的函数分别为 f 1 ( X ) f_1(X) f1(X)、 f 2 ( X ) f_2(X) f2(X)、 f 3 ( X ) f_3(X) f3(X)。
为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如均方误差函数:
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
(1)
L(Y,f(X)) = (Y-f(X))^2 \tag{1}
L(Y,f(X))=(Y−f(X))2(1)
经验风险是模型关于训练集的平均损失,定义如下:
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
y
(
i
)
,
f
(
x
(
i
)
)
)
(2)
R_{emp}=\frac{1}{N}\sum_{i=1}^{N}L(y^{(i)},f(x^{(i)})) \tag{2}
Remp=N1i=1∑NL(y(i),f(x(i)))(2)
以(2)式和上图,可以得到
L
(
Y
,
f
1
(
X
)
)
L(Y,f_1(X))
L(Y,f1(X)) >
L
(
Y
,
f
3
(
X
)
)
L(Y,f_3(X))
L(Y,f3(X)) >
L
(
Y
,
f
3
(
X
)
)
L(Y,f_3(X))
L(Y,f3(X)),也就是经验风险
f
1
(
X
)
f_1(X)
f1(X)>
f
2
(
X
)
f_2(X)
f2(X)>
f
3
(
X
)
f_3(X)
f3(X)。训练集样本代表已经获得的信息,作为已经知道的经验。经验风险最小,等价于模型对训练集样本拟合最贴切。
极大似然估计(MLE)就是经验风险最小化的一个例子。
结构风险其实就是过拟合的风险。原因来说的话就是模型太复杂了。显然对于结构风险来说, f 1 ( X ) f_1(X) f1(X)< f 2 ( X ) f_2(X) f2(X)< f 3 ( X ) f_3(X) f3(X)。结构风险最小化。这个时候就定义了一个函数 J ( f ) J(f) J(f),来度量模型的复杂度,也叫正则化(regularization) 。常用的有 L 1 L_1 L1, L 2 L_2 L2 范数。
代价函数和损失函数是一回事,表示样本水平上模型结果于训练样本的平均误差。
比如吴恩达机器学习课程中,对于logistic回归的代价函数 (cost function),定义如下:
目标函数是最终需要优化的函数,是有约束条件下的损失函数的最小化。换句话说,包括经验损失和结构损失,可以表示为:
o
b
j
=
l
o
s
s
+
Ω
obj=loss+\Omega
obj=loss+Ω
其中:
目标函数的目的是最优化经验风险和结构风险,即:
m
i
n
[
1
N
∑
i
=
1
N
L
(
y
(
i
)
,
f
(
x
(
i
)
)
)
+
λ
J
(
f
)
]
min[\frac{1}{N}\sum_{i=1}^{N}L(y^{(i)},f(x^{(i)}))+\lambda J(f)]
min[N1i=1∑NL(y(i),f(x(i)))+λJ(f)]
比如吴恩达机器学习课程中,对logistic回归给出的目标函数为:
因篇幅问题不能全部显示,请点此查看更多更全内容