-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathChapter 2
More file actions
50 lines (49 loc) · 5.04 KB
/
Chapter 2
File metadata and controls
50 lines (49 loc) · 5.04 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
2.1 经验误差与过拟合
错误率:分类错误的样本数占样本总数的比例 E=a/m a为分类错误的样本数,m为样本总数
精度:1-错误率
误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差(经验误差):学习器在训练集上的误差
泛化误差(generalization error:在新样本上的误差
过拟合(over fitting):学习器吧训练样本自身的特点当作了所有潜在样本都具备的一般性质,导致泛化性能下降
欠拟合(underfitting):对训练样本的一般性质尚未学习好
模型选择:不同的学习算法或相同学习算法不同参数配置下,产生各种不一样的模型,通常对候选模型的泛化误差经行评估,然后选择泛化误差最小的模型
2.2评估方法
泛化误差的近似:用测试集测试出学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似 测试集应尽可能与训练集互斥,即测试样本尽量不在训练集中出现
当只有一个包含m个样例的数据集D时,使用以下几种方法,从D中产生训练集S和测试集T
2.2.1 留出法(hold-out)
直接将数据集D划分为两个互斥的集合,一个做S训练集,一个做T测试集
保持数据分布的一致性:避免因数据划分过程引入额外的偏差而对最终结果产生影响,采用分层采样
分层采样:保留类别比例的采样方式
存在多种划分方式对D分割:为避免模型评估结果的偏差,采用若干次随机化分,重复进行实验评估后取平均值作为留出法结果
一般将大约三分之二到五分之四的样本用于训练,剩下的用于测试
2.2.2交叉验证法(cross validation)
将D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,然后,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,这样能获得k组训练/测试集。进行k次训练和测试,最终返回均值
划分为k个子集同样具有多种划分方式,为减少因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值
留一法(leave-one-out,LOO):D中包含m个样本,令k=m
优点:1.不受随机样本划分的影响,因为只有唯一的方式划分子类
2.评估较准确,因为被实际评估的模型与期望评估的用D训练出的模型很相似
缺点:1.数据集较大时,开销太大
2.未必永远比其它评估方法准确
2.2.3自助法(bootstrapping)
给定包含m个严格不能的数据集D,对它进行采样产生数据集D‘:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,重复m次后,得到包含m个样本的数据集D',通过公式得知,D中约有36.8%的样本未出现在采样数据集D’中,这样我们仍有三分之一的样本用于测试,我们称这样的结果为“包外估计”
优点:1.在数据集较小,难以有效划分训练/测试集时很有用
2.能从D中产生多个不同数据集,对集成学习等方法有很大好处
缺点:1.改变了初始数据集的分布,引入估计偏差
2.2.4 调参与最终模型
参数调节:对算法参数进行设定
最终模型:在模型评估与选择过程中,用大部分数据训练模型得出学习算法和参数配置,然后再用该数据集D重新训练模型,这个使用了所有m个样本的模型才是最终模型
2.3 性能度量
Performance measure :衡量模型泛化能力的评价标准,模型的好坏是相对的
回归任务的常用性能度量:均方误差
2.3.1错误率与精度
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
2.3.2 查准率,查全率与F
查准率(precision):检索出的信息中有多少是需要的
查全率(recall):检索出的信息完整度是多少,是否全部查出
查准率和查全率的关系:他们是互相矛盾的,一般的,查准率高,查全率往往偏低,我们用查准率-查全率(PR)曲线来描述他们之间的关系
PR曲线:当一个学习器的PR曲线完全包住了另一学习器的PR曲线时,我们说第一个学习器的性能优于后者,的那大多数情况是,不同学习器直接的PR曲线是交叉的,这是我们通过平衡点来综合考虑查准率,查全率的性能度量
平衡点(Break-Event Point,BEP):查全率=查准率时的取值
F1度量:更准确复杂的度量方式
总结:章节二的后续内容留在后面来补充,此章节到2.3.2没有什么难理解的地方,主要是没有介绍错误率,查准率这些公式是怎么来的,那我对这个暂时没有求知欲,记住就好
https://blog.csdn.net/qq_40694323/article/details/125349305?utm_source=miniapp_weixin 推荐的课后习题解答,来自An efforter