-/Chapter 1 at main · ACGpp/- · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
1.1 机器学习所研究的主要内容是：在计算机上从数据中产生“模型”的算法（学习算法）
1.2基本术语
	数据集：多个样本的集合   D={x1,x2,…xm}表示包含m个示例的数据集
	示例（样本）：对象或事件的描述  x1,x2…xm表示m个示例
	属性（特征）：对象的专属特征   xi=(xi1;xi2;…;xid)表示含d个属性的示例
	属性值：特征的具体形式
	属性空间（样本，输入空间）：属性所张成的空间，每一个特征代表一个维度，这样，每一个对象就可以用向量表示，在多维空间中找到专属的位置 xi1,xi2… ,xid 其中xij为xi在第j个属性上的取值
	特征向量：在属性空间中用于标记的值
	d（即示例的属性数目）：称为样本xi的维数
	学习（训练）：从数据中学得模型的过程，通过执行某学习算法来完成
	训练数据：训练过程中使用的数据
	训练样本：数据中的样本
	训练集：多个样本组成的集合
	假设（hypothesis）：学得模型对应的关于数据的某种潜在规律
	真实（ground-truth）：潜在规律本身，当假设与真实一致或逼近时，学习算法在这一数据中的学习就算是成功
	标记：训练样本的结果信息
	样例：具有标记信息的示例 （xi,yi) 表示第i个样例，其中yi属于Y时示例xi的标记，Y是所有标记的集合
	Y：所有标记的集合，也叫标记空间（label space）或输出空间
监督学习（supervised learning）
	分类（classification）：预测离散值，如好，坏
		二分类：只涉及两个类别的分类，一个叫正类，一个叫反类
		多分类：涉及多个类别
	回归（regression）：预测连续值
	预测任务：对训练即{(x1,y1),(x2,y2),…(xm,ym)}进行学习，建立一个从输入空间x到输出空间y的映射f：X->Y
		对二分类任务：通常令Y={-1，+1}或{0，1}
		对多分类任务：|Y|>2
		对回归任务：Y=R，R为实数集
	测试：学得模型后，使用其进行预测的过程
	测试样本：被预测的样本
无监督学习（unsupervised learning）
	聚类（clustering）：将样本分为若干组，每个组称为一个簇（cluster），每个簇拥有一些潜在的概念划分

	泛化（generalization）能力：学得模型适用于新样本的能力
	分布：假设样本空间中全体样本服从一个未知的分布（distribution）D
	独立同分布：获得的每一个样本都是独立的从这个分布上采样获得的

1.3 假设空间
	归纳（induction）：从特殊到一般的泛化过程，即从具体的事实归结出一般性规则
	演绎（deduction）：从一般到特殊的特化（specialization）过程，即从基础原理推演出具体情况
	概念学习：狭义的归纳学习，要求从训练数据中学得概念（concept）
		布尔概念学习：对是，不是这样的可表示为0/1布尔值的目标概念的学习
	学习过程：一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设，即能将训练集中的瓜判断正确的假设，假设的表示一旦确定，假设的空间及其规模大小就确定了
	*：什么取值都适合，用*来代替
	假设空间的大小：由属性及其值来决定，注意要加上空的存在
	假设的结果：用多种策略对假设空间搜索并在过程中不断删除与正例不一致的假设，和（或）与反例一致的假设后，得出来的与训练集一致（能对所有训练样本能正确判断）的假设
	版本空间：可能有多个假设与训练集一致，即存在着一个与训练集一致的假设集合

1.4归纳偏好
		归纳偏好（inductive bias）：机器学习算法在学习过程中对某种类型假设的偏好，如果没有归纳偏好，算法hi被假设空间中看似在训练集上“等效”的假设所迷惑，而无法产生确定的学习结果，即每次预测时，随机抽取训练集上的等效假设，使多次生成的结果不同
			归纳偏好可看作是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观“
			奥卡姆剃刀：若有多个假设与观察一致，则选择最简单的那个
		学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性的作用
习题
	1.1 有2*2*2*3+1=25种假设，去掉与正例不一致的和与反例一致的
	 色泽	根蒂    	敲声
	青绿        *             *
	青绿       蜷缩         *
	青绿       *            浊响
	      *        蜷缩           *
	    *         *            浊响
	    *           蜷缩        浊响
	青绿     蜷缩         浊响
	1.2 略
	1.3 在训练过程中选择满足最多样本的假设，也可以对每个假设，求得其准确率
	1.4 略
	1.5
	爬虫与数据抓取：机器学习算法可以帮助优化网络爬虫的工作，使其更智能地选择和抓取相关内容。通过识别哪些网页内容是高质量或与用户需求相关的，机器学习能提高搜索引擎的数据抓取效率。

	内容理解与索引：机器学习模型（如自然语言处理模型）能够“理解”网页内容，包括主题、语义、情感等，以便为用户提供更符合需求的结果。例如，搜索引擎会利用模型对文本、图像和视频内容进行自动分类、打标签、分级，便于建立高效的索引系统。

	查询理解：用户的查询语句通常是短小的，甚至有拼写错误或模糊之处。机器学习可以对查询进行语义理解，包括拼写纠错、同义词扩展（例如“车”和“汽车”）和上下文分析，从而更好地理解用户意图并返回合适的结果。

	排序算法：搜索引擎使用机器学习来评估搜索结果的相关性，并根据用户偏好、点击历史等进行排序。例如，利用排序学习算法（Learning to Rank），搜索引擎能根据历史点击数据来调整排序模型，让用户更快速地找到想要的信息。

	个性化推荐：机器学习能根据用户的历史行为、兴趣偏好等进行个性化搜索结果推荐，提供符合个人需求的内容。这项技术在搜索中尤为重要，有助于增加用户的黏性和体验。

	广告系统：广告是搜索引擎的重要收入来源。机器学习帮助广告系统预测用户点击广告的概率，从而展示个性化的广告。它通过分析用户行为和广告效果，不断优化广告展示的策略，提高点击率。

	反作弊与垃圾内容过滤：机器学习在识别并过滤垃圾信息、广告作弊和低质量内容方面起到重要作用。通过检测异常行为或内容模式，搜索引擎可以自动屏蔽或降权那些试图操纵搜索结果的网页。
	来自chatgpt
总结：
	第一章基本上都是一些概念性的东西，除了NO Free Lunch Theorem和习题里面难搞的数学题，那么抛开这些不谈，稍微难理解的就是版本空间了，我做出如下解释
	对一个数据集中的各个样本的属性及其特征，我们可以得到一个以他们为不同维度的具有n个取值的d维空间
	其中，n为属性的特征的值，如属性色泽中的青绿，浅白等，d为属性的个数
	那么依次我们可以写出一个假设空间，这个空间具有，所有属性的不同特征的全部集，也即排列组合不同属性的所有特征
	那么假设有n个属性，每一个属性的下都有m个特征，能够写出的假设空间的规模为n乘以m的n次方+1（注意，现实情况中不是每一个属性的特征个数都相同，请灵活使用）
	以题1.1举例，给出的数据集中有三个属性，分别是色泽，根蒂，敲声，而他们的特征分别有两个，即青绿，乌黑：蜷缩，稍蜷；浊响，沉闷；那么我们的假设空间大小应为3*2*2*2+1=25个
	那么版本空间跟假设空间有什么关系呢？你可以将它看作是天选之子，所有在这个空间里的假设都是正例，在例子中你可以说，根据数据集给出的好瓜的特征，我可以说所有属性的特征值能够在我这个版本空间里找到一样的，那这个瓜就是好瓜
	好，那么这个版本空间是怎么得到的呢？
	就是书上的方法，将所有与正例不一样的，与反例一样的统统丢出去，我们就得到了版本空间，诶，这个时候有点犯迷糊了，这不是得出结果的方法吗？对，没错，这个版本空间可以说就是我们获得的与训练集一致的假设集合，但是他和我们最终训练出来的结果有一点不一样哦，就是他不是我们训练得出的，他就是凑巧跟我们训练后的结果长的一模一样而已，唉，真是搞的人生气，辛辛苦苦搞出来的东西你说这东西其实你早就知道是什么了，只不过第一时间看的时候被绕进去了，哈哈哈哈哈，真是的。
	好，我们还是以题1.1来举例怎么求版本空间，那么当你看了我上面的解释后，我们就知道，哦，这道题目原来就是让我们求出训练后的假设集合，只不过他套了个马甲来让我们头晕脑胀的
	那么求解的方法很简单，就是上面讲述过的方法，那你可能说，这么多假设，一个个写太麻烦了，有没有简单的方法呢？诶，为什么不能直接写出结果呢？根据定义我们知道他不就是跟正例一样的集合吗？所以我们直接偷个懒，把所有符合条件的写出来不就行了？那么他的个数有几个呢，这个总不能靠猜吧，那我们先把这些符合标准的写出来一点，我们会发现，他们其实就是青绿，蜷缩，浊响和*的组合也就是说每一个属性的特征都有两个值，所以是2的三次方也就是8个，诶但是答案是7个诶，那是我们忽略了***的组合，肯定不能三个属性都随意的组合，我们至少要有一个特征和正例相同，那去除这个我们就得到了答案
	好至此我们应该是完成了这个版本空间的理解，不想看长篇大论的直接看标黄的字体即可
	那么在本书中表1.1的假设空间的计算中，请同学们注意，根蒂的值有蜷缩，硬挺，稍蜷三种，但是呢，周志华老师在计算假设空间规模时，将蜷缩和稍蜷合在一起了，所以展开的计算式如下
	2*2*3*3+1=37，第一个和第二个2分别表示色泽和根蒂的特征种类，第一个和第二个3分别表示敲声的特征种类和属性的种类，1则表示***
	回到我们的总结上来，这本书真的让我感觉到很渺小，课后题也涉及到很多我没学过的知识，还好我不是一个人在前行，感谢datawhale这次推出的吃瓜教程