积压了很久的🍉书笔记…
机器学习是什么?
机器学习主要研究关于在计算机上从数据中产生“模型”的算法,即学习算法。
有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。
基本术语
输入
样本
指对于一个事件或对象的描述。
这样的描述通常反映了事件或对象在某些方面的特征和表现。描述的每一项被称为属性。属性上的取值称为属性值。属性张成的空间被称为属性空间、样本空间或输入空间。
对每个样本的描述通常由多个属性组成,属性的个数称为样本的维数。这些属性值可以表示为一个多维向量。因此一个样本也可被称为特征向量。每个特征向量都对应了样本空间中的一个点。
数据集
多个样本的集合构成了一个数据集。
训练集、训练样本
模型训练过程中使用的数据集被称为训练集。训练集中的样本被称为训练样本。
样例
带有标记信息的样本被称为样例。一个样例通常可以用一个由特征向量和标记信息组成的二元组进行表示。
学习任务
分类
若我们要预测的是离散值,则该任务称为分类。
回归
若我们要预测的是连续值,则该任务称为回归。
聚类
将训练集中的样本分成若干个组,每组称为一个“簇”。这样的任务被称为聚类。
聚类学习中使用的样本通常不拥有标记信息。
监督学习、无监督学习
根据训练数据是否含有标记信息,学习任务可大致划分为监督学习和无监督学习。
分类和回归是前者的代表。
聚类是后者的代表。
泛化
学得模型适用于新样本的能力被称为泛化能力。
假设空间
归纳
从特殊到一般,即从具体事实归结出一般性规律。例如从样例中学习。
从样例中学习又称为归纳学习。
狭义的归纳学习要求从训练样本中学得概念,因此也称概念学习。
演绎
从一般到特殊,即从基础原理推演出具体情况。例如数学证明。
学习过程可以看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。可能有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,称之为版本空间。
归纳偏好
通过学习得到的模型对应了假设空间中的一个假设。
由于版本空间中可能存在多个满足训练集的假设,而这些假设在面临新样本时却有可能产生不同的输出。对于一个具体的学习算法而言,其本身的“偏好”将决定最终选择哪一个假设作为最终的模型。
“奥卡姆剃刀原则”是一种可以使用的偏好,即“若有多个假设与观察一致,则选择最简单的那个”。
事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。
NFL定理指出,当所有“问题”出现的机会相同、或所有问题同等重要时,不同学习算法的期望性能是相同的。
NFL定理最重要的寓意在于,当考虑学习算法时应和具体问题相联系。
人工智能的发展历程
推理期
20世纪50年代-70年代初
只要能赋予机器逻辑推理的能力,机器就具有智能。
知识期
20世纪70年代中期起
要使机器具有智能,就必须设法使机器拥有知识。
专家系统是该时期的产物。
广义的归纳学习
20世纪80年代来被研究最多的、应用最广的是“从样例中学习”,即广义的归纳学习。其涵盖了监督学习、无监督学习等。这方面的主流技术包括:
- 符号主义学习,代表是决策树和基于逻辑的学习。
- 连接主义学习,代表是神经网络。
- 统计学习,代表是SVM和更一般的核方法。
- 深度学习,是连接主义学习的一个分支,狭义地说就是“很多层”的神经网络。