有标签和没有标签的数据有什么区别?

在来自塞巴斯蒂安•瑟鲁姆的 这个视频中,他说监督式学习处理“标记的”数据,非监督式学习处理“未标记的”数据。他这是什么意思?在谷歌上搜索“标记数据与未标记数据”,可以找到一大堆关于这个话题的学术论文。我只是想知道基本的区别。

108808 次浏览

在机器学习中有许多不同的问题,所以我将选择 分类作为一个恰当的例子。在分类中,标记数据通常由一组多维特征向量(通常称为 X)组成,对于每个向量,一个标记,Y 通常只是一个与类别例如(face = 1,non-face =-1)对应的整数。 未标记的数据遗漏了 Y 组件。 在许多情况下,未标记的数据很多,很容易获得,但标记的数据往往需要人工/专家进行注释。

通常,没贴标签数据由自然或人工创建的工件样本组成,您可以相对容易地从世界上获得这些样本。一些未标记数据的例子可能包括照片、音频记录、视频、新闻文章、推特、 X 射线(如果你正在从事医疗应用)等等。对于每一块未标记的数据没有“解释”——它只包含数据,没有别的。

标记的 数据通常采用一组未标记的数据,并用某种有意义的“标记”、“标签”或“类”来增强未标记数据的每一部分,这些数据在某种程度上是信息性的或者是需要知道的。例如,上述未标记数据类型的标签可能是这张照片是否包含一匹马或一头牛,这段录音中说了什么话,这段视频中正在执行什么类型的动作,这篇新闻文章的主题是什么,这条推文的整体情绪是什么,这张 X 光片中的点是否是肿瘤,等等。

数据的标签通常是通过要求人们对给定的未标记数据做出判断来获得的(例如,“这张照片包含一匹马还是一头牛?”)并且比未标记的原始数据要昂贵得多。

在获得标记数据集之后,可以将机器学习模型应用到数据中,以便向模型提供新的未标记数据,并且可以猜测或预测该未标记数据的可能标记。

机器学习中有许多活跃的研究领域,旨在整合未标记和标记的数据,以建立更好和更准确的世界模型。半监督学习试图将未标记和标记的数据(或者更一般地说,只有一些数据点有标记的未标记数据集)组合成集成模型。深度神经网络和特征学习是试图单独建立未标记数据模型的研究领域,然后将来自标签的信息应用到模型的有趣部分。

标记数据 ,由 监督式学习使用,添加有意义的 标签标签同学们到观察值(或行)。这些标签可以来自观察,或询问人员或专家的数据。

分类 回归可应用于已标记的监督式学习数据集。

机器学习模型可以应用于标记数据,使新的未标记数据可以提供给模型和一个可能的标记可以猜测或预测。 enter image description here

但是,非监督式学习使用的未标记数据 没有任何有意义的标记或与之相关的标签。 enter image description here 非监督式学习的算法比监督式学习更难,因为我们对数据或预期结果知之甚少。

聚类 被认为是最流行的非监督式学习技术之一,用于对数据点或在某种程度上相似的对象进行分组。

非监督式学习的模型较少,可用来确保模型结果准确性的评估方法也较少。因此,非监督式学习创造了一个不太可控的环境,因为机器正在为我们创造结果。

图片由 Coursera: 用 Python 进行机器学习提供

我们可以说被标记的是定义良好的数据。艾格。电子邮件、 IP 地址等。而没有标记的数据是没有正确定义的。艾格。自然模式,鸟类的迁徙模式等等。没有标记的数据本身是有意义的,但是标记的数据本身是可以理解的。

标记数据是一组已经用一个或多个标记标记的样本。标记通常采用一组未标记的数据,并用信息丰富的有意义的标记对未标记的数据的每一部分进行增强。例如,标签可能表明一张照片是否包含一匹马或一头牛,录音中说了什么话,视频中正在执行什么类型的动作,一篇新闻文章的主题是什么,一条推文的整体情绪是什么,X 光片中的点是否是肿瘤,等等。

为了更好地回答你的问题,让我们首先定义什么是训练数据“ 训练数据只是指用于创建模型的准备好的数据。

现在让我们来定义一下什么是标签或监督式学习: “ 您想要预测的值实际上存在于训练数据中。”意思是来自训练数据的每个记录包含所有必要的信息(特性和 目标值也是)。

未贴标签或非监督式学习: “ 您要预测的值不在训练数据中。

边注: 两种方法都有使用,但是公平地说,最常见的方法是监督式学习。

在未标记的数据中,没有目标值(因变量)。我们使用非监督式学习模型来生成一个目标/因变量,它基本上是将相似的数据组合在一起作为集群。