通常,没贴标签数据由自然或人工创建的工件样本组成,您可以相对容易地从世界上获得这些样本。一些未标记数据的例子可能包括照片、音频记录、视频、新闻文章、推特、 X 射线(如果你正在从事医疗应用)等等。对于每一块未标记的数据没有“解释”——它只包含数据,没有别的。
标记的 数据通常采用一组未标记的数据,并用某种有意义的“标记”、“标签”或“类”来增强未标记数据的每一部分,这些数据在某种程度上是信息性的或者是需要知道的。例如,上述未标记数据类型的标签可能是这张照片是否包含一匹马或一头牛,这段录音中说了什么话,这段视频中正在执行什么类型的动作,这篇新闻文章的主题是什么,这条推文的整体情绪是什么,这张 X 光片中的点是否是肿瘤,等等。