a 生成和a 生成的区别是什么 有识别力的< / >强算法?
假设您有输入数据x,并希望将数据分类为标签y。生成式模型学习联合概率分布p(x,y),判别式模型学习有条件的概率分布p(y|x)——你应该读成"给定#EYZ0 y的概率"。
x
y
p(x,y)
p(y|x)
这里有一个非常简单的例子。假设您在(x,y)表单中有以下数据:
(x,y)
# EYZ0
y=0 y=1 ----------- x=1 | 1/2 0 x=2 | 1/4 1/4
y=0 y=1 ----------- x=1 | 1 0 x=2 | 1/2 1/2
如果你花几分钟时间盯着这两个矩阵看,你就会明白这两个概率分布之间的区别。
分布p(y|x)是将给定示例x分类到类y的自然分布,这就是为什么直接对其建模的算法被称为判别算法。生成算法模型p(x,y),应用贝叶斯规则将其转化为p(y|x),然后用于分类。但是,发行版p(x,y)也可以用于其他目的。例如,您可以使用p(x,y)到生成可能是(x,y)对。
从上面的描述中,您可能会认为生成模型更普遍,因此更好,但它并不是那么简单。这篇论文是关于鉴别分类器和生成分类器的一个非常流行的参考,但是它非常沉重。总的要点是,在分类任务中,判别模型通常优于生成模型。
生成算法对数据的生成方式进行建模,以便对信号进行分类。它提出了一个问题:根据我的世代假设,哪个类别最有可能产生这个信号?
有识别力的算法并不关心数据是如何生成的,它只是对给定的信号进行分类。
一般来说,机器学习社区有一个惯例,那就是不要学你不想学的东西。例如,考虑一个分类问题,目标是为给定的x输入分配y个标签。如果我们使用生成模型
p(x,y)=p(y|x).p(x)
我们必须为p(x)建模,而p(x)与当前任务无关。像数据稀疏性这样的实际限制将迫使我们用一些较弱的独立性假设来建模p(x)。因此,我们直观地使用判别模型进行分类。
p(x)
想象一下,你的任务是将演讲分类为一种语言。
你可以通过以下任何一种方式:
或
第一个是生成方法,第二个是区别的方法。
查看参考资料了解更多细节:http://www.cedar.buffalo.edu/~srihari/CSE574/Discriminative-Generative.pdf。
在实践中,模型的使用如下。
在有识别力的模型中,要从训练示例x中预测标签y,您必须评估:
它只是选择最可能的类y,考虑x。就像我们在尝试建模类之间的决策边界。这种行为在神经网络中非常明显,其中计算的权重可以被视为一个复杂形状的曲线,将空间中一个类的元素隔离开来。
现在,使用贝叶斯规则,让我们将替换为。因为你只对arg马克斯感兴趣,你可以擦掉分母,这对每个y都是一样的。所以,你剩下
这就是你在生成模型中使用的方程。
在第一种情况下,您有条件概率分布 p(y|x),它建模了类之间的边界,在第二种情况下,您有联合概率分布 p(x, y),因为p(x | y) p(y) = p(x, y),它是显式地对每个类的实际分布建模。
p(x, y)
p(x | y) p(y) = p(x, y)
对于联合概率分布函数,给定一个y,你可以计算(“生成”)它各自的x。因此,它们被称为“生成”模型。
这是一个额外的信息点,与上面StompChicken的回答相吻合。
有识别力的模型和生成模型之间的根本区别是:
课间学习(硬或软)边界 生成模型为单个类的分布建模
课间学习(硬或软)边界
生成模型为单个类的分布建模
编辑:
生成式模型就是可以生成数据。它同时对特征和类(即完整的数据)建模。
如果我们建模P(x,y):我可以使用这个概率分布来生成数据点-因此所有建模P(x,y)的算法都是生成的。
P(x,y)
如。生成模型
P(c)
P(d|c)
c
d
同时,# EYZ0
因此,某些形式的朴素贝叶斯模型P(c,d)
P(c,d)
P(y|x)
如。关于判别模型:
条件随机场
一般来说,生成式模型比判别式模型需要更多的建模,因此有时不那么有效。事实上,大多数(不确定是否全部)无监督学习算法,如聚类等,可以被称为生成式,因为它们建模P(d)(并且没有类:P)
P(d)
PS:部分答案来自源
下面是CS299的课堂讲稿(作者:Andrew Ng)中与主题相关的最重要的部分,其中真的帮助我理解区别的和生成学习算法之间的区别。
假设我们有两类动物,大象(y = 1)和狗(y = 0)。x是动物的特征向量。
y = 1
y = 0
生成算法模型将完全从训练数据中学习,并预测响应。
判别算法的工作就是对两种结果进行分类或区分。
不同的模型总结如下表: # EYZ0 < / p >
图片来源:监督学习备考单-斯坦福CS 229(机器学习)
之前的答案都很好,我想再补充一点。
从生成算法模型中,我们可以推导出任何分布;而我们只能从判别算法模型中得到条件分布P(Y|X)(或者我们可以说它们只对判别Y的标签有用),这就是为什么它被称为判别模型。判别模型不假设X是独立的给定Y($X_i \perp X_{-i} | Y$),因此通常更强大的计算条件分布。
这里的许多答案都依赖于广泛使用的数学定义[1]:
判别模型直接学习条件预测分布p(y|x)。 生成式模型学习联合分布p(x,y)(或者更确切地说,p(x|y)和p(y))。 预测分布p(y|x)可以用贝叶斯规则得到。 李< / ul > < / >
p(x|y)
p(y)
尽管非常有用,但是这个狭窄的定义假设有监督设置,在检查无监督或半监督方法时不太方便。它也是并不适用于许多当代的深度生成建模方法。例如,现在我们有隐式生成模型,例如生成式对抗网络(GANs),它是基于采样的,甚至不显式地对概率密度p(x)建模(而是通过判别器网络学习发散度测量)。但我们称其为“生成模型”,因为它们用于生成(高维[10])样本。
更广泛和更基本的定义[2]似乎同样适合这个普遍问题:
判别模型学习类之间的边界。 所以他们可以在不同类型的数据实例之间使用歧视。 李< / ul > < / > 生成模型学习数据的分布。 因此他们可以生成新的数据实例。 李< / ul > < / >
# EYZ0 < / em >
即便如此,这个问题还是暗示了一种错误的二分法。生成判别“二分法”实际上是一个光谱,您甚至可以在[4]之间平滑地插入它。
因此,这种区分变得武断和令人困惑,特别是当许多流行的模型并没有整齐地归入其中一个或另一个时[5,6],或者实际上是混合模型(经典的“判别”和“生成”模型的组合)。
尽管如此,这仍然是一个非常有用和常见的区别。我们可以列出一些生成式和判别式模型的明确例子,既有标准的,也有最近的:
还有很多有趣的工作深入研究了生成-判别划分[7]和频谱[4,8],甚至将判别模型转换为生成模型[9]。
最后,定义在不断变化,尤其是在这个快速发展的领域:)最好对它们有所保留,甚至可以为自己和他人重新定义它们。
这文章帮助我理解了这个概念。
总之,
一些不错的阅读材料:条件概率, 联合PDF