对于信息增益, 决策树分裂节点, 下面说法正确的是（）1 纯度高的节点需要更多的信息去区分2 信息增益可以用”1比特-熵”获得3 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

小开

答案解析

C如图，5个样本数据按照节点X1的取值被划分到子节点，子节点的类别纯度为100%，故不需要更多的信息（如特征X2）继续划分，1错误。设类别为随机变量Y，特征为X，则信息增益 = H(Y)-H(Y|X)，H(Y)的取值为：[0,log(n)]，其中log底数为2，n是随机变量Y的取值个数。当n=2且正负样本概率均为0.5时，信息熵H(Y) = 1比特。所以信息增益可以用”1比特-熵”来获得，这里的熵即为条件熵H(Y|X)，”1比特-熵”加引号意思是在特定情况下的信息增益，所以2正确。以信息增益作为划分训练数据集的特征，存在偏向于选择值较多的特征的问题，也就是说选择一个属性具有许多归类值所获得的信息增益是有偏差的，使用信息增益比可以对这一问题进行校正。如图，5个样本数据按照节点X1的取值被划分到子节点，子节点的类别纯度为100%，故不需要更多的信息（如特征X2）继续划分，1错误。设类别为随机变量Y，特征为X，则信息增益 = H(Y)-H(Y|X)，H(Y)的取值为：[0,log(n)]，其中log底数为2，n是随机变量Y的取值个数。当n=2且正负样本概率均为0.5时，信息熵H(Y) = 1比特。所以信息增益可以用”1比特-熵”来获得，这里的熵即为条件熵H(Y|X)，”1比特-熵”加引号意思是在特定情况下的信息增益，所以2正确。以信息增益作为划分训练数据集的特征，存在偏向于选择值较多的特征的问题，也就是说选择一个属性具有许多归类值所获得的信息增益是有偏差的，使用信息增益比可以对这一问题进行校正。更多详细研究, 请看相关论文:A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio