Xi is input vector {xi1, xi2, ... xiM}
yi is the label (or output or class).
射频讯号摘要:
随机森林算法是一种主要基于两种方法的分类器-
装袋
随机子空间方法
假设我们决定在我们的森林中有 S数量的树,那么我们首先创建 "same size as original"的 S数据集,这些数据集是通过随机重采样 T 中的数据(每个数据集 n 次)创建的。这将导致 {T1, T2, ... TS}数据集。其中的每一个都称为引导数据集。由于“用替换”,每个数据集 Ti可能有重复的数据记录,并且 Ti 可能会从原始数据集中丢失几个数据记录。这就是 Bootstrapping。( en.wikipedia.org/wiki/bootstrapping_(statistics))
装袋的过程是采取自举,然后汇总每个自举学到的模型。
现在,RF 创建 S树,并使用 m (=sqrt(M) or =floor(lnM+1))随机子特征从 M可能的特征创建任何树。这叫随机子空间方法。
因此,对于每个 Ti引导数据集,您创建一个树 Ki。如果你想分类一些输入数据 D = {x1, x2, ..., xM},你让它通过每棵树,并产生 S输出(每棵树一个) ,这可以由 Y = {y1, y2, ..., ys}表示。最后的预测是大多数人投票决定。