Algorithm C4.5算法中的数值

Algorithm C4.5算法中的数值,algorithm,decision-tree,c4.5,Algorithm,Decision Tree,C4.5,阈值Z: –首先根据所考虑的属性Y的值对训练样本进行排序。这些值的数量有限,所以让我们按排序顺序将它们表示为{v1,v2,…,vm}位于via和vi+1之间的任何阈值将具有相同的效果,即将案例划分为属性Y的值位于{v1,v2,…,vi}的案例和值位于{vi+1,vi+2,…,vm}的案例。因此,Y上只有m-1个可能的分裂,所有这些都应该系统地检查,以获得最佳分裂 通常选择每个区间的中点:(vi+vi+1)/2作为代表性阈值C4.5为每个间隔{vi,vi+1}选择较小的值vi作为阈值,而不是中点本

阈值Z:

–首先根据所考虑的属性Y的值对训练样本进行排序。这些值的数量有限,所以让我们按排序顺序将它们表示为{v1,v2,…,vm}位于via和vi+1之间的任何阈值将具有相同的效果,即将案例划分为属性Y的值位于{v1,v2,…,vi}的案例和值位于{vi+1,vi+2,…,vm}的案例。因此,Y上只有m-1个可能的分裂,所有这些都应该系统地检查,以获得最佳分裂

通常选择每个区间的中点:(vi+vi+1)/2作为代表性阈值C4.5为每个间隔{vi,vi+1}选择较小的值vi作为阈值,而不是中点本身

我只是想知道这是否正确

假设我有:

{65, 70, 75, 78, 80, 85, 90, 95, 96}. 
我必须进行m-1计算,以找到最佳值

{65, 70, 75, 78, 80, 85, 90, 95}.     
对于每次拆分(例如65和>=65、=70等)。我必须计算
增益比,然后选择给我更高增益的分割。我说得对吗