Machine learning 按样式元素从html中提取标题和段落_Machine Learning_Data Mining_Text Classification_Unsupervised Learning

Machine learning 按样式元素从html中提取标题和段落

machine-learning

Machine learning 按样式元素从html中提取标题和段落,machine-learning,data-mining,text-classification,unsupervised-learning,Machine Learning,Data Mining,Text Classification,Unsupervised Learning,根据元素样式（fontSize，fontWeight，…）从html文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性，并将它们放在csv文件中，现在我需要知道如何对这些数据进行分类（或聚类？），以便它可以为我提供所有fontSize为20px、公差为+-5px的元素。这些元素将转换为h1标记，以此类推编辑：我可以使用聚类算法Simple KMeans和Weka中的曼哈顿距离函数将FontSize聚类成我想要的尽可能多的聚类。但是，我得到了每个集群的精确值，例

根据元素样式（fontSize，fontWeight，…）从html文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性，并将它们放在csv文件中，现在我需要知道如何对这些数据进行分类（或聚类？），以便它可以为我提供所有fontSize为20px、公差为+-5px的元素。这些元素将转换为h1标记，以此类推

编辑：我可以使用聚类算法Simple KMeans和Weka中的曼哈顿距离函数将FontSize聚类成我想要的尽可能多的聚类。但是，我得到了每个集群的精确值，例如：字体大小10px被捕获100次，20px被捕获200次，等等。。我需要一个范围，而不是一个特定的值来覆盖所有的值。

首先，这将是一个注释，但我是新手，现在不能写注释

我可以使用Weka中带有曼哈顿距离函数的聚类算法Simple KMeans将FontSize聚类成我想要的任意多个聚类。但是，我得到了每个集群的精确值，例如：字体大小10px被捕获100次，20px被捕获200次，等等。。我需要一个范围而不是一个特定的值来覆盖所有的值

您可以使用名为“numClusters”的选项指定集群的数量。因此，您可以强制weka构建任意数量的集群，这意味着如果您的值与集群的值不同，则必须使用范围而不是特定的数字

但我的问题是，为什么不使用一个简单的循环来迭代数据并手动指定想要的内容呢。差不多

if(fontSize < 10) {
/*Do s.th*/
}else if(fontSize < 20){
/*Do s.th.
}

if（fontSize<10）{
/*多斯*/
}否则如果（字体大小<20）{
/*做s.th。
}

因为这看起来更加可靠和容易。即使您有更多属性，也只需手动为每个集群定义attributeranges，并检查是否有任何数据集适合您的集群

如果您有大量的属性或集群，或者对数据没有很好的理解，我只建议您使用类似于weka的方法来完成此任务。但是你的任务看起来不是这样的。

试试基于机器学习的JavaAPI。您可以测试不同的模型

为什么要依赖集群？这还不够可靠。我正在寻求你们的建议。你有什么建议？使用一个阈值。