Machine learning 按样式元素从html中提取标题和段落

Machine learning 按样式元素从html中提取标题和段落,machine-learning,data-mining,text-classification,unsupervised-learning,Machine Learning,Data Mining,Text Classification,Unsupervised Learning,根据元素样式(fontSize,fontWeight,…)从html文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性,并将它们放在csv文件中,现在我需要知道如何对这些数据进行分类(或聚类?),以便它可以为我提供所有fontSize为20px、公差为+-5px的元素。这些元素将转换为h1标记,以此类推 编辑:我可以使用聚类算法Simple KMeans和Weka中的曼哈顿距离函数将FontSize聚类成我想要的尽可能多的聚类。但是,我得到了每个集群的精确值,例

根据元素样式(fontSize,fontWeight,…)从html文件中提取标题和段落的最佳数据挖掘策略是什么。我已经提取了文本和fontSize属性,并将它们放在csv文件中,现在我需要知道如何对这些数据进行分类(或聚类?),以便它可以为我提供所有fontSize为20px、公差为+-5px的元素。这些元素将转换为h1标记,以此类推


编辑:我可以使用聚类算法Simple KMeans和Weka中的曼哈顿距离函数将FontSize聚类成我想要的尽可能多的聚类。但是,我得到了每个集群的精确值,例如:字体大小10px被捕获100次,20px被捕获200次,等等。。我需要一个范围,而不是一个特定的值来覆盖所有的值。

首先,这将是一个注释,但我是新手,现在不能写注释

我可以使用Weka中带有曼哈顿距离函数的聚类算法Simple KMeans将FontSize聚类成我想要的任意多个聚类。但是,我得到了每个集群的精确值,例如:字体大小10px被捕获100次,20px被捕获200次,等等。。我需要一个范围而不是一个特定的值来覆盖所有的值

您可以使用名为“numClusters”的选项指定集群的数量。因此,您可以强制weka构建任意数量的集群,这意味着如果您的值与集群的值不同,则必须使用范围而不是特定的数字

但我的问题是,为什么不使用一个简单的循环来迭代数据并手动指定想要的内容呢。 差不多

if(fontSize < 10) {
/*Do s.th*/
}else if(fontSize < 20){
/*Do s.th.
}
if(fontSize<10){
/*多斯*/
}否则如果(字体大小<20){
/*做s.th。
}
因为这看起来更加可靠和容易。 即使您有更多属性,也只需手动为每个集群定义attributeranges,并检查是否有任何数据集适合您的集群


如果您有大量的属性或集群,或者对数据没有很好的理解,我只建议您使用类似于weka的方法来完成此任务。但是你的任务看起来不是这样的。

试试基于机器学习的JavaAPI。您可以测试不同的模型

为什么要依赖集群?这还不够可靠。我正在寻求你们的建议。你有什么建议?使用一个阈值。