Machine learning 如何从文档中提取功能

Machine learning 如何从文档中提取功能,machine-learning,nlp,data-science,feature-extraction,document-classification,Machine Learning,Nlp,Data Science,Feature Extraction,Document Classification,我有一个文档,我想为其提取重要的特征。在此基础上,选择应确保每个类别都有不同的列或(描述)。假设一个类别有5个不同的选择。我怎么知道哪个是重要的 我如何根据一些特定的规则选择功能,以便在将任何其他文档输入模型时,它应该选择最重要的类别及其选择,即使同一类别也可能有不同的选择?您能更具体一些吗?给出示例,展示您对代码的尝试以及您拥有的数据。这就是在堆栈溢出中获得答案的方式。=)问题分为两部分:1)如何从各种文档(.docx文件)中提取特定的标题名称。2) 如果在解析任何文档时该标题出现在文档中,它

我有一个文档,我想为其提取重要的特征。在此基础上,选择应确保每个类别都有不同的列或(描述)。假设一个类别有5个不同的选择。我怎么知道哪个是重要的


我如何根据一些特定的规则选择功能,以便在将任何其他文档输入模型时,它应该选择最重要的类别及其选择,即使同一类别也可能有不同的选择?

您能更具体一些吗?给出示例,展示您对代码的尝试以及您拥有的数据。这就是在堆栈溢出中获得答案的方式。=)问题分为两部分:1)如何从各种文档(.docx文件)中提取特定的标题名称。2) 如果在解析任何文档时该标题出现在文档中,它应该选择该标题和相应的表TIAGODUQUE,因为我对python编码非常陌生,在nlp字段中,我在下面从docx import Document file='test.docx'Document=Document(file)尝试过对于document.parations中的段落:if paration.style.name=='my header':打印(paragration.text),但这只给出了空字符串。如何在文档页面上交互特定标题是场景请将其添加到具有正确格式的问题中。您可以在此处找到所有帮助: