Machine learning 使用NER从网页中提取信息

Machine learning 使用NER从网页中提取信息,machine-learning,nlp,ner,Machine Learning,Nlp,Ner,我的任务是从特定网站的各种网页中提取信息。现在,要提取的信息可以是产品名称、产品id、价格等形式。这些信息使用自然语言以文本形式给出。此外,我还被要求使用一些机器学习算法提取这些信息。我想到了使用NER(命名实体识别)并在定制的训练数据上训练它(我可以使用刮取的数据进行准备,并根据需要手动标记整数/数据)。我想知道这个模型是否可以这样工作 另外,如果我能进一步改进这个问题,请告诉我。你说的是一个特定的站点。我假设这意味着你对网页的结构有了一些合理的了解,如果数据是表格形式或自由文本形式,那么网站

我的任务是从特定网站的各种网页中提取信息。现在,要提取的信息可以是产品名称、产品id、价格等形式。这些信息使用自然语言以文本形式给出。此外,我还被要求使用一些机器学习算法提取这些信息。我想到了使用NER(命名实体识别)并在定制的训练数据上训练它(我可以使用刮取的数据进行准备,并根据需要手动标记整数/数据)。我想知道这个模型是否可以这样工作


另外,如果我能进一步改进这个问题,请告诉我。

你说的是一个特定的站点。我假设这意味着你对网页的结构有了一些合理的了解,如果数据是表格形式或自由文本形式,那么网站通常是什么样子的。在本例中,一个简单的正则表达式(prices,ids等)由一些POS标记器支持,用于提取产品名称和所有内容就足够了。有监督的方法无疑是一种过火的方法,可能比简单的正则表达式表现差

正如我提到的,你所说的文本或网站中的信息是用自然语言提供的。因此,所提供的信息没有特定的格式。数据不是表格或任何结构化格式。另外,有人特别告诉我要用机器学习来实现这一点。我仍然认为,有监督的价格提取方法肯定是一种过火的做法。你应该问那些人他们要求你使用机器学习的原因是什么,然后更新问题。好的,当然。但就目前而言,如果我使用人工标签(如果我考虑了大约300-400个这样的产品页面)在培训数据上训练模型,并在测试数据上运行它,我能得到什么好结果吗?@Abhinav否。特别是对于价格和产品名称,这将是一个坏主意。