Python 新闻博客的特征提取

Python 新闻博客的特征提取,python,machine-learning,deep-learning,web-crawler,data-science,Python,Machine Learning,Deep Learning,Web Crawler,Data Science,我不熟悉数据科学/机器学习。 我必须编写一个网络爬虫并从每个博客中提取特征。这些标签形式的功能说明了行业、特定产品、工具以及类似的东西。 我已经做了一部分的刮擦,但现在我被实体识别卡住了。 我做了数据处理(标记化、数据清理、删除停止词/标点、词干分析/柠檬化)。 现在,我必须为特征提取做什么?好的,那么您需要做的是设置一个数据帧 在第一列中,您需要拥有网站或博客的全部文本,以及您提到的流程。在以下列中,对于要应用于数据集的每个标记,需要有一列,一列是热编码的 然后,您需要手动标记数千篇使用该热编

我不熟悉数据科学/机器学习。 我必须编写一个网络爬虫并从每个博客中提取特征。这些标签形式的功能说明了行业、特定产品、工具以及类似的东西。 我已经做了一部分的刮擦,但现在我被实体识别卡住了。 我做了数据处理(标记化、数据清理、删除停止词/标点、词干分析/柠檬化)。
现在,我必须为特征提取做什么?

好的,那么您需要做的是设置一个数据帧

在第一列中,您需要拥有网站或博客的全部文本,以及您提到的流程。在以下列中,对于要应用于数据集的每个标记,需要有一列,一列是热编码的

然后,您需要手动标记数千篇使用该热编码的网站或博客文章,以填充这些行


完成后,您可以训练您的机器。然后,您放入的任何新文章,机器都会输出属于该文章的标签的概率。github上可能有很多带有预训练模型的存储库,您可以使用。

谢谢您的回复。你能和我分享一些有用的文章和存储库的链接吗?当然!这是我几个月前做的一件事: