Python 新闻博客的特征提取_Python_Machine Learning_Deep Learning_Web Crawler_Data Science

Python 新闻博客的特征提取

python machine-learning deep-learning web-crawler

Python 新闻博客的特征提取,python,machine-learning,deep-learning,web-crawler,data-science,Python,Machine Learning,Deep Learning,Web Crawler,Data Science,我不熟悉数据科学/机器学习。我必须编写一个网络爬虫并从每个博客中提取特征。这些标签形式的功能说明了行业、特定产品、工具以及类似的东西。我已经做了一部分的刮擦，但现在我被实体识别卡住了。我做了数据处理（标记化、数据清理、删除停止词/标点、词干分析/柠檬化）。现在，我必须为特征提取做什么？好的，那么您需要做的是设置一个数据帧在第一列中，您需要拥有网站或博客的全部文本，以及您提到的流程。在以下列中，对于要应用于数据集的每个标记，需要有一列，一列是热编码的然后，您需要手动标记数千篇使用该热编

我不熟悉数据科学/机器学习。我必须编写一个网络爬虫并从每个博客中提取特征。这些标签形式的功能说明了行业、特定产品、工具以及类似的东西。我已经做了一部分的刮擦，但现在我被实体识别卡住了。我做了数据处理（标记化、数据清理、删除停止词/标点、词干分析/柠檬化）。

现在，我必须为特征提取做什么？

好的，那么您需要做的是设置一个数据帧

在第一列中，您需要拥有网站或博客的全部文本，以及您提到的流程。在以下列中，对于要应用于数据集的每个标记，需要有一列，一列是热编码的

然后，您需要手动标记数千篇使用该热编码的网站或博客文章，以填充这些行

完成后，您可以训练您的机器。然后，您放入的任何新文章，机器都会输出属于该文章的标签的概率。github上可能有很多带有预训练模型的存储库，您可以使用。

谢谢您的回复。你能和我分享一些有用的文章和存储库的链接吗？当然！这是我几个月前做的一件事：