Machine learning 已知哪些方法可以通过机器学习从以前未知的网页中提取产品/服务数据？_Machine Learning_Web Scraping

Machine learning 已知哪些方法可以通过机器学习从以前未知的网页中提取产品/服务数据？

machine-learning web-scraping

Machine learning 已知哪些方法可以通过机器学习从以前未知的网页中提取产品/服务数据？,machine-learning,web-scraping,Machine Learning,Web Scraping,为了避免重蹈覆辙，已知哪些方法可以通过机器学习从以前未知的网页中提取产品信息/服务信息搜索引擎中的哪些关键字可以为我提供有关此主题的更好结果？一种方法如下：以原始html页面为例去除所有html/script标记数一数所有单词并将它们放入一个列表中去掉所有常见的单词，如“是”、“那”、“我们”等等然后你用关键词做你必须做的事情。。如果要爬网，请获取所有链接并重复该过程大多数网页的de head部分都有元标记，这些标记可能也很有用： <head> <meta nam

为了避免重蹈覆辙，已知哪些方法可以通过机器学习从以前未知的网页中提取产品信息/服务信息

搜索引擎中的哪些关键字可以为我提供有关此主题的更好结果？

一种方法如下：

以原始html页面为例

去除所有html/script标记

数一数所有单词并将它们放入一个列表中

去掉所有常见的单词，如“是”、“那”、“我们”等等

然后你用关键词做你必须做的事情。。如果要爬网，请获取所有链接并重复该过程

大多数网页的de head部分都有元标记，这些标记可能也很有用：

<head>
<meta name="description" content="webpage with product content">
<meta name="keywords" content="Cameras">
<meta name="author" content="">
<meta charset="UTF-8">
</head>

一种方法是列出所有单词，然后去掉简单的单词，如“is”。网站可能也会使用元标记：-）@StijnDeSmet请详细说明。我不喜欢这种方法，因为它不是很健壮。关键词标签不经常被使用。此外，剥离方法可能只是解决了“找到合适的产品站点”问题，而不是“针对各种各样的产品内容放置和格式正确提取/刮取产品/服务”-问题。我认为如果你真的想刮产品，你将不得不编写一个爬虫与每个网站系统单独的模板。