Machine learning 已知哪些方法可以通过机器学习从以前未知的网页中提取产品/服务数据?

Machine learning 已知哪些方法可以通过机器学习从以前未知的网页中提取产品/服务数据?,machine-learning,web-scraping,Machine Learning,Web Scraping,为了避免重蹈覆辙,已知哪些方法可以通过机器学习从以前未知的网页中提取产品信息/服务信息 搜索引擎中的哪些关键字可以为我提供有关此主题的更好结果?一种方法如下: 以原始html页面为例 去除所有html/script标记 数一数所有单词并将它们放入一个列表中 去掉所有常见的单词,如“是”、“那”、“我们”等等 然后你用关键词做你必须做的事情。。如果要爬网,请获取所有链接并重复该过程 大多数网页的de head部分都有元标记,这些标记可能也很有用: <head> <meta nam

为了避免重蹈覆辙,已知哪些方法可以通过机器学习从以前未知的网页中提取产品信息/服务信息


搜索引擎中的哪些关键字可以为我提供有关此主题的更好结果?

一种方法如下:

  • 以原始html页面为例
  • 去除所有html/script标记
  • 数一数所有单词并将它们放入一个列表中
  • 去掉所有常见的单词,如“是”、“那”、“我们”等等
  • 然后你用关键词做你必须做的事情。。如果要爬网,请获取所有链接并重复该过程
  • 大多数网页的de head部分都有元标记,这些标记可能也很有用:

    <head>
    <meta name="description" content="webpage with product content">
    <meta name="keywords" content="Cameras">
    <meta name="author" content="">
    <meta charset="UTF-8">
    </head>
    
    
    
    一种方法是列出所有单词,然后去掉简单的单词,如“is”。网站可能也会使用元标记:-)@StijnDeSmet请详细说明。我不喜欢这种方法,因为它不是很健壮。关键词标签不经常被使用。此外,剥离方法可能只是解决了“找到合适的产品站点”问题,而不是“针对各种各样的产品内容放置和格式正确提取/刮取产品/服务”-问题。我认为如果你真的想刮产品,你将不得不编写一个爬虫与每个网站系统单独的模板。