Web crawler 机器学习示例-确定网站是商业网站还是个人网站

Web crawler 机器学习示例-确定网站是商业网站还是个人网站,web-crawler,supervised-learning,Web Crawler,Supervised Learning,我有一个机器学习问题。我有一个很长的域名列表,我必须找出哪些是电子商务网站,哪些是个人网站。这是一个困难的问题,因为我没有任何训练数据。我提出了几个想法: 手动浏览几百个这样的网站,判断它们是商业网站还是个人网站,并以这种方式开发培训集(冗长而乏味!) 抓取这些网站,搜索一些关键词,如“立即购买”、“价格”、“信用卡”。等等 有人有其他方法吗 感谢您可以自适应地修改关键字集:当您四处爬行时,可以将与现有关键字高度相关的单词添加到列表中。 彼得 p、 我想添加这一点作为评论,但我没有足够的声誉点…

我有一个机器学习问题。我有一个很长的域名列表,我必须找出哪些是电子商务网站,哪些是个人网站。这是一个困难的问题,因为我没有任何训练数据。我提出了几个想法:

  • 手动浏览几百个这样的网站,判断它们是商业网站还是个人网站,并以这种方式开发培训集(冗长而乏味!)

  • 抓取这些网站,搜索一些关键词,如“立即购买”、“价格”、“信用卡”。等等

  • 有人有其他方法吗


    感谢您可以自适应地修改关键字集:当您四处爬行时,可以将与现有关键字高度相关的单词添加到列表中。 彼得
    p、 我想添加这一点作为评论,但我没有足够的声誉点…

    我认为爬行是正确的方式,但我建议寻找带有“地点”、“联系我们”等链接的网站,而不是简单的关键词。好吧,让我们试着帮你做到这一点;)+1.