Nlp 关于从TripAdvisor抓取数据有什么建议吗

Nlp 关于从TripAdvisor抓取数据有什么建议吗,nlp,web-crawler,corpus,Nlp,Web Crawler,Corpus,我们目前正在进行NLP项目,需要从tripadvisor.com中提取语料库。我们期望输出为两种类型:注释和该注释的评级。我的问题是: 是否有适合此目的的爬行工具?它必须易于使用,python是首选。我发现了一种很好的汤,但我想在这里问一下其他的建议 是否有专门用于此目的的完整工具?我是说为tripadvisor.com编写的程序 对于从大型网站获取数据(评论/评级)的任何其他建议,我们将不胜感激 语料库将用于大学研究的情感分析,我们需要尽快对其进行爬网。对于python,您可以使用scra

我们目前正在进行NLP项目,需要从tripadvisor.com中提取语料库。我们期望输出为两种类型:注释和该注释的评级。我的问题是:

  • 是否有适合此目的的爬行工具?它必须易于使用,python是首选。我发现了一种很好的汤,但我想在这里问一下其他的建议

  • 是否有专门用于此目的的完整工具?我是说为tripadvisor.com编写的程序

  • 对于从大型网站获取数据(评论/评级)的任何其他建议,我们将不胜感激


语料库将用于大学研究的情感分析,我们需要尽快对其进行爬网。

对于python,您可以使用scrapy,这是一个熟练的爬网器框架


此外,我邀请您分享您收集的数据。如果tripadvisor数据已经准备好,则无需爬网。或者至少,您可以共享爬虫脚本

按照各自的顺序回答您的问题:

  • 你需要的是一个网页抓取工具。爬虫可以自动完成这个过程 在页面中导航,而scraper将HTML转换为 结构化数据。在不同的应用程序中有许多可用的工具 平台。不知道什么是好汤。你在设计这个吗 你会买它吗

  • 你可以根据自己的喜好准备好语料库或者制作一个网络刮板 定制需求。您可以请求您的数据或编写刮刀 手动使用。我不知道你的数据的结构,但是一些数据可以用谷歌电子表格来抓取。你可以看到。只要看看刮取的是哪种类型的数据,如果它与您的数据类似,那么您就可以使用它

  • 无法对某些站点或其特定目录进行爬网。你可以 查看他们的
    robots.txt
    ,了解同样的情况。同时阅读政策 在从网站中抓取数据之前,先对网站进行备份


您还没有询问,但有一些用于情绪分析的免费工具。

数据还没有准备好,但需要尽快抓取。当数据准备好后,我可以共享数据,但你确定是scrapy吗?你觉得靓汤怎么样@MuatikI认为scrapy是爬行web任务更合适的框架。漂亮的soap不是一回事,不是一个爬虫框架。尽管你不使用刮擦的、漂亮的汤或类似的东西;您仍然可以通过抓取网页,然后只使用正则表达式来进行爬网。