Nlp 关于从TripAdvisor抓取数据有什么建议吗_Nlp_Web Crawler_Corpus

Nlp 关于从TripAdvisor抓取数据有什么建议吗

nlp web-crawler

Nlp 关于从TripAdvisor抓取数据有什么建议吗,nlp,web-crawler,corpus,Nlp,Web Crawler,Corpus,我们目前正在进行NLP项目，需要从tripadvisor.com中提取语料库。我们期望输出为两种类型：注释和该注释的评级。我的问题是: 是否有适合此目的的爬行工具？它必须易于使用，python是首选。我发现了一种很好的汤，但我想在这里问一下其他的建议是否有专门用于此目的的完整工具？我是说为tripadvisor.com编写的程序对于从大型网站获取数据（评论/评级）的任何其他建议，我们将不胜感激语料库将用于大学研究的情感分析，我们需要尽快对其进行爬网。对于python，您可以使用scra

我们目前正在进行NLP项目，需要从tripadvisor.com中提取语料库。我们期望输出为两种类型：注释和该注释的评级。我的问题是:

是否有适合此目的的爬行工具？它必须易于使用，python是首选。我发现了一种很好的汤，但我想在这里问一下其他的建议
是否有专门用于此目的的完整工具？我是说为tripadvisor.com编写的程序
对于从大型网站获取数据（评论/评级）的任何其他建议，我们将不胜感激

语料库将用于大学研究的情感分析，我们需要尽快对其进行爬网。

对于python，您可以使用scrapy，这是一个熟练的爬网器框架

此外，我邀请您分享您收集的数据。如果tripadvisor数据已经准备好，则无需爬网。或者至少，您可以共享爬虫脚本

按照各自的顺序回答您的问题：

你需要的是一个网页抓取工具。爬虫可以自动完成这个过程在页面中导航，而scraper将HTML转换为结构化数据。在不同的应用程序中有许多可用的工具平台。不知道什么是好汤。你在设计这个吗你会买它吗
你可以根据自己的喜好准备好语料库或者制作一个网络刮板定制需求。您可以请求您的数据或编写刮刀手动使用。我不知道你的数据的结构，但是一些数据可以用谷歌电子表格来抓取。你可以看到。只要看看刮取的是哪种类型的数据，如果它与您的数据类似，那么您就可以使用它
无法对某些站点或其特定目录进行爬网。你可以查看他们的
```
robots.txt
```
，了解同样的情况。同时阅读政策在从网站中抓取数据之前，先对网站进行备份

您还没有询问，但有一些用于情绪分析的免费工具。

数据还没有准备好，但需要尽快抓取。当数据准备好后，我可以共享数据，但你确定是scrapy吗？你觉得靓汤怎么样@MuatikI认为scrapy是爬行web任务更合适的框架。漂亮的soap不是一回事，不是一个爬虫框架。尽管你不使用刮擦的、漂亮的汤或类似的东西；您仍然可以通过抓取网页，然后只使用正则表达式来进行爬网。