Nlp 可能的抗血小板

Nlp 可能的抗血小板,nlp,web-crawler,Nlp,Web Crawler,对于教育NLP项目,我需要一个所有意大利语单词的列表。我想我会写一个爬虫程序,从www.wordreference.com上获取单词。我将Python与mechanize crawler框架结合使用。但当我使用代码时: br = mechanize.Browser() br.open("http://www.wordreference.com/iten/abaco") html = br.response().get_data() print html 我从“yahoo.com”上看到

对于教育NLP项目,我需要一个所有意大利语单词的列表。我想我会写一个爬虫程序,从www.wordreference.com上获取单词。我将Python与mechanize crawler框架结合使用。但当我使用代码时:

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

我从“yahoo.com”上看到一些页面。有没有可能这个网站有一个防拉伤机制

我建议使用现有的数据集,这里有几个例子:

小体:

字网

  • -一个多语言词汇数据库,其中意大利语 WordNet与 普林斯顿WordNet 1.6

请查看acl wiki页面上的完整列表,我认为您应该找到一个意大利语语料库,它可以让您定义意大利语单词。

我建议使用现有的数据集,这里有几个例子:

小体:

字网

  • -一个多语言词汇数据库,其中意大利语 WordNet与 普林斯顿WordNet 1.6
请查看acl wiki页面上的完整列表,我认为您应该找到一个意大利语语料库,它可以让您定义意大利语单词。

几乎所有(大型)网站都有某种类型的流量监控,以确保不会对其进行数据爬网。这可以防止您窃取他们的数据(在本例中,尤其是专有定义数据)。你可能想看看是否有意大利语的开源词典列表。几乎所有(大型)网站都有某种类型的流量监控,以确保没有对其进行数据爬网。这可以防止您窃取他们的数据(在本例中,尤其是专有定义数据)。您可能希望查看是否有意大利语的开源词典列表。