Java 从非英语网站获取纯文本内容_Java_Python_Web Scraping_Web Crawler_Non English

Java 从非英语网站获取纯文本内容

java python web-scraping web-crawler

Java 从非英语网站获取纯文本内容,java,python,web-scraping,web-crawler,non-english,Java,Python,Web Scraping,Web Crawler,Non English,我正在尝试获取非英语网站的纯文本内容。例如，我想得到对于英文网站的文本转储，我使用wget获取内容。然后使用HTML解析器删除HTML标记，并给出清晰的文本在非英语网站上工作的等效工具是什么这只是我正在探索的一个宠物项目。速度不是什么大问题。我会在Linux环境下编写代码，最好使用Python、Java或C/C++（按顺序）。这听起来像是在遇到unicode时解析HTML的方法失败了。有一个叫做BeautifulSoup的模块，它非常适合解析各种各样的网站，而且它可以很好地处理unicod

我正在尝试获取非英语网站的纯文本内容。例如，我想得到

对于英文网站的文本转储，我使用

wget

获取内容。然后使用HTML解析器删除HTML标记，并给出清晰的文本

在非英语网站上工作的等效工具是什么

这只是我正在探索的一个宠物项目。速度不是什么大问题。我会在Linux环境下编写代码，最好使用Python、Java或C/C++（按顺序）。

这听起来像是在遇到unicode时解析HTML的方法失败了。有一个叫做BeautifulSoup的模块，它非常适合解析各种各样的网站，而且它可以很好地处理unicode。以交互方式尝试：

>>> import urllib, BeautifulSoup
>>> html = urllib.urlopen( 'http://www.bbc.co.uk/hindi/' ).read()
>>> soup = BeautifulSoup.BeautifulSoup( html )
>>> print soup.find( 'title' ).contents
[u'BBC Hindi - \u092a\u0939\u0932\u093e \u092a\u0928\u094d\u0928\u093e']

我的终端无法打印这些字符，但是您通常显示的印地语文本在这里也可以使用。

您能否更准确地说明“非英语”网站的含义。我所说的“非英语”是指内容使用其他语言。就像印地语一样。我对有印度语言文本的网页感兴趣。为什么你认为对于不同的语言，工具应该有所不同？您是否在印地语网站上尝试过wget/HTML解析器方法？发生了什么事？我刚刚尝试了python urllib，显然没有问题。对于英文网站的文本转储，我使用wget获取内容。然后使用HTML解析器删除HTML标记，并给出清晰的文本。在非英语网站上工作的等效工具是什么？我认为它们是用于获取内容的wget，然后是用于删除HTML标记并提供干净文本的HTML解析器。为什么你认为wget不能工作？如果他已经有了一个语法分析器，那么这个语法分析器也应该可以工作。@froody:OP没有向我们展示他的代码，也没有告诉我们什么对他来说不适用于印地语页面。。。你是在引导他，还是只是在猜测，当你说“这听起来像是你用来解析HTML的方法在遇到unicode时失败了”？@John，我只是在猜测。但关键是，只要几行代码，他就可以完成他想要的。大概这对OP有帮助。@lc2817，wget也可以工作。这只是一个简单示例中的更多代码。你如何下载数据并不重要。@froody：如果他真的尝试过的话，更有用的是找出为什么他的wget方法不起作用。