Java 从非英语网站获取纯文本内容

Java 从非英语网站获取纯文本内容,java,python,web-scraping,web-crawler,non-english,Java,Python,Web Scraping,Web Crawler,Non English,我正在尝试获取非英语网站的纯文本内容。例如,我想得到 对于英文网站的文本转储,我使用wget获取内容。然后使用HTML解析器删除HTML标记,并给出清晰的文本 在非英语网站上工作的等效工具是什么 这只是我正在探索的一个宠物项目。速度不是什么大问题。我会在Linux环境下编写代码,最好使用Python、Java或C/C++(按顺序)。这听起来像是在遇到unicode时解析HTML的方法失败了。有一个叫做BeautifulSoup的模块,它非常适合解析各种各样的网站,而且它可以很好地处理unicod

我正在尝试获取非英语网站的纯文本内容。例如,我想得到

对于英文网站的文本转储,我使用
wget
获取内容。然后使用HTML解析器删除HTML标记,并给出清晰的文本

在非英语网站上工作的等效工具是什么


这只是我正在探索的一个宠物项目。速度不是什么大问题。我会在Linux环境下编写代码,最好使用Python、Java或C/C++(按顺序)。

这听起来像是在遇到unicode时解析HTML的方法失败了。有一个叫做BeautifulSoup的模块,它非常适合解析各种各样的网站,而且它可以很好地处理unicode。以交互方式尝试:

>>> import urllib, BeautifulSoup
>>> html = urllib.urlopen( 'http://www.bbc.co.uk/hindi/' ).read()
>>> soup = BeautifulSoup.BeautifulSoup( html )
>>> print soup.find( 'title' ).contents
[u'BBC Hindi - \u092a\u0939\u0932\u093e \u092a\u0928\u094d\u0928\u093e']

我的终端无法打印这些字符,但是您通常显示的印地语文本在这里也可以使用。

您能否更准确地说明“非英语”网站的含义。我所说的“非英语”是指内容使用其他语言。就像印地语一样。我对有印度语言文本的网页感兴趣。为什么你认为对于不同的语言,工具应该有所不同?您是否在印地语网站上尝试过wget/HTML解析器方法?发生了什么事?我刚刚尝试了python urllib,显然没有问题。对于英文网站的文本转储,我使用wget获取内容。然后使用HTML解析器删除HTML标记,并给出清晰的文本。在非英语网站上工作的等效工具是什么?我认为它们是用于获取内容的wget,然后是用于删除HTML标记并提供干净文本的HTML解析器。为什么你认为wget不能工作?如果他已经有了一个语法分析器,那么这个语法分析器也应该可以工作。@froody:OP没有向我们展示他的代码,也没有告诉我们什么对他来说不适用于印地语页面。。。你是在引导他,还是只是在猜测,当你说“这听起来像是你用来解析HTML的方法在遇到unicode时失败了”?@John,我只是在猜测。但关键是,只要几行代码,他就可以完成他想要的。大概这对OP有帮助。@lc2817,wget也可以工作。这只是一个简单示例中的更多代码。你如何下载数据并不重要。@froody:如果他真的尝试过的话,更有用的是找出为什么他的wget方法不起作用。