Python 从Beauty soup中获取信息并将其放入文本文件？_Python_Beautifulsoup_Urllib

Python 从Beauty soup中获取信息并将其放入文本文件？

python

Python 从Beauty soup中获取信息并将其放入文本文件？,python,beautifulsoup,urllib,Python,Beautifulsoup,Urllib,我已经开始学习如何使用urllib和beautifulsoup从网站上获取信息。我想获取代码中此页面的所有文本，并将其放入文本文件中 import urllib from bs4 import BeautifulSoup as Soup base_url = "http://www.galactanet.com/oneoff/theegg_mod.html" url = (base_url) soup = Soup(urllib.urlopen(url)) print(soup.get_

我已经开始学习如何使用urllib和beautifulsoup从网站上获取信息。我想获取代码中此页面的所有文本，并将其放入文本文件中

import urllib
from bs4 import BeautifulSoup as Soup
base_url = "http://www.galactanet.com/oneoff/theegg_mod.html"



url = (base_url)
soup = Soup(urllib.urlopen(url))

print(soup.get_text())

当我运行这个程序时，它会抓取文本，尽管它输出的文本中所有字母之间都有空格，但仍然显示HTML，不确定为什么

i   n   '   >      Y   u   p   .       B   u   t       d   o   n      t       f   e   e

像这样，有什么好主意吗

我该怎么做才能把这些信息放到一个文本文件中呢

使用beautifulsoup4并运行Ubuntu12.04和python 2.7

谢谢：

您可以尝试使用html2text:

我在编码方面遇到了一些问题，因此我稍微更改了您的代码，然后添加了一段代码以将结果打印到文件中：

import urllib
from bs4 import BeautifulSoup as Soup

base_url = "http://www.galactanet.com/oneoff/theegg_mod.html"

url = (base_url)
content = urllib.urlopen(url)
soup = Soup(content)
# print soup.original_encoding
theegg_text = soup.get_text().encode("windows-1252")

f = open("somefile.txt", "w")
f.write(theegg_text);
f.close()

import urllib
from bs4 import BeautifulSoup as Soup

base_url = "http://www.galactanet.com/oneoff/theegg_mod.html"

url = (base_url)
content = urllib.urlopen(url)
soup = Soup(content)
# print soup.original_encoding
theegg_text = soup.get_text().encode("windows-1252")

f = open("somefile.txt", "w")
f.write(theegg_text);
f.close()