使用python从wix获取数据(文本)
我正在做一个python项目,其中我创建了一个测试wix网站。 我想使用urllib从wix网站获取数据(文本) 所以我做了 url.urlopen(地址).readlines() 问题是它没有从页面中的文本中提供任何信息,只提供有关HTML页面结构的信息。使用python从wix获取数据(文本),python,html,urllib,velo,Python,Html,Urllib,Velo,我正在做一个python项目,其中我创建了一个测试wix网站。 我想使用urllib从wix网站获取数据(文本) 所以我做了 url.urlopen(地址).readlines() 问题是它没有从页面中的文本中提供任何信息,只提供有关HTML页面结构的信息。 如何从网站中提取所需的文本信息?我认为您需要解析html以获取所需信息。查看此python库: 您可能会这样做: from html.parser import HTMLParser rel_data = [] class MyHTML
如何从网站中提取所需的文本信息?我认为您需要解析html以获取所需信息。查看此python库: 您可能会这样做:
from html.parser import HTMLParser
rel_data = []
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
rel_data.append(data)
parser = MyHTMLParser()
parser.feed('<html><head><title>Test</title></head>'
'<body><h1>Parse me!</h1></body></html>')
print(rel_data)
比如说,它给了我一个导入错误,我应该使用from-HTMLParser-import-HTMLParser吗?是的,这样可以。我应该指定我使用的是python 3。对于Python2,导入是“从HTMLParser导入HTMLParser”。好的,现在似乎可以了,但它是说我在MyHTMLParser类中给出了3个参数,而不是2个,这里是一个屏幕截图-没关系,我不小心导入了错误的参数。它确实来自HTMLPasser导入HTMLPasser。非常感谢你所做的一切!!!我还有一个问题,我刚刚看到一个名为scrapy的Pyton库,它的角色与HTMLPasser相同吗?我对scrapy不太了解,但它看起来也很有用。简单地看一下,如果您愿意,您可以查询特定的标记名。别忘了选择最佳答案:)
["Test", "Parse me!"]