Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/311.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用python从wix获取数据(文本)_Python_Html_Urllib_Velo - Fatal编程技术网

使用python从wix获取数据(文本)

使用python从wix获取数据(文本),python,html,urllib,velo,Python,Html,Urllib,Velo,我正在做一个python项目,其中我创建了一个测试wix网站。 我想使用urllib从wix网站获取数据(文本) 所以我做了 url.urlopen(地址).readlines() 问题是它没有从页面中的文本中提供任何信息,只提供有关HTML页面结构的信息。 如何从网站中提取所需的文本信息?我认为您需要解析html以获取所需信息。查看此python库: 您可能会这样做: from html.parser import HTMLParser rel_data = [] class MyHTML

我正在做一个python项目,其中我创建了一个测试wix网站。 我想使用urllib从wix网站获取数据(文本) 所以我做了 url.urlopen(地址).readlines() 问题是它没有从页面中的文本中提供任何信息,只提供有关HTML页面结构的信息。
如何从网站中提取所需的文本信息?

我认为您需要解析html以获取所需信息。查看此python库:

您可能会这样做:

from html.parser import HTMLParser
rel_data = []

class MyHTMLParser(HTMLParser):

    def handle_data(self, data):
         rel_data.append(data)


parser = MyHTMLParser()
parser.feed('<html><head><title>Test</title></head>'
            '<body><h1>Parse me!</h1></body></html>')
print(rel_data)

比如说,它给了我一个导入错误,我应该使用from-HTMLParser-import-HTMLParser吗?是的,这样可以。我应该指定我使用的是python 3。对于Python2,导入是“从HTMLParser导入HTMLParser”。好的,现在似乎可以了,但它是说我在MyHTMLParser类中给出了3个参数,而不是2个,这里是一个屏幕截图-没关系,我不小心导入了错误的参数。它确实来自HTMLPasser导入HTMLPasser。非常感谢你所做的一切!!!我还有一个问题,我刚刚看到一个名为scrapy的Pyton库,它的角色与HTMLPasser相同吗?我对scrapy不太了解,但它看起来也很有用。简单地看一下,如果您愿意,您可以查询特定的标记名。别忘了选择最佳答案:)
["Test", "Parse me!"]