Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy:将嵌入href中的文本刮除_Python_Xpath_Scrapy - Fatal编程技术网

Python Scrapy:将嵌入href中的文本刮除

Python Scrapy:将嵌入href中的文本刮除,python,xpath,scrapy,Python,Xpath,Scrapy,我使用Scrapy刮取内容,如下所示: >>> response.css(".mt-0.mb-2").extract() ['<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href="https://www.example.com/results/item1/">THIS IS WHAT I WANT TO SCRAPE</a> </h4>', '<h4

我使用Scrapy刮取内容,如下所示:

>>> response.css(".mt-0.mb-2").extract()

['<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href="https://www.example.com/results/item1/">THIS IS WHAT I WANT TO SCRAPE</a>                    </h4>', '<h4 class="mt-0 mb-2">\n\t\t\t\t\t\t<a href=…

在处理这些类型的选择器时,XPath是提取它们的唯一方法吗?

以及
response.css(“.mt-0.mb-2 a::text”).extract()是什么?或者可能我误解了这个问题?

以及
response.css(“.mt-0.mb-2A::text”).extract()是什么意思?或者我误解了这个问题?

我只得到了制表符和空格,而不是实际的字符串“这是我要刮的”。你看到了吗,在css表达式中,我们添加了
a
,并将其文本与
a::text
。你试过了吗?抱歉我没看到!谢谢,这将帮助我更好地理解如何处理嵌套资源。我得到的只是制表符和空格,而不是实际的字符串“这是我想要刮取的”。您是否看到我们在css表达式中添加了
a
,并将其文本与
a::text
。你试过了吗?抱歉我没看到!谢谢,这将帮助我更好地理解如何处理嵌套资源。
>>> response.css(".mt-0.mb-2::text").extract()

['\n\t\t\t\t\t\t', '                    ', '\n\t\t\t\t\t\t', '                    ', '\n\t\t\t\t\t\t', '                    ', '\n\t\t\t\t\t\t',