Python 2.7 从css选择器中提取包含粗体内容的文本

Python 2.7 从css选择器中提取包含粗体内容的文本,python-2.7,web-scraping,css-selectors,scrapy,Python 2.7,Web Scraping,Css Selectors,Scrapy,我试图从论坛帖子中提取文本,但是粗体元素被忽略了 如何提取原始数据,如一些文本以提取粗体内容?目前我只获取一些文本以提取? <blockquote class="messageText SelectQuoteContainer ugc baseHtml"> Some text to extract <b>bold content</b>? </blockquote> 您的css选择器中需要一个空格: 'blockquote ::text'

我试图从论坛帖子中提取文本,但是粗体元素被忽略了

如何提取原始数据,如
一些文本以提取粗体内容?
目前我只获取
一些文本以提取?

<blockquote class="messageText SelectQuoteContainer ugc baseHtml">
Some text to extract <b>bold content</b>?
</blockquote>

您的css选择器中需要一个空格:

'blockquote ::text'
           ^

因为您需要blockquote下每个降序节点的
文本
,没有空格,它只表示blockquote节点的文本。

使用
*
选择器选择元素内所有内部元素的文本


'.join([a.strip()表示引号中的某个.css('blockquote*::text').extract()])

非选择器是否将停止使用空格
blockquote:not(.bbCodeBlock)::text
显然是的。@anvd刚刚测试过,它应该并且工作正常。测试:
'blockquote:not(.foo)::text'
标记有点复杂,它将无法按预期工作@anvd这不是javascript。Scrapy将所有css选择器转换为xpath,因此这里唯一重要的css选择器实现是
cssselect
包,请参阅:。感谢链接,但目前的问题是css。我甚至不知道如何选择文本中没有任何关联元素的部分。现在的问题是css
'blockquote ::text'
           ^