Python 2.7 从css选择器中提取包含粗体内容的文本_Python 2.7_Web Scraping_Css Selectors_Scrapy

Python 2.7 从css选择器中提取包含粗体内容的文本

python-2.7 web-scraping scrapy

Python 2.7 从css选择器中提取包含粗体内容的文本,python-2.7,web-scraping,css-selectors,scrapy,Python 2.7,Web Scraping,Css Selectors,Scrapy,我试图从论坛帖子中提取文本，但是粗体元素被忽略了如何提取原始数据，如一些文本以提取粗体内容？目前我只获取一些文本以提取？ <blockquote class="messageText SelectQuoteContainer ugc baseHtml"> Some text to extract <b>bold content</b>? </blockquote> 您的css选择器中需要一个空格： 'blockquote ::text'

我试图从论坛帖子中提取文本，但是粗体元素被忽略了

如何提取原始数据，如

一些文本以提取粗体内容？

目前我只获取

一些文本以提取？

<blockquote class="messageText SelectQuoteContainer ugc baseHtml">
Some text to extract <b>bold content</b>?
</blockquote>

您的css选择器中需要一个空格：

'blockquote ::text'
           ^

因为您需要blockquote下每个降序节点的

文本

，没有空格，它只表示blockquote节点的文本。

使用

选择器选择元素内所有内部元素的文本

'.join（[a.strip（）表示引号中的某个.css（'blockquote*：：text'）.extract（）]）

非选择器是否将停止使用空格

blockquote:not（.bbCodeBlock）：：text

显然是的。@anvd刚刚测试过，它应该并且工作正常。测试：

'blockquote:not（.foo）：:text'

标记有点复杂，它将无法按预期工作@anvd这不是javascript。Scrapy将所有css选择器转换为xpath，因此这里唯一重要的css选择器实现是

cssselect

包，请参阅：。感谢链接，但目前的问题是css。我甚至不知道如何选择文本中没有任何关联元素的部分。现在的问题是css

'blockquote ::text'
           ^