Python 3.x 响应选择器正在将内容分为两个不同的值_Python 3.x_Scrapy_Scrapy Shell

Python 3.x 响应选择器正在将内容分为两个不同的值

python-3.x scrapy

Python 3.x 响应选择器正在将内容分为两个不同的值,python-3.x,scrapy,scrapy-shell,Python 3.x,Scrapy,Scrapy Shell,我正试图从这一页上删去这篇文章的标题- 如果我运行这个程序，它将在scrapy shell中运行 response.cssh2.article-section\uu title:：text.extract我得到以下输出- [' Efficacy of small MC1R‐selective ', '‐MSH analogs as sunless tanning agents that reduce UV‐induced DNA damage\n ', ..... 这是因为在

我正试图从这一页上删去这篇文章的标题-

如果我运行这个程序，它将在scrapy shell中运行 response.cssh2.article-section\uu title:：text.extract我得到以下输出-

[' Efficacy of small MC1R‐selective ',
 '‐MSH analogs as sunless tanning agents that reduce UV‐induced DNA damage\n         ',
.....

这是因为在HTML中，文章在标题中使用了一个额外的斜体标记

<h2 class="article-section__title section__title section1" id="pcmr12547-sec-0002-title"> Efficacy of small MC1R‐selective <i>α </i>‐MSH analogs as sunless tanning agents that reduce UV‐induced DNA damage
         </h2>

我可以尝试用python代码来解决这个问题，它将组合这些值，直到最后收到“\n”。但有没有办法通过刮泥或其他更干净的方法来修复它呢

刮片将刮取值和HTML标记的一种方法如果其中有任何标记，或者最好忽略标记，但将获取标记中的文本？

您可以使用以下方法提取整个HMTL元素：

html\u title=response.css.article-section\u title.get 然后，您可以使用以下命令将结果转换为纯文本：

title = html_text.extract_text(html_title)