Python 3.x 响应选择器正在将内容分为两个不同的值

Python 3.x 响应选择器正在将内容分为两个不同的值,python-3.x,scrapy,scrapy-shell,Python 3.x,Scrapy,Scrapy Shell,我正试图从这一页上删去这篇文章的标题- 如果我运行这个程序,它将在scrapy shell中运行 response.cssh2.article-section\uu title::text.extract我得到以下输出- [' Efficacy of small MC1R‐selective ', '‐MSH analogs as sunless tanning agents that reduce UV‐induced DNA damage\n ', ..... 这是因为在

我正试图从这一页上删去这篇文章的标题-

如果我运行这个程序,它将在scrapy shell中运行 response.cssh2.article-section\uu title::text.extract我得到以下输出-

[' Efficacy of small MC1R‐selective ',
 '‐MSH analogs as sunless tanning agents that reduce UV‐induced DNA damage\n         ',
.....
这是因为在HTML中,文章在标题中使用了一个额外的斜体标记

<h2 class="article-section__title section__title section1" id="pcmr12547-sec-0002-title"> Efficacy of small MC1R‐selective <i>α </i>‐MSH analogs as sunless tanning agents that reduce UV‐induced DNA damage
         </h2>
我可以尝试用python代码来解决这个问题,它将组合这些值,直到最后收到“\n”。但有没有办法通过刮泥或其他更干净的方法来修复它呢


刮片将刮取值和HTML标记的一种方法如果其中有任何标记,或者最好忽略标记,但将获取标记中的文本?

您可以使用以下方法提取整个HMTL元素:

html\u title=response.css.article-section\u title.get 然后,您可以使用以下命令将结果转换为纯文本:

title = html_text.extract_text(html_title)