Python 使用portia(scrapy)从网站提取元标记

Python 使用portia(scrapy)从网站提取元标记,python,scrapy,web-crawler,portia,Python,Scrapy,Web Crawler,Portia,使用portia(scrapy)从网站提取元标记 我想使用portia从一些网站提取元标签,但它不显示头标签,它只是从身体标签开始 我只能从body标签中提取数据您可以将其用于元名称: meta_name = hxs.select('//meta/@name').extract() 对于元内容: meta_content = hxs.select('//meta/@content').extract() 对于具有特定名称(如描述)的元内容: meta = hxs.select('//meta

使用portia(scrapy)从网站提取元标记

我想使用portia从一些网站提取元标签,但它不显示头标签,它只是从身体标签开始


我只能从body标签中提取数据

您可以将其用于元名称:

meta_name = hxs.select('//meta/@name').extract()
对于元内容:

meta_content = hxs.select('//meta/@content').extract()
对于具有特定名称(如描述)的元内容:

meta = hxs.select('//meta[@name=\'description\']/@content').extract()

您可以将其用于元名称:

meta_name = hxs.select('//meta/@name').extract()
对于元内容:

meta_content = hxs.select('//meta/@content').extract()
对于具有特定名称(如描述)的元内容:

meta = hxs.select('//meta[@name=\'description\']/@content').extract()

您需要在
正文
中注释一个元素,然后导航到
标题
中要映射的元素

  • 在页面上注释一个元素,不管是哪一个
  • 单击批注弹出窗口或右侧工具箱上的批注面板中的设置图标
  • 单击
    html
    元素。您将收到一条警告,提示您将丢失注释的所有映射属性,单击“确定”
  • 再次单击设置图标,这次选择
    head
    元素
  • 再次单击设置图标,可以在
    标题中选择子元素
  • 选择元素后,单击
    +字段
    按钮创建新字段,然后将所需属性值映射到目标字段

  • 另请参见:

    您需要对
    正文中的元素进行注释,然后导航到
    标题中要映射的元素

  • 在页面上注释一个元素,不管是哪一个
  • 单击批注弹出窗口或右侧工具箱上的批注面板中的设置图标
  • 单击
    html
    元素。您将收到一条警告,提示您将丢失注释的所有映射属性,单击“确定”
  • 再次单击设置图标,这次选择
    head
    元素
  • 再次单击设置图标,可以在
    标题中选择子元素
  • 选择元素后,单击
    +字段
    按钮创建新字段,然后将所需属性值映射到目标字段
  • 另见: