Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从Edmunds网站提取特定数据需要什么XPATH?_Xpath_Extract_Import.io - Fatal编程技术网

从Edmunds网站提取特定数据需要什么XPATH?

从Edmunds网站提取特定数据需要什么XPATH?,xpath,extract,import.io,Xpath,Extract,Import.io,我正在使用import.io软件从Edmunds提取数据。。。示例页 我发电子邮件给support@import.io几次,但他们只帮了我一次,并说他们没有时间和资源来帮助解决有关单个项目的问题,而不是他们的软件本身 我使用XPATH成功地提取了技术规范,例如//td[包含(,“马力”)]/span 马力 转速为6000转/分时1001马力 但是我不知道如何提取代码之间的特征,这些特征没有被另一个带有特定标签的代码所包含,但是上面有一个特定的行。XPATH//li确实提取了单个列中的所有特性

我正在使用import.io软件从Edmunds提取数据。。。示例页

我发电子邮件给support@import.io几次,但他们只帮了我一次,并说他们没有时间和资源来帮助解决有关单个项目的问题,而不是他们的软件本身

我使用XPATH成功地提取了技术规范,例如//td[包含(,“马力”)]/span


马力
转速为6000转/分时1001马力
但是我不知道如何提取
  • 代码之间的特征,这些特征没有被另一个带有特定标签的代码所包含,但是上面有一个特定的

    行。XPATH//li确实提取了单个列中的所有特性以及我不需要的其他数据

    请告诉我一个XPATH,它可以按单个类别、舒适性、娱乐性、安全性等提取功能。我需要将每个类别的功能放在一列中

    <h3 id="safety_feat" class="safety-feat">Safety Features</h3>
    <div class="hr thick"></div>
    <table class="items only-values" data-selenium="safety">
    <tr>
    <td>
    <ul class="items">
    <li><p>4-wheel ABS</p></li>
    </ul>
    </td>
    
    安全功能
    
    • 四轮ABS

    另一件可以为我的数据库增加额外功能的事情是提取颜色名称和RGB值,这可能吗

    <span style="display: block; background-color:rgb(255,255,255);">
    <span style="display: block;" class="clrtxt">COLOR NAME</span>
    
    
    颜色名称
    
    这是一种可能的XPath,例如,用于提取“屋顶和玻璃”功能:

    //div[@class='feature-spec box']
    /*[self::h3 or self::h4]
      [contains(.,'Roof and Glass')]
    /following-sibling::table[1]
    //li/p
    

    要提取一个类别的所有规范,您只需尝试(在示例中是前排座椅,如果您想获取其他规范,只需更改“table[@class='items only values']”数组计数

    //div[@id='features-pod']//表[@class='items only values'][1]/tbody/tr/td/ul[@class='items']]/li/p

    要提取颜色名称,可以使用如下内容:

    //span[@class='clrtxt']

    我一直在尝试提取背景颜色值,但这对我来说是不可能的


    我只是在网站上使用Chrome上的XPATH选择器,稍加修饰,然后在import.io上试用……它通常都能正常工作!

    我通过使用以下方法获得背景色值:

    //*[包含(@id,'external')]/span[2]/@style

    它返回了样式中的所有内容,但您可以使用正则表达式来处理不需要的内容


    希望这有帮助

    这是一个非常复杂的XPATH,它可以提取前排座椅,但我不知道如何更改以提取其他座椅。颜色名称的另一个XPATH可以提取外部和内部颜色,有没有办法分别提取它们?嗨!这就是为什么你必须使用工具获取网站的XPATH。你可以可以使用Firebug,也可以使用XPATH Helper for Chrome。我真的鼓励您花些时间学习XPATH的工作原理。这个社区是为您提供工具,而不是解决方案!Firebug的功能与Chrome中的Inspect元素相同。从那里复制的XPATH是基于页面上的位置而不是标签,如果某个标签值不同,我会从一页到另一页,它们的XPATH都是无用的!XPATH助手扩展只显示由各种XPATH提取的数据(我已经用import.io做了),它不能帮助我理解我需要什么XPATH。使用import.io我使用了//span[@class='clrtxt']并试图将Alex在上述回复中给出的@id、'external'也包括在内,但任何试图将它们组合在一起的行为都不会导致提取任何数据。请帮助我使用XPATH,该XPATH可以分别提取外部和内部汽车颜色。如果您看到该对象,则无法将其分离为米色金金属色/黑蓝色金属色。您最好使用正则表达式。If在两列中提取该字符串,并在第一列中获取/之前的所有内容(在第二列中获取/之后的所有内容),您可以填充它。但是它位于同一个元素上,如果不进行一些处理,您无法在两块上获得它。这是一个非常复杂的XPATH,它可以工作,谢谢!您的XPATH工作正常,可以根据需要分别提取外部和内部颜色。我不知道如何使用正则表达式,但我使用Excel查找/替换来清除不需要的内容。嘿,未来,哟你可以使用下面的正则表达式从括号(?)?
    //div[@class='feature-spec box']
    /*[self::h3 or self::h4]
      [contains(.,'Roof and Glass')]
    /following-sibling::table[1]
    //li/p