Google sheets NCBI网站特定页面上的IMPORTXML返回不适用-是否受刮削保护?

Google sheets NCBI网站特定页面上的IMPORTXML返回不适用-是否受刮削保护?,google-sheets,google-sheets-formula,google-sheets-importxml,Google Sheets,Google Sheets Formula,Google Sheets Importxml,我正在尝试使用IMPORTXML将这个页面刮取下来,以获得官方全名,也就是我们所知道的和其他一些信息 对于官方全名,例如甘油醛-3-磷酸脱氢酶,我尝试以下方法: =IMPORTXML("https://www.ncbi.nlm.nih.gov/gene/55054", "//*[@id="summaryDl"]/dd[2]/text()") 给我不适用 所以我试着改变,使用我放置URL和查询的单元格,用所有可能的方式改变查询:D 我注意到我可以使用IMPORTHTML,在页面或importrs

我正在尝试使用IMPORTXML将这个页面刮取下来,以获得官方全名,也就是我们所知道的和其他一些信息

对于官方全名,例如甘油醛-3-磷酸脱氢酶,我尝试以下方法:

=IMPORTXML("https://www.ncbi.nlm.nih.gov/gene/55054", "//*[@id="summaryDl"]/dd[2]/text()")
给我不适用

所以我试着改变,使用我放置URL和查询的单元格,用所有可能的方式改变查询:D

我注意到我可以使用IMPORTHTML,在页面或importrs中有一些关于表的信息,但无法获得我想要的信息。因此,我认为网站不会阻止刮擦

我认为这是一个JS或XML问题,但在我看来似乎不是这样……也许我遗漏了什么。我甚至尝试从别人的代码中使用IMPORTJSON,但老实说,我无法得到任何可能太复杂而无法使用的东西


我在这里真的被阻止了,所以如果有人能帮忙…?

您可以尝试直接删除源代码:

=ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 10000, 1)
然后做一些类似的事情来获得价值:

=REGEXREPLACE(QUERY(
 {{""; ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 500, 1)},
      {ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 500, 1); ""}},
 "select Col2 where Col1 contains'Also known as'"), "<dd>|</dd>", "")

伟大的很抱歉这么问,但是……我不明白!这是怎么回事?我试图修改以获得正式的全名,但找不到解决方案lol…ARRAY_Constraint和REGEXPLACE的目的是什么?REGEXREPLACE就像是一个替代品,以摆脱那些HTML标记。ARRAY_Constraint是限制器,因为整个源代码太大,无法导入,所以我们只导入前500行代码,因为这是我们需要的,只有一列。是的,官方全名不能被刮取,因为源代码中有点缺失-它可能是通过JS注入的,所以它不在那里,但其余的是有点getableOfficial全名不能被刮取