在元标记中包含我需要在javascript中提取的信息
正如标题所说,我有一个元标签,我需要刮取一些信息。 这是从这个网站我试图提取作者的从属关系。我可以在使用谷歌开发工具和以下代码行中找到这些信息:在元标记中包含我需要在javascript中提取的信息,javascript,html,dom,web-scraping,metadata,Javascript,Html,Dom,Web Scraping,Metadata,正如标题所说,我有一个元标签,我需要刮取一些信息。 这是从这个网站我试图提取作者的从属关系。我可以在使用谷歌开发工具和以下代码行中找到这些信息: document.getElementsByName('citation_author_institution') 然后我得到一个我认为是元素或节点的数组,看起来像这样: [<meta name="citation_author_institution" content="Columbia University, New York">
document.getElementsByName('citation_author_institution')
然后我得到一个我认为是元素或节点的数组,看起来像这样:
[<meta name="citation_author_institution" content="Columbia University, New York">, <meta name="citation_author_institution" content="Columbia University, New York">, <meta name="citation_author_institution" content="Columbia University, New York">]
但这不起作用。有人能告诉我怎么做吗?你很接近了。您需要做的是遍历节点列表:
var elements = document.getElementsByName('citation_author_institution')
var contents = []
for (var i = 0; i < elements.length; i++) {
contents.push(elements[i].content);
}
console.log(contents)
var elements=document.getElementsByName('引用\作者\机构')
var contents=[]
对于(var i=0;i
因此,内容
将是您的内容列表。这里的例子
你非常接近。您需要做的是遍历节点列表:
var elements = document.getElementsByName('citation_author_institution')
var contents = []
for (var i = 0; i < elements.length; i++) {
contents.push(elements[i].content);
}
console.log(contents)
var elements=document.getElementsByName('引用\作者\机构')
var contents=[]
对于(var i=0;i
因此,内容
将是您的内容列表。这里的例子
var作者=[];
var elements=document.getElementsByName(“引文作者机构”);
对于(var i=0;ivar作者=[];
var elements=document.getElementsByName(“引文作者机构”);
对于(var i=0;我会从getElementsByTagName开始,真的。理论上HTML中可能有更多同名元素。我会从getElementsByTagName开始,真的。理论上HTML中可能有更多同名元素。但是如果我这样做,它不会打印出数组中的所有内容吗?我的意思是:meta name=“引文作者机构”内容=“纽约哥伦比亚大学”>, , 但是如果我喜欢这个,它会打印出数组中的所有内容吗?我的意思是:元名称=“引文作者机构”内容=“纽约哥伦比亚大学”>, , 但是如果我喜欢这个,它会打印出数组中的所有内容吗?我的意思是:元名称=“引文作者机构”内容=“纽约哥伦比亚大学”>, , @anderssinho更新您的问题以显示您正在运行的确切代码和确切的输出。仔细阅读Luis的代码以了解数组的内容。数组既不包含(整个)元素,也不包含它的HTML表示形式。但是如果我这样做,它不会打印出数组中的所有内容吗?我的意思是:meta name=“引文作者机构”内容=“纽约哥伦比亚大学”>, , @anderssinho更新您的问题以显示您正在运行的确切代码和确切输出。仔细阅读Luis的代码以了解数组的内容。数组既不包含(整个)元素,也不包含它的HTML表示形式。
var authors = [];
var elements = document.getElementsByName('citation_author_institution');
for (var i=0; i<elements.length; i++){
authors.push(elements[i].content);
}
console.log(authors)