Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database 如何访问(大规模地,而不仅仅是搜索多个结果)科学网的数据库?_Database_Dataset_Web Crawler_Citations - Fatal编程技术网

Database 如何访问(大规模地,而不仅仅是搜索多个结果)科学网的数据库?

Database 如何访问(大规模地,而不仅仅是搜索多个结果)科学网的数据库?,database,dataset,web-crawler,citations,Database,Dataset,Web Crawler,Citations,我正在做需要大规模引文数据的研究。我想访问科学网的数据库。例如,我可能想要2013年《自然》杂志上发表的所有论文的引文。如何获得这样的数据集?科学网是否向用户开放数据库?还是我需要自己对数据进行爬网?如有任何建议,我们将不胜感激。T如果你想在自己的计算机上离线获取引文,你必须抓取数据并存储。为了抓取数据,我建议使用ApacheTika:“ApacheTika™ toolkit使用现有的解析器库从Tika网站检测和提取各种文档(从PPT到CSV再到PDF)中的元数据和文本内容 从大范围上讲,我认为

我正在做需要大规模引文数据的研究。我想访问科学网的数据库。例如,我可能想要2013年《自然》杂志上发表的所有论文的引文。如何获得这样的数据集?科学网是否向用户开放数据库?还是我需要自己对数据进行爬网?如有任何建议,我们将不胜感激。T

如果你想在自己的计算机上离线获取引文,你必须抓取数据并存储。为了抓取数据,我建议使用ApacheTika:“ApacheTika™ toolkit使用现有的解析器库从Tika网站检测和提取各种文档(从PPT到CSV再到PDF)中的元数据和文本内容

从大范围上讲,我认为这是最好的方法,因为一旦下载,它将在您的计算机上执行许多您想要的搜索,而不必由于远程搜索的延迟而等待搜索完成