Database 如何访问(大规模地,而不仅仅是搜索多个结果)科学网的数据库?
我正在做需要大规模引文数据的研究。我想访问科学网的数据库。例如,我可能想要2013年《自然》杂志上发表的所有论文的引文。如何获得这样的数据集?科学网是否向用户开放数据库?还是我需要自己对数据进行爬网?如有任何建议,我们将不胜感激。T如果你想在自己的计算机上离线获取引文,你必须抓取数据并存储。为了抓取数据,我建议使用ApacheTika:“ApacheTika™ toolkit使用现有的解析器库从Tika网站检测和提取各种文档(从PPT到CSV再到PDF)中的元数据和文本内容 从大范围上讲,我认为这是最好的方法,因为一旦下载,它将在您的计算机上执行许多您想要的搜索,而不必由于远程搜索的延迟而等待搜索完成Database 如何访问(大规模地,而不仅仅是搜索多个结果)科学网的数据库?,database,dataset,web-crawler,citations,Database,Dataset,Web Crawler,Citations,我正在做需要大规模引文数据的研究。我想访问科学网的数据库。例如,我可能想要2013年《自然》杂志上发表的所有论文的引文。如何获得这样的数据集?科学网是否向用户开放数据库?还是我需要自己对数据进行爬网?如有任何建议,我们将不胜感激。T如果你想在自己的计算机上离线获取引文,你必须抓取数据并存储。为了抓取数据,我建议使用ApacheTika:“ApacheTika™ toolkit使用现有的解析器库从Tika网站检测和提取各种文档(从PPT到CSV再到PDF)中的元数据和文本内容 从大范围上讲,我认为