从web导入数据
我的要求是将网页上数据集的“创建日期”/“修改日期”放入.xls或.csv文件中 网址是: 从这个网页,我想导入创建日期,您可以在SSIS中使用脚本任务在右侧看到它 我尝试过使用excel数据->从web导入。它不起作用 如果有人对此有任何建议,那将是非常有帮助的从web导入数据,web,import,ssis,last-modified,Web,Import,Ssis,Last Modified,我的要求是将网页上数据集的“创建日期”/“修改日期”放入.xls或.csv文件中 网址是: 从这个网页,我想导入创建日期,您可以在SSIS中使用脚本任务在右侧看到它 我尝试过使用excel数据->从web导入。它不起作用 如果有人对此有任何建议,那将是非常有帮助的 谢谢SSIS本机没有任何东西可以解析这样的网页。也就是说,我希望您喜欢.NET编码 我通过他们的文档和示例做了类似的工作,以了解如何使用他们的库解析HTML的基础知识 一旦你解决了这个问题,就只需要确定你想要的元素的路径。我发现最好的
谢谢SSIS本机没有任何东西可以解析这样的网页。也就是说,我希望您喜欢.NET编码 我通过他们的文档和示例做了类似的工作,以了解如何使用他们的库解析HTML的基础知识 一旦你解决了这个问题,就只需要确定你想要的元素的路径。我发现最好的方法是用Chrome打开页面,右键点击感兴趣的东西并选择“检查元素”。展开字段,直到找到要查找的内容,然后在inspector窗口中右键单击并选择
Copy XPath
这将产生以下xpath选择器
//*[@id="aboutSection"]/div/div/div/div[1]/p[1]/span/span
然后我会在代码中使用它,比如
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(this.html);
string createDate = string.Empty;
createDate = doc.DocumentNode.SelectSingleNode("//*[@id="aboutSection"]/div/div/div/div[1]/p[1]/span/span").InnerText.Trim();
您需要处理SelectSingleNode调用的确切机制,但这是一般概念。您可能还注意到,您有一个属性data rawdatetime,其中有一个值。我猜那是纪元日期,但如果你能将其转换为“2011年10月20日”的现值,你可能会更好,因为该数值不依赖于区域设置请考虑解释网页包含的内容,而不是链接到它(死链接有一天可能会发生)。网页是一个关于页面,它包含所有与数据集相关的数据,如描述、作者、创建日期、更新的数据、标签等。我想从这个页面获得创建日期。谢谢!你的回答无疑为如何进行提供了一些线索。我尝试使用
Dim src As String=system.net.DownloadString(“URL”)
将源代码转换成字符串,通过使用字符串函数,我可以获得所需的输出。