从web导入数据

从web导入数据,web,import,ssis,last-modified,Web,Import,Ssis,Last Modified,我的要求是将网页上数据集的“创建日期”/“修改日期”放入.xls或.csv文件中 网址是: 从这个网页,我想导入创建日期,您可以在SSIS中使用脚本任务在右侧看到它 我尝试过使用excel数据->从web导入。它不起作用 如果有人对此有任何建议,那将是非常有帮助的 谢谢SSIS本机没有任何东西可以解析这样的网页。也就是说,我希望您喜欢.NET编码 我通过他们的文档和示例做了类似的工作,以了解如何使用他们的库解析HTML的基础知识 一旦你解决了这个问题,就只需要确定你想要的元素的路径。我发现最好的

我的要求是将网页上数据集的“创建日期”/“修改日期”放入.xls或.csv文件中

网址是:

从这个网页,我想导入创建日期,您可以在SSIS中使用脚本任务在右侧看到它

我尝试过使用excel数据->从web导入。它不起作用

如果有人对此有任何建议,那将是非常有帮助的


谢谢

SSIS本机没有任何东西可以解析这样的网页。也就是说,我希望您喜欢.NET编码

我通过他们的文档和示例做了类似的工作,以了解如何使用他们的库解析HTML的基础知识

一旦你解决了这个问题,就只需要确定你想要的元素的路径。我发现最好的方法是用Chrome打开页面,右键点击感兴趣的东西并选择“检查元素”。展开字段,直到找到要查找的内容,然后在inspector窗口中右键单击并选择
Copy XPath

这将产生以下xpath选择器

//*[@id="aboutSection"]/div/div/div/div[1]/p[1]/span/span
然后我会在代码中使用它,比如

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(this.html);
string createDate = string.Empty;
createDate = doc.DocumentNode.SelectSingleNode("//*[@id="aboutSection"]/div/div/div/div[1]/p[1]/span/span").InnerText.Trim();

您需要处理SelectSingleNode调用的确切机制,但这是一般概念。您可能还注意到,您有一个属性data rawdatetime,其中有一个值。我猜那是纪元日期,但如果你能将其转换为“2011年10月20日”的现值,你可能会更好,因为该数值不依赖于区域设置Dim src As String=system.net.DownloadString(“URL”)将源代码转换成字符串,通过使用字符串函数,我可以获得所需的输出。