Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/73.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
HTML。您可以指定的其他可能的假设。解决方案应尽可能抵抗被刮取页面结构的变化。还要指定哪些语言是可接受的,哪些.NET/COM组件是可接受的?解析HTML通常不是一个坏主意,尝试使用正则表达式是一个坏主意。COM组件可以从Win32应用程序接受,如果它们_Html_Windows_Regex_Winapi_Screen Scraping - Fatal编程技术网

HTML。您可以指定的其他可能的假设。解决方案应尽可能抵抗被刮取页面结构的变化。还要指定哪些语言是可接受的,哪些.NET/COM组件是可接受的?解析HTML通常不是一个坏主意,尝试使用正则表达式是一个坏主意。COM组件可以从Win32应用程序接受,如果它们

HTML。您可以指定的其他可能的假设。解决方案应尽可能抵抗被刮取页面结构的变化。还要指定哪些语言是可接受的,哪些.NET/COM组件是可接受的?解析HTML通常不是一个坏主意,尝试使用正则表达式是一个坏主意。COM组件可以从Win32应用程序接受,如果它们,html,windows,regex,winapi,screen-scraping,Html,Windows,Regex,Winapi,Screen Scraping,HTML。您可以指定的其他可能的假设。解决方案应尽可能抵抗被刮取页面结构的变化。还要指定哪些语言是可接受的,哪些.NET/COM组件是可接受的?解析HTML通常不是一个坏主意,尝试使用正则表达式是一个坏主意。COM组件可以从Win32应用程序接受,如果它们已经在受支持的Microsoft Windows操作系统上注册,则最好是这样。NET组件只有在具有COM可调用包装器(CCW)的情况下才能从本机Win32调用,这取决于库。您应该考虑到检索网页的时间总是比C++中的高级语言解析的时间长。您非常幸


HTML。您可以指定的其他可能的假设。解决方案应尽可能抵抗被刮取页面结构的变化。还要指定哪些语言是可接受的,哪些.NET/COM组件是可接受的?解析HTML通常不是一个坏主意,尝试使用正则表达式是一个坏主意。COM组件可以从Win32应用程序接受,如果它们已经在受支持的Microsoft Windows操作系统上注册,则最好是这样。NET组件只有在具有COM可调用包装器(CCW)的情况下才能从本机Win32调用,这取决于库。您应该考虑到检索网页的时间总是比C++中的高级语言解析的时间长。您非常幸运,页面的作者以一种反映内容而不是演示的方式来命名div是如此的好。即使有您的限制,这也会使问题的数量级变得更容易。特别是对于lxml来说,+1——在这个应用程序中取得了巨大的成功。在Ruby方面,还有ScrAPI:任何可以在本机Win32应用程序中使用的应用程序?我写的是相同的-只有在使用时加上前缀“您没有指定您选择的开发工具。。。但是,您已经指定了windows,因此如果您使用.NET,则:“我没有指定编译器,但指定了本机Win32。让我们假设它是C++。我以前使用了iHTMLDopeTun2。我还有一个对象的源代码,可以解析无效的HTML并将其转换为DOM。那么,关于如何遍历DOM树和重复结构,有什么想法吗?@Ian,关键是IHtmlDocument2将能够处理原始的HTML。遍历DOM就像调用
all
和处理元素一样简单(DOM是分层的)。这并不有趣,但如果你想保持本土,这是一个“简单”的解决方案。旧式的刮擦。如果您正在这样做,您最好使用regex。这是
IHtmlDocument2
-除非您不必通过旋转渲染器浪费资源。如果您可以发布一些代码,这将大大有助于我理解样式表转换的帮助。
<div class="used_result_container"> 
   ...
      ...
         <div class="vehicleInfo"> 
            ...
               ...
                  <div class="makemodeltrim">
                     ...
                     <a class="carlink" href="[Url]">[MakeAndModel]</a>
                     ...
                  </div> 
                  <div class="kilometers">[Kilometers]</div> 
                  <div class="price">[Price]</div> 
                  <div class="location">
                     <span class='locationText'>Location:</span>[Location]
                  </div> 
               ...          
            ...
         </div> 
      ...
   ...
</div> 

...and it repeats
\\div[@class="used_result_container" && .\div[@class="vehicleInfo"]]\*
Set dom = CreateObject("htmlfile")
dom.write("<div>Click for <img src='http://www.google.com/images/srpr/logo1w.png'>Google</a></div>")
WScript.Echo(dom.Images.item(0).src)