Web crawler 制作一个网络爬虫/蜘蛛_Web Crawler

Web crawler 制作一个网络爬虫/蜘蛛

web-crawler

Web crawler 制作一个网络爬虫/蜘蛛,web-crawler,Web Crawler,我正在考虑制作一个网络爬虫/蜘蛛，但我需要有人给我指出正确的方向来开始基本上，我的爬行器将搜索音频文件并为其编制索引我只是想知道有没有人对我该怎么做有什么想法。我听说用PHP来完成会非常慢。我知道vb.net，那么它能派上用场吗我在考虑使用谷歌的文件类型搜索来获取爬网链接。可以吗？这里有一个关于如何用java编写web爬虫的教程的链接。我相信如果你用谷歌搜索它，你可以找到其他语言的HTML。在VB.NET中，你需要先获取HTML，所以使用WebClient类或HttpWebRequest和

我正在考虑制作一个网络爬虫/蜘蛛，但我需要有人给我指出正确的方向来开始

基本上，我的爬行器将搜索音频文件并为其编制索引

我只是想知道有没有人对我该怎么做有什么想法。我听说用PHP来完成会非常慢。我知道vb.net，那么它能派上用场吗

我在考虑使用谷歌的文件类型搜索来获取爬网链接。可以吗？

这里有一个关于如何用java编写web爬虫的教程的链接。我相信如果你用谷歌搜索它，你可以找到其他语言的HTML。

在VB.NET中，你需要先获取HTML，所以使用WebClient类或HttpWebRequest和HttpWebResponse类。互联网上有很多关于如何使用这些的信息

然后需要解析HTML。我建议对此使用正则表达式

您使用Google进行文件类型搜索的想法很好。几年前，我做了一件类似的事情，收集PDF来测试SharePoint中的PDF索引，效果非常好。

伪代码应该如下所示：

Method spider(URL startURL){ 
 Collection URLStore; // Can be an arraylist  
    push(startURL,URLStore);// start with a know url
       while URLStore ! Empty do 
         currURL= pop(URLStore); //take an url
         download URL page;
        push (URLx, URLStore); //for all links to URL in the page which are not already followed, then put in the list

要使用Java从网页读取一些数据，可以执行以下操作：

URL myURL = new URL("http://www.w3.org"); 
 BufferedReader in =  new BufferedReader( new InputStreamReader(myURL.openStream())); 
 String inputLine; 
 while ((inputLine = in.readLine()) != null) //you will get all content of the page
 System.out.println(inputLine); //  here you need to extract the hyperlinks
 in.close();

如果你用java制作一个网络爬虫，它必须是服务器端吗？现在我使用的是共享主机，不允许使用java，我目前无法获得专用或vps。如果您愿意，这可以在您的家用计算机上运行。谢谢，我知道如何从桌面vb应用程序将数据插入数据库吗？取决于数据库的风格。SQL Server有

System.Data.SqlClient

命名空间。对于其他内容，您需要查看

System.Data.OleDb

名称空间。如果您希望在使用正则表达式解析HTML时无人运行，最好使用控制台VB应用程序。。。。这可能是有史以来最好的答案。感谢你的链接，我想“parse”这个词选错了，他只会从页面中提取所有相关的超链接，与HTML的结构无关。