Web crawler 制作一个网络爬虫/蜘蛛

Web crawler 制作一个网络爬虫/蜘蛛,web-crawler,Web Crawler,我正在考虑制作一个网络爬虫/蜘蛛,但我需要有人给我指出正确的方向来开始 基本上,我的爬行器将搜索音频文件并为其编制索引 我只是想知道有没有人对我该怎么做有什么想法。我听说用PHP来完成会非常慢。我知道vb.net,那么它能派上用场吗 我在考虑使用谷歌的文件类型搜索来获取爬网链接。可以吗?这里有一个关于如何用java编写web爬虫的教程的链接。我相信如果你用谷歌搜索它,你可以找到其他语言的HTML。在VB.NET中,你需要先获取HTML,所以使用WebClient类或HttpWebRequest和

我正在考虑制作一个网络爬虫/蜘蛛,但我需要有人给我指出正确的方向来开始

基本上,我的爬行器将搜索音频文件并为其编制索引

我只是想知道有没有人对我该怎么做有什么想法。我听说用PHP来完成会非常慢。我知道vb.net,那么它能派上用场吗


我在考虑使用谷歌的文件类型搜索来获取爬网链接。可以吗?

这里有一个关于如何用java编写web爬虫的教程的链接。我相信如果你用谷歌搜索它,你可以找到其他语言的HTML。

在VB.NET中,你需要先获取HTML,所以使用WebClient类或HttpWebRequest和HttpWebResponse类。互联网上有很多关于如何使用这些的信息

然后需要解析HTML。我建议对此使用正则表达式


您使用Google进行文件类型搜索的想法很好。几年前,我做了一件类似的事情,收集PDF来测试SharePoint中的PDF索引,效果非常好。

伪代码应该如下所示:

Method spider(URL startURL){ 
 Collection URLStore; // Can be an arraylist  
    push(startURL,URLStore);// start with a know url
       while URLStore ! Empty do 
         currURL= pop(URLStore); //take an url
         download URL page;
        push (URLx, URLStore); //for all links to URL in the page which are not already followed, then put in the list
要使用Java从网页读取一些数据,可以执行以下操作:

URL myURL = new URL("http://www.w3.org"); 
 BufferedReader in =  new BufferedReader( new InputStreamReader(myURL.openStream())); 
 String inputLine; 
 while ((inputLine = in.readLine()) != null) //you will get all content of the page
 System.out.println(inputLine); //  here you need to extract the hyperlinks
 in.close();

如果你用java制作一个网络爬虫,它必须是服务器端吗?现在我使用的是共享主机,不允许使用java,我目前无法获得专用或vps。如果您愿意,这可以在您的家用计算机上运行。谢谢,我知道如何从桌面vb应用程序将数据插入数据库吗?取决于数据库的风格。SQL Server有
System.Data.SqlClient
命名空间。对于其他内容,您需要查看
System.Data.OleDb
名称空间。如果您希望在使用正则表达式解析HTML时无人运行,最好使用控制台VB应用程序。。。。这可能是有史以来最好的答案。感谢你的链接,我想“parse”这个词选错了,他只会从页面中提取所有相关的超链接,与HTML的结构无关。