Web crawler Web爬行及其局限性

Web crawler Web爬行及其局限性,web-crawler,Web Crawler,假设我们在web上放置了一个文件,如果您知道直接URL,该文件可以公开评估。没有指向文件的链接,服务器上的目录列表也已被禁用。因此,尽管它是可公开访问的,但除了键入指向该文件的确切URL之外,无法访问该页面。任何类型的网络爬虫(好的或恶意的)通过对该文件进行爬网然后索引来定位该文件的可能性有多大 对我来说,即使它是公开访问的,也需要运气或找到文件的具体知识。就像把金子埋在后院,让人在没有地图或知道有东西埋在那里的情况下找到金子一样 我只是看不出有任何其他方式可以发现它,但这就是为什么我要问sta

假设我们在web上放置了一个文件,如果您知道直接URL,该文件可以公开评估。没有指向文件的链接,服务器上的目录列表也已被禁用。因此,尽管它是可公开访问的,但除了键入指向该文件的确切URL之外,无法访问该页面。任何类型的网络爬虫(好的或恶意的)通过对该文件进行爬网然后索引来定位该文件的可能性有多大

对我来说,即使它是公开访问的,也需要运气或找到文件的具体知识。就像把金子埋在后院,让人在没有地图或知道有东西埋在那里的情况下找到金子一样

我只是看不出有任何其他方式可以发现它,但这就是为什么我要问stackoverflow社区


谢谢。

链接可以出现在任何地方-有人可以在推特上发送链接,或在Facebook上发布,或在博客上发表评论。只需要一个

如果重要的是它不会出现在任何地方,把它放在密码后面


如果它不重要,但您仍然希望它不容易通过搜索引擎访问,请使用robots.txt文件阻止行为良好的爬虫程序。

链接可以出现在任何地方-有人可以在推特上发送链接,或在Facebook上发布,或在博客上发表评论。只需要一个

如果重要的是它不会出现在任何地方,把它放在密码后面


如果它不重要,但您仍然希望它不容易通过搜索引擎访问,请使用robots.txt文件阻止行为良好的爬虫程序。

在过去,据称这些隐藏位置是使用所有者/上传者使用的谷歌工具栏(可能还有其他类似的浏览器插件)“发现”的。

在过去,据称,这些隐藏位置是通过所有者/上传者使用的谷歌工具栏(可能还有其他类似的浏览器插件)“发现”的。

你可以使用谷歌搜索api。
对于与任何其他网页未链接的网页。我们对此一无所知。

您可以使用谷歌搜索api。 对于与任何其他网页未链接的网页。我们对此一无所知。

假设:

  • 目录列表:已禁用。没有人
  • 知道页面的存在
  • 您的文件不包含任何链接(您的浏览器可以将引用发送到链接的站点)
  • 您已正确设置robots.txt
  • 你相信所有人都不会把你的链接传播给其他人
  • 你真幸运
嗯,您的页面可能不会被找到或发现

结论

使用.htaccess文件保护您的数据。

假设:

  • 目录列表:已禁用。没有人
  • 知道页面的存在
  • 您的文件不包含任何链接(您的浏览器可以将引用发送到链接的站点)
  • 您已正确设置robots.txt
  • 你相信所有人都不会把你的链接传播给其他人
  • 你真幸运
嗯,您的页面可能不会被找到或发现

结论


使用.htaccess文件来保护您的数据。

隐藏式安全永远不会起作用。你说,你不会和它联系,我相信你。但是没有任何东西可以阻止用户有意或无意地链接到它。正如ceejayoz所指出的,现在有很多不同的地方可以发布链接。甚至还有一些“书签同步器”,人们可能认为它们是私人的,但实际上是向世界开放的


因此,请使用真正的身份验证。如果你不这样做,你以后会后悔的。

默默无闻的安全永远不会起作用。你说,你不会和它联系,我相信你。但是没有任何东西可以阻止用户有意或无意地链接到它。正如ceejayoz所指出的,现在有很多不同的地方可以发布链接。甚至还有一些“书签同步器”,人们可能认为它们是私人的,但实际上是向世界开放的


因此,请使用真正的身份验证。如果你不这样做,你以后会后悔的。

你是对的。网络爬虫,比喻为蜘蛛——它们需要有一种方法来穿越网络(超链接)并到达您的页面

要将假设页面放入搜索引擎的结果中,必须手动将其URL提交给搜索引擎。有多种服务可用于向这些搜索引擎提交您的页面。请参阅“向搜索引擎提交URL”


此外,只有当搜索引擎确定你的页面在搜索引擎专有的排名系统中有足够的元数据/业力时,你的页面才会出现。请参阅“搜索引擎优化”和“元关键字”。

您是正确的。网络爬虫,比喻为蜘蛛——它们需要有一种方法来穿越网络(超链接)并到达您的页面

要将假设页面放入搜索引擎的结果中,必须手动将其URL提交给搜索引擎。有多种服务可用于向这些搜索引擎提交您的页面。请参阅“向搜索引擎提交URL”


此外,只有当搜索引擎确定你的页面在搜索引擎专有的排名系统中有足够的元数据/业力时,你的页面才会出现。请参阅“SEO”和“meta关键字”。

是的,对于正确的Web爬虫访问URL,它会识别页面中的所有超链接,并将它们添加到要访问的URL列表中,称为“爬网边界”,但这些超链接和URL具有错误链接。一旦用户点击一个坏链接并登陆恶意软件站点,他们通常会通过一个虚假的编解码器安装对话框进行升级。如果这还不能让他们明白,网站仍然被加载,将有数十种其他策略感染他们的电脑。从假工具栏、恐吓软件、流氓软件等等,这些网站无所不包。他们遇到的一个网站甚至试图安装25种不同的恶意软件。这些网站使人们容易受到垃圾邮件机器人、rootkit、密码钢人和各种特洛伊木马的攻击