Python Wget Curl-下载整个站点并运行concordance

Python Wget Curl-下载整个站点并运行concordance,python,bash,curl,wget,julia,Python,Bash,Curl,Wget,Julia,这可能是个奇怪的问题,但我已经尽力了 总结: 我有一个程序(用Bash和Julia编写),它将输出给定文本集(在一个文件中)的一致性输出,也就是说,您传递文件,它将输出一致性输出,如(项目符号的缩进,我稍后会注意): a。单词1(1001次)出现在句子{2,5,7,11,12,51122,711884,……等} aa。单词2(98次)出现在{55、77、79、80、81110、121281284等} .. .. 阿兹。wordN(12001次),出现在{}句中 aa。单词1(55次),出现在句子

这可能是个奇怪的问题,但我已经尽力了

总结: 我有一个程序(用Bash和Julia编写),它将输出给定文本集(在一个文件中)的一致性输出,也就是说,您传递文件,它将输出一致性输出,如(项目符号的缩进,我稍后会注意):

a。单词1(1001次)出现在句子{2,5,7,11,12,51122,711884,……等}
aa。单词2(98次)出现在{55、77、79、80、81110、121281284等}
..
..
阿兹。wordN(12001次),出现在{}句中
aa。单词1(55次),出现在句子{}
ab.wordN2(4次),出现在{}句中
..
..
阿兹。wordNM(995次),出现在句子{}
阿巴。wordNN(15次),出现在{}句中
神甫。wordNO(25次)出现在{}句中
..
..
阿布兹。wordNP(20次),出现在句子{}
aca。wordNQ(220次),出现在{}句中
acb。wordNQ(220次),出现在{}句中
..
..
acz。wordNQ(2220次)出现在{}句中
艾达。wordNQ(55次),出现在{}句中
..
..
等等
每个项目符号都有一个唯一的单词(它跟在正则表达式后面,以确定check、in和check-in是否是三个不同的单词,或者check-in是否可以被视为两个单词(check和in)。用户可以调整配置文件中定义的正则表达式,以获得项目符号所需的单词。这一切都正常工作。 同样,一个句子有不同的正则表达式,它决定了一个句子是否以“.”或“;”或“\n”等结尾。同样,一致性块工作正常

我的问题:

  • 我想使用wget/curl从站点(整个数据)中获取所有文本(仅),而不进入无限循环(一个链接读取另一个链接并形成无限循环)
  • 我想像wget-m-l7-t2-w2这样的东西就可以了(如果需要,调整-l#),但是是否有任何选项可以提高更快检索内容的性能

  • 如何找到WWW(万维网)中所有可用网站的列表?是否有我可以以顺序/并行方式运行wget的地方
  • 最终目标(为了好玩,但实际上我真的很好奇)是在每个这样的网站文件上运行concordance,该网站允许您以某种方式读取数据/文本(我的脚本是参数驱动的,用于在输入的每个文件或包含其中包含文本的文件列表的文件上运行concordance)在WordWideWeb的每一个网站上。好吧,这可能会吓到一些人,但我认为这不是不可能的

    到目前为止,在阅读整个SVN红皮书电子书/圣经/在线小说时运行我的程序效果很好(2-10秒),但现在我想在WWW网站内容上利用它。我随机检查了一些罕见的单词(附录),它们与concordance脚本/程序生成的输出相匹配

    是否有人在最小规模上尝试过这一点,即仅在公司网站上运行concordance,或在以.in(印度)等结尾的所有网站上运行concordance

    a. word1 (1001 times), occurred in sentence {2,5,7,11,12,51,122, 711,881,884,.. etc}
    aa. word2 (98 times), occurred in sentence {55,77,79,80,81,110, 121,281,284,.. etc}
    ..
    ..
    az. wordN (12001 times), occurred in sentence {<listofNumbers_comma_separated>}
    aa. wordN1 (55 times), occurred in sentence {<listofNumbers_comma_separated>}
    ab. wordN2 (4 times), occurred in sentence {<listofNumbers_comma_separated>}
    ..
    ..
    az. wordNM (995 times), occurred in sentence {<listofNumbers_comma_separated>}
    aba. wordNN (15 times), occurred in sentence {<listofNumbers_comma_separated>}
    abb. wordNO (25 times), occurred in sentence {<listofNumbers_comma_separated>}
    ..
    ..
    abz. wordNP (20 times), occurred in sentence {<listofNumbers_comma_separated>}
    aca. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
    acb. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
    ..
    ..
    acz. wordNQ (2220 times), occurred in sentence {<listofNumbers_comma_separated>}
    ada. wordNQ (55 times), occurred in sentence {<listofNumbers_comma_separated>}
    ..
    ..
    and so on..