Python Wget Curl-下载整个站点并运行concordance
这可能是个奇怪的问题,但我已经尽力了 总结: 我有一个程序(用Bash和Julia编写),它将输出给定文本集(在一个文件中)的一致性输出,也就是说,您传递文件,它将输出一致性输出,如(项目符号的缩进,我稍后会注意):Python Wget Curl-下载整个站点并运行concordance,python,bash,curl,wget,julia,Python,Bash,Curl,Wget,Julia,这可能是个奇怪的问题,但我已经尽力了 总结: 我有一个程序(用Bash和Julia编写),它将输出给定文本集(在一个文件中)的一致性输出,也就是说,您传递文件,它将输出一致性输出,如(项目符号的缩进,我稍后会注意): a。单词1(1001次)出现在句子{2,5,7,11,12,51122,711884,……等} aa。单词2(98次)出现在{55、77、79、80、81110、121281284等} .. .. 阿兹。wordN(12001次),出现在{}句中 aa。单词1(55次),出现在句子
a。单词1(1001次)出现在句子{2,5,7,11,12,51122,711884,……等}
aa。单词2(98次)出现在{55、77、79、80、81110、121281284等}
..
..
阿兹。wordN(12001次),出现在{}句中
aa。单词1(55次),出现在句子{}
ab.wordN2(4次),出现在{}句中
..
..
阿兹。wordNM(995次),出现在句子{}
阿巴。wordNN(15次),出现在{}句中
神甫。wordNO(25次)出现在{}句中
..
..
阿布兹。wordNP(20次),出现在句子{}
aca。wordNQ(220次),出现在{}句中
acb。wordNQ(220次),出现在{}句中
..
..
acz。wordNQ(2220次)出现在{}句中
艾达。wordNQ(55次),出现在{}句中
..
..
等等
每个项目符号都有一个唯一的单词(它跟在正则表达式后面,以确定check、in和check-in是否是三个不同的单词,或者check-in是否可以被视为两个单词(check和in)。用户可以调整配置文件中定义的正则表达式,以获得项目符号所需的单词。这一切都正常工作。
同样,一个句子有不同的正则表达式,它决定了一个句子是否以“.”或“;”或“\n”等结尾。同样,一致性块工作正常
我的问题:
a. word1 (1001 times), occurred in sentence {2,5,7,11,12,51,122, 711,881,884,.. etc}
aa. word2 (98 times), occurred in sentence {55,77,79,80,81,110, 121,281,284,.. etc}
..
..
az. wordN (12001 times), occurred in sentence {<listofNumbers_comma_separated>}
aa. wordN1 (55 times), occurred in sentence {<listofNumbers_comma_separated>}
ab. wordN2 (4 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
az. wordNM (995 times), occurred in sentence {<listofNumbers_comma_separated>}
aba. wordNN (15 times), occurred in sentence {<listofNumbers_comma_separated>}
abb. wordNO (25 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
abz. wordNP (20 times), occurred in sentence {<listofNumbers_comma_separated>}
aca. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
acb. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
acz. wordNQ (2220 times), occurred in sentence {<listofNumbers_comma_separated>}
ada. wordNQ (55 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
and so on..