Linux 如何从多个网页下载文本到文件?
我想下载一本波兰语词典。不幸的是,这个词包含了所有的屈折变化(不确定正确的英语单词是什么)。我发现这个命令Linux 如何从多个网页下载文本到文件?,linux,bash,console,lynx,Linux,Bash,Console,Lynx,我想下载一本波兰语词典。不幸的是,这个词包含了所有的屈折变化(不确定正确的英语单词是什么)。我发现这个命令 lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt 可以下载单个词典网页。然后我将不得不以某种方式从文本块中只提取字典条目,但至少这是一个开始 不幸的是,我是一个linux noob,不知道如何遍历所有3067页。未经测试,但使用GNU Parallel,您应该能够非常快速轻松地完成这项工
lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt
可以下载单个词典网页。然后我将不得不以某种方式从文本块中只提取字典条目,但至少这是一个开始
不幸的是,我是一个linux noob,不知道如何遍历所有3067页。未经测试,但使用GNU Parallel,您应该能够非常快速轻松地完成这项工作
parallel -qk 'lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page={}' ::: {1..3067} > file.txt
如果无效,请尝试删除单引号。如果这不起作用,请尝试在&
前面加一个反斜杠。对不起,我现在没有办法测试
慢的方法是:
for ((i=1;i<3068;i++)) ; do
lynx --dump ...page=$i
done > file.txt
((i=1;i file.txt)的
我发现使用lynx…page=$I
只显示第一页,而不管I
,我不理解,因为https://...page=i
肯定会链接到第i页。实际上,其他程序,如curl或wget也会链接到第i页。使用wgethttps://sjp.pl/slownik/lp.phtml?f_vl=2&page=200
will获取…page=1
的内容,而粘贴…page=200
时确实显示了第200页…我不明白。好吧,我发现我必须将链接放在引号中,因为lynx误解了“&”请再看一看答案,因为Ole很乐意添加-q
选项来为我们处理报价。