Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/linux/26.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Linux 如何从多个网页下载文本到文件?_Linux_Bash_Console_Lynx - Fatal编程技术网

Linux 如何从多个网页下载文本到文件?

Linux 如何从多个网页下载文本到文件?,linux,bash,console,lynx,Linux,Bash,Console,Lynx,我想下载一本波兰语词典。不幸的是,这个词包含了所有的屈折变化(不确定正确的英语单词是什么)。我发现这个命令 lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt 可以下载单个词典网页。然后我将不得不以某种方式从文本块中只提取字典条目,但至少这是一个开始 不幸的是,我是一个linux noob,不知道如何遍历所有3067页。未经测试,但使用GNU Parallel,您应该能够非常快速轻松地完成这项工

我想下载一本波兰语词典。不幸的是,这个词包含了所有的屈折变化(不确定正确的英语单词是什么)。我发现这个命令

lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page=1 > file.txt
可以下载单个词典网页。然后我将不得不以某种方式从文本块中只提取字典条目,但至少这是一个开始


不幸的是,我是一个linux noob,不知道如何遍历所有3067页。

未经测试,但使用GNU Parallel,您应该能够非常快速轻松地完成这项工作

parallel -qk 'lynx --dump https://sjp.pl/slownik/lp.phtml?f_vl=2&page={}' ::: {1..3067} > file.txt
如果无效,请尝试删除单引号。如果这不起作用,请尝试在
&
前面加一个反斜杠。对不起,我现在没有办法测试

慢的方法是:

for ((i=1;i<3068;i++)) ; do
   lynx --dump ...page=$i
done > file.txt
((i=1;i file.txt)的


我发现使用
lynx…page=$I
只显示第一页,而不管
I
,我不理解,因为
https://...page=i
肯定会链接到第i页。实际上,其他程序,如curl或wget也会链接到第i页。使用
wgethttps://sjp.pl/slownik/lp.phtml?f_vl=2&page=200
will获取
…page=1
的内容,而粘贴
…page=200
时确实显示了第200页…我不明白。好吧,我发现我必须将链接放在引号中,因为lynx误解了“&”请再看一看答案,因为Ole很乐意添加
-q
选项来为我们处理报价。