有一个我可以访问的在线HTTP目录。我已经尝试通过wget下载所有子目录和文件。但是,问题是,当wget下载子目录时,它会下载包含该目录中文件列表的index.html文件,而不会下载文件本身。
wget
index.html
有没有一种方法可以下载没有深度限制的子目录和文件(就像我想要下载的目录只是一个文件夹,我想要复制到我的计算机)。
我能够得到这个工作感谢到this post利用< >强VisualWGet < / >强。这对我来说很有效。重要的部分似乎是检查-recursive标志(见图)。
-recursive
还发现-no-parent标志很重要,否则它将尝试下载所有内容。
-no-parent
解决方案:
wget -r -np -nH --cut-dirs=3 -R index.html http://hostname/aaa/bbb/ccc/ddd/
解释:
-r
-np
-nH
--cut-dirs=3
-R index.html
参考:http://bmwieczorek.wordpress.com/2008/10/01/wget-recursively-download-all-files-from-certain-directory-listed-by-apache/
wget是一个无价的资源,我自己也在使用。然而,有时地址中有字符被wget标识为语法错误。我相信有一个解决方案,但由于这个问题没有特别问wget,我想我会为那些无疑会偶然发现这一页寻找快速解决方案的人提供一个替代方案,不需要学习曲线。
有一些浏览器扩展可以做到这一点,但大多数都需要安装下载管理器,这并不总是免费的,往往是一个眼中钉,并使用大量的资源。这里有一个没有这些缺点:
“下载大师”是谷歌Chrome浏览器的扩展,适用于从目录下载。您可以选择过滤要下载的文件类型,或者下载整个目录。
https://chrome.google.com/webstore/detail/download-master/dljdacfojgikogldjffnkdcielnklkce
有关最新的功能列表和其他信息,请访问开发人员博客上的项目页面:
http://monadownloadmaster.blogspot.com/
从man wget
man wget
< >强' - r ' “——递归” 打开递归检索。有关详细信息,请参见递归下载。默认最大深度为5 < p > < >强“np” “——没有父母”< / >强 在递归检索时,永远不要升到父目录。这是一个有用的选项,因为它保证只下载某个层次结构之下的文件。
< >强——cut-dirs =数量的 忽略数字目录组件。这对于获得将保存递归检索的目录的细粒度控制非常有用
以` ftp://ftp.xemacs.org/pub/xemacs/ `目录为例。如果您使用' -r '检索它,它将保存在本地ftp.xemacs.org/pub/xemacs/下。虽然' -nH '选项可以删除ftp.xemacs.org/部分,但您仍然只能使用pub/xemacs。这就是'——cut-dirs '派上用场的地方;它使Wget不“看到”数字远程目录组件。下面是'——cut-dirs '选项如何工作的几个例子。
No options -> ftp.xemacs.org/pub/xemacs/ - nh -> pub/xemacs/ - nh——cut-dirs=1 -> xemacs/ - nh——cut-dirs=2 -> .
——cut-dirs=1 -> ftp.xemacs.org/xemacs/ ... 如果你只是想摆脱目录结构,这个选项类似于' -nd '和' -P '的组合。然而,与' -nd '不同,'——cut-dirs '不会丢失子目录-例如,使用' -nH——cut-dirs=1 ', beta/子目录将被放置到xemacs/beta中,正如人们所期望的那样
(仅在不需要递归deptch时可用)
使用书签。在书签中拖动这个链接,然后编辑并粘贴以下代码:
javascript:(function(){ var arr=[], l=document.links; var ext=prompt("select extension for download (all links containing that, will be downloaded.", ".mp3"); for(var i=0; i<l.length; i++) { if(l[i].href.indexOf(ext) !== false){ l[i].setAttribute("download",l[i].text); l[i].click(); } } })();
然后进入页面(从你想要下载文件的地方),然后点击那个书签。
Wget通常以这种方式工作,但有些网站可能会有问题,它可能会创建太多不必要的HTML文件。为了使这项工作更容易,并防止不必要的文件创建,我分享了我的getwebfolder脚本,这是我为自己写的第一个linux脚本。此脚本下载作为参数输入的web文件夹的所有内容。
当你试图通过wget下载一个包含多个文件的打开的web文件夹时,wget会下载一个名为index.html的文件。此文件包含web文件夹的文件列表。我的脚本转换文件名写在index.html文件的网址和下载他们清楚与wget。
在Ubuntu 18.04和Kali Linux上进行了测试,它也可以在其他发行版上运行。
用法:
从下面提供的zip文件中提取getwebfolder文件
chmod +x getwebfolder(仅用于第一次)
chmod +x getwebfolder
./getwebfolder webfolder_URL
例如./getwebfolder http://example.com/example_folder/
./getwebfolder http://example.com/example_folder/
下载链接
博客详细信息
你可以使用这 Firefox插件下载HTTP目录下的所有文件。
https://addons.mozilla.org/en-US/firefox/addon/http-directory-downloader/
你可以使用lftp,下载的swish军刀,如果你有更大的文件,你可以添加--use-pget-n=10命令
--use-pget-n=10
lftp -c 'mirror --parallel=100 https://example.com/files/ ;exit'