使用wget下载wordpress文章
本文关键字:文章 wordpress 下载 wget 使用 | 更新日期: 2023-09-27 17:54:03
我用wget
自动从网上下载一些网站、博客文章。
我传递一些带有链接的列表(动态的和可更改的)给wget
,它应该从传递的链接中下载内容。
我看到了很多例子,用户使用wget
成功下载了离线版本的站点。
但是所有这些方法都不适用于Wordpress文章或任何其他网站,其中js, css文件托管在不同的域。
例如,如果博客url包含wordpress.com,但css, js文件托管在wp.com上。
如果我有http://www.example.com/2013/01/04/article-title/
,我只需要下载那篇文章,而不是其他的,但有属性--no-parent
wget根本不下载JS和CSS,因为这些文件位于比文章路径更高的级别。
也许有人知道任何替代方案,因为wget
是好的单一文件下载,而不是html?
我试着:
wget -Ep --convert-links http://www.example.com/2013/01/04/article-title/
只返回html,不返回js和css。
更新:问题是:有没有。net的工具框架,可以下载网站的内容,并具有与wget相同的功能。
更新2:好的,我发现wget下载更好(更干净,更少的空间要求)。谢谢链接到superuser.com,我找到了解决方案与wget:
wget -H -N -k -p --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" someurl --content-disposition
要创建站点镜像,请检查httrack.
对于在线阅读,我推荐Pocket。
都有chrome扩展和firefox插件。
对于存储文章的副本,使用Evernote和clear获得良好的效果。
你自己说:"wget适合下载单个文件,而不是html"。嗯,它可以下载单个文件(或批处理文件,取决于命令行选项),它只是不会解析它们。而这似乎正是你想要的。
看看这个答案,建议使用lynx
和-dump
选项,它的优点是能够从脚本或程序中调用,而我给你的另一个答案只能手动使用。