使用wget下载wordpress文章

本文关键字:文章 wordpress 下载 wget 使用 | 更新日期: 2023-09-27 17:54:03

我用wget自动从网上下载一些网站、博客文章。

我传递一些带有链接的列表(动态的和可更改的)给wget,它应该从传递的链接中下载内容。

我看到了很多例子,用户使用wget成功下载了离线版本的站点。

但是所有这些方法都不适用于Wordpress文章或任何其他网站,其中js, css文件托管在不同的域。

例如,如果博客url包含wordpress.com,但css, js文件托管在wp.com上。

如果我有http://www.example.com/2013/01/04/article-title/,我只需要下载那篇文章,而不是其他的,但有属性--no-parentwget根本不下载JS和CSS,因为这些文件位于比文章路径更高的级别。

也许有人知道任何替代方案,因为wget是好的单一文件下载,而不是html?

我试着:

wget -Ep --convert-links http://www.example.com/2013/01/04/article-title/

只返回html,不返回js和css。

更新:问题是:有没有。net的工具框架,可以下载网站的内容,并具有与wget相同的功能。

更新2:

好的,我发现wget下载更好(更干净,更少的空间要求)。谢谢链接到superuser.com,我找到了解决方案与wget:

wget -H -N -k -p --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" someurl --content-disposition

使用wget下载wordpress文章

要创建站点镜像,请检查httrack.

对于在线阅读,我推荐Pocket。

都有chrome扩展和firefox插件。

对于存储文章的副本,使用Evernote和clear获得良好的效果。

你自己说:"wget适合下载单个文件,而不是html"。嗯,它可以下载单个文件(或批处理文件,取决于命令行选项),它只是不会解析它们。而这似乎正是你想要的。

看看这个答案,建议使用lynx-dump选项,它的优点是能够从脚本或程序中调用,而我给你的另一个答案只能手动使用。