从网站抓取文件到自动同步数据

本文关键字:同步 数据 网站 抓取 文件 | 更新日期: 2023-09-27 18:01:21

我想每周抓取一个文件(excel文件),因为excel文件中的数据不断变化,例如,出租车信息的excel文件。它会在我抓取的网站上不断变化。除了偶尔添加新数据外,一切保持不变。我正在c#中构建一个应用程序,并将其发布到抓取该文件并保存它的商店。从excel文件,我计划创建一个api,例如,getCabNames(), getCabNum()等。

因为它将是一个应用程序已经在商店,我的代码必须是有效的,足以从网站上抓取文件,使其自动同步。在我的本地计算机上的linux系统上,我可以有一个脚本'wget ',我可以克隆它,但由于这是一个应用程序在商店,我不能这样使用它。

问题是我如何从网站上检索文件,每周左右,并保持更新文件,使其同步。该文件位于"出租车站位(Excel)"链接的底部

做这件事最有效的方法是什么?谢谢。

从网站抓取文件到自动同步数据

听起来你需要让excel中的数据通过某种web服务提供给你的应用程序,但你已经知道,因为你计划创建一个API。如果你懂c#,看看asp.net MVC web API,创建一个控制器,读取存储在服务器上的excel文件,并以你的应用程序可以理解的格式返回数据。

下面是一个如何使用asp.net MVC web api构建web服务的示例

http://www.asp.net/web-api/overview/creating-web-apis/creating-a-web-api-that-supports-crud-operations

你不能指望应用程序在任何给定的时间运行。你可以记录下应用程序最后一次下载文件的时间,然后在一个星期后检查新的文件,但这可能不可靠。你应该是一个始终运行的web服务,并存档文件,以便应用程序在方便的时候下载。然后,您可以创建一个cron作业来查询服务以下载和存档文件。

使用定时器或其他东西?