需求:

定时爬取新浪新闻,增量更新数据到mysql数据库

url:https://news.sina.com.cn/china/

步骤:

  • 分析js,获取我们需要的url

  • 循环page爬取多页数据

  • 获取到我们需要的数据,并保存到mysql数据库中

    • 如果数据库中已经存在这条数据,那就跳过不保存

    • 如果数据库中没有这条数据,那就保存

    两种方式:

    • 第一种对单条数据操作:查询数据库,不存在则添加,存在则跳过

    • 第二种对所有数据的操作:去全量对比。

      • pandas

  • 然后将我们的爬虫添加到定时任务中,定时执行

  • 启动worker,beat