需求:
定时爬取新浪新闻,增量更新数据到mysql数据库
url:https://news.sina.com.cn/china/
步骤:
- 分析js,获取我们需要的url
- 循环page爬取多页数据
- 获取到我们需要的数据,并保存到mysql数据库中- 如果数据库中已经存在这条数据,那就跳过不保存
- 如果数据库中没有这条数据,那就保存
 - 两种方式:- 第一种对单条数据操作:查询数据库,不存在则添加,存在则跳过
- 第二种对所有数据的操作:去全量对比。- pandas
 
 
- 然后将我们的爬虫添加到定时任务中,定时执行
- 启动worker,beat