需求:
定时爬取新浪新闻,增量更新数据到mysql数据库
url:https://news.sina.com.cn/china/
步骤:
分析js,获取我们需要的url
循环page爬取多页数据
获取到我们需要的数据,并保存到mysql数据库中
如果数据库中已经存在这条数据,那就跳过不保存
如果数据库中没有这条数据,那就保存
两种方式:
第一种对单条数据操作:查询数据库,不存在则添加,存在则跳过
第二种对所有数据的操作:去全量对比。
pandas
然后将我们的爬虫添加到定时任务中,定时执行
启动worker,beat