一、python爬虫
爬虫基本流程:
1.requests模块
通过post、get请求url,返回网页数据利用re或bs4进行解析即可,和我们平时部署接口请求接口差不多,这里不详述。
2.selenium模块(推荐)
上面提到的requests模块更多是爬取静态网页,遇到动态网页,就需要这个爬虫利器selenium了。它的优点主要有: 当页面内容是由 JavaScript 动态生成,通过 requests 请求页面无法获取内容,而selenium可以。 requests 爬虫程序容易被反爬虫策略限制,selenium模拟鼠标键盘操作,让程序的行为和人一样,可绕过大部分反爬。
安装部署参考h