0x00 前言
最近玩了一下Python的爬虫,感觉这个东西对Python初学者还是挺友好的,适合入门Python
0x01 简单编程套路
- requests 库发送请求
- Beautifulsoap,Xpath,Pyquiry,正则,等解释库提取数据
- 储存数据到文件或者数据库
下面通过一个简单的对猫眼榜单的爬取代码体现上面的思路:
- get_onepage(url)函数发送请求,主要使用requests库
- parse_onepage(content)函数负责解释和提取数据,主要使用了Beautifulsoap
- save_csv(content)函数就是把数据保存到CSV文件
import requests |
0x02 总结
- 这是最简单的爬虫小程序,从中要体会里面思路
- 上面的小程序只针对静态页面,对于动态的Ajax加载,使用过selenium,不过感觉十分慢和不友好,建议抓包找去真实的URL比较实际
- 比起beautifulsoap,感觉xpath提取数据更加高效简洁