跟着互联网的飞速发展,越来越多的数据充溢着这个时期。而猎取和处置惩罚数据就成为我们生活中必不可少的部份,爬虫也是应运而生。
浩瀚言语都能举行爬虫,但基于python的爬虫显得越发简约,轻易。爬虫也成了python言语中必不可少的一部份。那我们经由历程爬虫能够猎取什么样的数据呢?又有什么样的剖析体式格局呢?
在上一篇给人人引见的是爬虫基础流程Request和Response的引见,本篇给人人带来的是爬虫能够猎取什么样的数据和它的细致剖析体式格局。
能抓到什么样的数据?
网页文本:如 HTML 文档,Ajax加载的Json花样文本等;
图片,视频等:猎取到的是二进制文件,保留为图片或视频花样;
其他只需能要求到的,都能猎取。
演示
import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers) print(resp.content) # 二进制文件运用content # 保留图片 with open('logo.gif','wb') as f: f.write(resp.content) print('Ok')
胜利运转就能够看到打印出来的图片的二进制数据,可保留胜利后打印的 OK,这个时刻我们翻开文件夹就能够看到下载下来的图片了。这几行代码就简朴的演示了爬虫保留文件的历程。
剖析体式格局有哪些?
直接处置惩罚,比方简朴的页面文档,只需去除一些空格的数据;
Json剖析,处置惩罚Ajax加载的页面;
正则表达式;
BeautifulSoup库;
PyQuery;
XPath。
总结
看到这里,人人是否是已对爬虫的基础事情道理有了清楚的认识了呢。固然,罗马并非一天建成的,只需积累了足够多的履历,人人一定能成为爬虫大神的。置信人人把我分享的相干材料看完,一定会胜利的。
以上就是爬虫能猎取什么样的数据和细致的剖析体式格局的细致内容,更多请关注ki4网别的相干文章!