您现在所在的位置:首页 >关于奇酷 > 行业动态 > Python爬虫入门,8个常用爬虫技巧盘点

Python爬虫入门,8个常用爬虫技巧盘点

来源:奇酷教育 发表于:

Python爬虫入门,8个常用爬虫技巧盘点。

  编程对于任何一个新手来说都不是一件容易的事情,Python对于任何一个想学习的编程的人来说的确是一个福音,阅读Python代码像是在阅读文章,源于Python语言提供了非常优雅的语法,被称为最优雅的语言之一。
 
  python入门时
 
  用得最多的还是各类爬虫脚本,
 
  写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本
 
  写过自动收邮件的脚本、写过简单的验证码识别的脚本。
 
  这些脚本有一个共性,都是和web相关的,
 
  8个常用爬虫技巧盘点和大家分享:
 
 
  1、基本抓取网页
 
  get方法
 
  post方法
 
  2.使用代理服务器
 
  这在某些情况下比较有用,
 
  比如IP被封了,或者比如IP访问的次数受到限制等等。
 
  3.Cookies处理
 
  是的没错,如果想同时用代理和cookie,
 
  那就加入proxy_support然后operner改为 ,如下:
 
  4.伪装成浏览器访问
 
  某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。
 
  这时候我们需要伪装成浏览器,
 
  这可以通过修改http包中的header来实现:
 
  5、页面解析
 
  对于页面解析最强大的当然是正则表达式,
 
  这个对于不同网站不同的使用者都不一样,就不用过多的说明。
 
  其次就是解析库了,常用的有两个lxml和BeautifulSoup。
 
  对于这两个库,我的评价是,
 
  都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,
 
  但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码;
 
  lxmlC语言编码,高效,支持Xpath。
 
  6.验证码的处理
 
  碰到验证码咋办?
 
  这里分两种情况处理:
 
  google那种验证码,没办法。
 
  简单的验证码:字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,
 
  这种还是有可能可以处理的,一般思路是旋转的转回来,噪音去掉,
 
  然后划分单个字符,划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库,
 
  然后把验证码和特征库进行比较。
 
  这个比较复杂,这里就不展开了,
 
  具体做法请弄本相关教科书好好研究一下。
 
  7. gzip/deflate支持
 
  现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,
 
  以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。
 
  这就意味着抓取速度会快5倍。
 
  然而python的urllib/urllib2默认都不支持压缩
 
  要返回压缩格式,必须在request的header里面写明’accept-encoding’,
 
  然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐碎。
 
  如何让urllib2自动支持gzip, defalte呢?
 
  其实可以继承BaseHanlder类,
 
  然后build_opener的方式来处理:
 
  8、多线程并发抓取
 
  单线程太慢的话,就需要多线程了,
 
  这里给个简单的线程池模板 这个程序只是简单地打印了1-10,
 
  但是可以看出是并发的。
 
  虽然说Python的多线程很鸡肋
 
  但是对于爬虫这种网络频繁型,
 
  还是能一定程度提高效率的。
 
  9. 总结
 
  阅读Python编写的代码感觉像在阅读英语一样,这让使用者可以专注于解决问题而不是去搞明白语言本身。
 
  Python虽然是基于C语言编写,但是摒弃了C中复杂的指针,使其变得简明易学。
 
  并且作为开源软件,Python允许对代码进行阅读,拷贝甚至改进。
 
  这些性能成就了Python的高效率,有“人生苦短,我用Python”之说,是一种十分精彩又强大的语言。
 
  总而言之,开始学Python一定要注意这4点:
 
  1.代码规范,这本身就是一个非常好的习惯,如果开始不养好好的代码规划,以后会很痛苦。
 
  2.多动手,少看书,很多人学Python就一味的看书,这不是学数学物理,你看例题可能就会了,学习Python主要是学习编程思想。
 
  3.勤练习,学完新的知识点,一定要记得如何去应用,不然学完就会忘,学我们这行主要都是实际操作。
 
  4.学习要有效率,如果自己都觉得效率非常低,那就停不停,找一下原因,去问问过来人这是为什么。