Python爬虫入门，8个常用爬虫技巧盘点

来源：奇酷教育发表于：2020-01-06 15:42:31

Python爬虫入门，8个常用爬虫技巧盘点。

　　编程对于任何一个新手来说都不是一件容易的事情，Python对于任何一个想学习的编程的人来说的确是一个福音，阅读Python代码像是在阅读文章，源于Python语言提供了非常优雅的语法，被称为最优雅的语言之一。

　　python入门时

　　用得最多的还是各类爬虫脚本，

　　写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本

　　写过自动收邮件的脚本、写过简单的验证码识别的脚本。

　　这些脚本有一个共性，都是和web相关的，

　　8个常用爬虫技巧盘点和大家分享：

　　1、基本抓取网页

　　get方法

　　post方法

　　2.使用代理服务器

　　这在某些情况下比较有用，

　　比如IP被封了，或者比如IP访问的次数受到限制等等。

　　3.Cookies处理

　　是的没错，如果想同时用代理和cookie，

　　那就加入proxy_support然后operner改为，如下：

　　4.伪装成浏览器访问

　　某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。

　　这时候我们需要伪装成浏览器，

　　这可以通过修改http包中的header来实现：

　　5、页面解析

　　对于页面解析最强大的当然是正则表达式，

　　这个对于不同网站不同的使用者都不一样，就不用过多的说明。

　　其次就是解析库了，常用的有两个lxml和BeautifulSoup。

　　对于这两个库，我的评价是，

　　都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，

　　但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；

　　lxmlC语言编码，高效，支持Xpath。

　　6.验证码的处理

　　碰到验证码咋办？

　　这里分两种情况处理：

　　google那种验证码，没办法。

　　简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，

　　这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，

　　然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，

　　然后把验证码和特征库进行比较。

　　这个比较复杂，这里就不展开了，

　　具体做法请弄本相关教科书好好研究一下。

　　7. gzip/deflate支持

　　现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，

　　以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。

　　这就意味着抓取速度会快5倍。

　　然而python的urllib/urllib2默认都不支持压缩

　　要返回压缩格式，必须在request的header里面写明’accept-encoding’，

　　然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。

　　如何让urllib2自动支持gzip, defalte呢？

　　其实可以继承BaseHanlder类，

　　然后build_opener的方式来处理：

　　8、多线程并发抓取

　　单线程太慢的话，就需要多线程了，

　　这里给个简单的线程池模板这个程序只是简单地打印了1-10，

　　但是可以看出是并发的。

　　虽然说Python的多线程很鸡肋

　　但是对于爬虫这种网络频繁型，

　　还是能一定程度提高效率的。

　　9. 总结

　　阅读Python编写的代码感觉像在阅读英语一样，这让使用者可以专注于解决问题而不是去搞明白语言本身。

　　Python虽然是基于C语言编写，但是摒弃了C中复杂的指针，使其变得简明易学。

　　并且作为开源软件，Python允许对代码进行阅读，拷贝甚至改进。

　　这些性能成就了Python的高效率，有“人生苦短，我用Python”之说，是一种十分精彩又强大的语言。

　　总而言之，开始学Python一定要注意这4点：

　　1.代码规范，这本身就是一个非常好的习惯，如果开始不养好好的代码规划，以后会很痛苦。

　　2.多动手，少看书，很多人学Python就一味的看书，这不是学数学物理，你看例题可能就会了，学习Python主要是学习编程思想。

　　3.勤练习，学完新的知识点，一定要记得如何去应用，不然学完就会忘，学我们这行主要都是实际操作。

　　4.学习要有效率，如果自己都觉得效率非常低，那就停不停，找一下原因，去问问过来人这是为什么。

下一篇:5G时代这三种编程语言势不可挡！上一篇:H5和HTML5有区别吗？

Python爬虫入门，8个常用爬虫技巧盘点

栏目导航

奇酷热点

常见问题

奇酷技术交流中心

相关文章