Python爬虫之Beautiful Soup的用法&小Case

前言 说到爬虫,很多时候,在学习和工作中用到的场景变化非常大,如何在不同的场景需求下面抓到我们需要的信息,如何对数据进行清洗是我们考虑的本质问题。本文先将介绍下Beautiful Soup的基本介绍和安装,然后介绍常用的用法,最后从一个案例出发,讲讲如何通过Beautiful Soup快速的解决一个需求问题。另外值得一提的是可能你看到本文的一些函数的时候,可能已经过时或者修改了,比如在BS3中可以是使用findAll来查找某个标签节点的,到BS4更新为find_all了。如果后面的案例中你发现程序不能运行时候请排查下所使用的函数方法。 正文 Beautiful Soup的简介&安装 Beautiful Soup是Python的一个库,最主要的功能是从网页抓去数据。 官方原话: You didn’t write that awful page. You’re just trying to get some data out of it. Beautiful Soup is here to help. Since 2004, it’s been saving programmers hours or days of work on quick-turnaround screen scraping projects. 的确,等你用习惯了它,确实是非常节省我们的工作学习时间的(本人已体验过,可能刚开始会比较生疏或看得不太懂),还是建议由一定的前端基础(HTML+CSS)再来学这个比较好。 Beautiful Soup 3 目前已停止开发了,现在的版本为Beautiful Soup 4.5.1。 […]