共计 4 篇文章

抓取百度百科关键字

根据之前学过的基础知识,现在爬取一些简单的静态页面是不成问题了。百度百科页面爬虫,爬取页面词条并打印。因为每个页面词条是很多的,所以每个页面随机取一个词,不断的往下爬取。总共分为3部,即爬取网页、分析网页数据、输出所需资源。组成本爬虫的关键模块分别是URL管理器、HTML下载器和HTML解析器。 github地址 使用方法 1.命令行 cd baike_spider ...

爬虫入门(二):掌握HTTP库requests的基本用法

我们知道,Python内置了urllib等模块用于HTTP请求,然而它的API使用起来并不优雅,于是Requests基于urllib进行了高度封装,使用起来更加简洁、更加人性化。它是Python的一个非常强大的HTTP库。看一下它霸气的介绍 Requests is the only Non-GMO HTTP library for Python, safe for human ...

爬虫入门(一):快速理解HTTP协议

HTTP协议英文名字为(HyperText Transfer Protoco),是一种用于分布式、协作式和超媒体信息系统的应用层协议。在我们日常上网中,无时无刻不在用这个协议。HTTP是万维网的数据通信的基础。 HTTP协议是什么? HTTP 协议是互联网应用中,客户端(浏览器)与服务器之间进行数据通信的一种协议。它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。协议就是规则,大家都按这个规则来, ...

爬虫入门(三):掌握常用正则表达式

当获取到页面的内容之后,怎么样提取想要的文字呢?正则表达式就是一个很好用的工具。在很多编程语言里面都有正则表达式的概念。正则表达式比较常见的是对字符串操作,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。除了提取文字外,比较常见的还有判断是不是email,是不是手机号等功能。 re模块 Python使用\作为转义字符,匹配的时候很容易少写反斜杠等问题。Python中re ...