这篇文章讲一下爬虫的基础,今天刚学到的,现学现卖啦!
爬虫,顾名思义,就是爬来爬去的虫子,但是它并不是在现实中爬来爬去,而是在网络中爬来爬去。它通过模拟人类浏览的动作在各大网站进行溜达,如果遇到喜欢的他就把这个内容给记录下来,储存到本地或者别的地方。
爬虫:就是把对网页进行爬取然后把其中需要的数据提取出来,之后进行保存的一些列自动化操作,而提取信息最常用的方法就是正则表达式。

正则表达式,也称为正则表达式,通常用于检索和替换符合特定模式(规则)的文本。正则表达式是字符串运算的逻辑公式,即“正则字符串”是由预先定义的一些特定字符和这些特定字符的组合构成的。这个“常规字符串”用于表示字符串的过滤逻辑。

不过现在根据需求不同,也有一些其他的爬取方法,比如说根据网页的属性进行爬取,css选择器,xpath等。
爬虫主要是代替手工来提取数据,在爬取过程中可以进行各种异常处理,错误重试等等一系列操作,保障爬取的高效进行,不过其实之所以爬虫高效是因为你人类终究会烦躁,遇到错误等等还有可能需要现查,而你爬虫只需要提前设置好了,遇到各个问题就会有相应的解决方法提供。
爬虫爬取的数据大多数是html代码,也有的是json数据,亦或者是二进制数据(音频,图片等)也有css,js数据。只要网页是基于http协议和https协议的,爬虫就可以进行爬取。
不过现在有的网站为了防止爬取或者为了把网页做的更好,会将网页通过JavaScript渲染出来,而这就加大了爬虫爬取的难度。

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Document</title>
</head>
<body>
<h1>示例</h1>
<script src="js/script.js" type="text/javascript"></script>
</body>
</html>

类似于上面的内容,只有简单的html框架,详细的内容都是通过js调用来进行渲染的,而我们爬取的话源代码与浏览器显示的是不同的,http请求库得到的源代码跟浏览器的源代码不一样,而这就需要更换其他方法来进行爬取了,通过分析后台或使用selenium等库来进行模拟爬取。
毕竟你有了爬虫,就会有反爬虫的技术,不断的切磋,不断地发展,到底是道高一尺还是魔高一丈呢,还是需要看爬取者和网站管理员的技术谁高谁低了。

最后修改:2021 年 04 月 20 日 09 : 28 AM
如果觉得我的文章对你有用,请随意赞赏