Datehoer的博客
我本将心向明月,奈何明月照沟渠
Datehoer的博客

当前位置:主页 > 技术分享 > 爬虫基础解析--了解爬虫基础

爬虫基础解析--了解爬虫基础

浏览: 作者:Datehoer 发布日期:2020-11-17 21:36:12 来源: 原创

这篇文章讲一下爬虫的基础,今天刚学到的,现学现卖啦!

爬虫,顾名思义,就是爬来爬去的虫子,但是它并不是在现实中爬来爬去,而是在网络中爬来爬去。它通过模拟人类浏览的动作在各大网站进行溜达,如果遇到喜欢的他就把这个内容给记录下来,储存到本地或者别的地方。

爬虫:就是把对网页进行爬取然后把其中需要的数据提取出来,之后进行保存的一些列自动化操作,而提取信息最常用的方法就是正则表达式。

正则表达式,也称为正则表达式,通常用于检索和替换符合特定模式(规则)的文本。

正则表达式是字符串运算的逻辑公式,即“正则字符串”是由预先定义的一些特定字符和这些特定字符的组合构成的。这个“常规字符串”用于表示字符串的过滤逻辑。

不过现在根据需求不同,也有一些其他的爬取方法,比如说根据网页的属性进行爬取,css选择器,xpath等。

爬虫主要是代替手工来提取数据,在爬取过程中可以进行各种异常处理,错误重试等等一系列操作,保障爬取的高效进行,不过其实之所以爬虫高效是因为你人类终究会烦躁,遇到错误等等还有可能需要现查,而你爬虫只需要提前设置好了,遇到各个问题就会有相应的解决方法提供。

爬虫爬取的数据大多数是html代码,也有的是json数据,亦或者是二进制数据(音频,图片等)也有css,js数据。只要网页是基于http协议和https协议的,爬虫就可以进行爬取。

不过现在有的网站为了防止爬取或者为了把网页做的更好,会将网页通过JavaScript渲染出来,而这就加大了爬虫爬取的难度。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h1>示例</h1>
    <script src="js/script.js" type="text/javascript"></script>
</body>
</html>

类似于上面的内容,只有简单的html框架,详细的内容都是通过js调用来进行渲染的,而我们爬取的话源代码与浏览器显示的是不同的,http请求库得到的源代码跟浏览器的源代码不一样,而这就需要更换其他方法来进行爬取了,通过分析后台或使用selenium等库来进行模拟爬取。

毕竟你有了爬虫,就会有反爬虫的技术,不断的切磋,不断地发展,到底是道高一尺还是魔高一丈呢,还是需要看爬取者和网站管理员的技术谁高谁低了。


版权:本文由Datehoer原创,著作权归作者所有。商业转载请联系作者获得授权,非商业转载请保留以上作者信息和原文链接本文链接:https://zjzdmc.top/jsfx/52.html。

文章推荐

热门标签

返回顶部
下面为相关推荐
说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!