Python爬虫初学者需要掌握哪些基础知识？

2026-05-25 02:260阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

本文共计1286个文字，预计阅读时间需要6分钟。

1、什么是爬虫？爬虫，即网络爬虫，简单来说，就是网络上的“蜘蛛，它们在网络中爬行，搜集信息。互联网就像一张大网，而爬虫就是在这张网上爬行的蜘蛛。如果它遇到资源，就会抓取下来。”

1、什么是爬虫

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。

比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

2、浏览网页的过程

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

3、URL的含义

URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成：

①第一部分是协议(或称为服务方式)。

阅读全文

标签：Python 爬虫入门有哪些