Python爬虫的基本原理是什么?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1250个文字,预计阅读时间需要5分钟。
1、爬虫是什么?爬虫是模拟用户在浏览器或应用上操作,实现操作过程、实现自动化的程序。
2、当我们在浏览器中输入一个url后回车,后台会发生什么?例如输入http://www.sina.com后,后台会进行域名解析、建立连接、发送请求、接收响应、解析响应等一系列操作。
1、爬虫是什么
爬虫是模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序。
当我们在浏览器中输入一个url后回车,后台会发生什么?比如说输入www.sina.com.cn/
发生四个步骤:
- 查找域名对应的IP地址。
- 向IP对应的服务器发送请求。
- 服务器响应请求,发回网页内容。
- 浏览器解析网页内容。
网络爬虫本质就是浏览器localhost.com:8080/index.htm
从中分解出协议名、主机名、端口、对象路径等部分,对于我们的这个地址,解析得到的结果如下:
协议名:www.baidu.com/s?wd=图片。而POST请求的请求参数会存放在Request内,并不会出现在 URL 链接的后面,比如我们登录知乎,输入用户名和密码,我们会看到浏览器开发者工具的Network页,Request请求有FormData的键值对信息,那里就存放了我们的登录信息,有利于保护我们的账户信息安全;
请求URL:URL全称是统一资源定位符,也就是我们说的网址。
本文共计1250个文字,预计阅读时间需要5分钟。
1、爬虫是什么?爬虫是模拟用户在浏览器或应用上操作,实现操作过程、实现自动化的程序。
2、当我们在浏览器中输入一个url后回车,后台会发生什么?例如输入http://www.sina.com后,后台会进行域名解析、建立连接、发送请求、接收响应、解析响应等一系列操作。
1、爬虫是什么
爬虫是模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序。
当我们在浏览器中输入一个url后回车,后台会发生什么?比如说输入www.sina.com.cn/
发生四个步骤:
- 查找域名对应的IP地址。
- 向IP对应的服务器发送请求。
- 服务器响应请求,发回网页内容。
- 浏览器解析网页内容。
网络爬虫本质就是浏览器localhost.com:8080/index.htm
从中分解出协议名、主机名、端口、对象路径等部分,对于我们的这个地址,解析得到的结果如下:
协议名:www.baidu.com/s?wd=图片。而POST请求的请求参数会存放在Request内,并不会出现在 URL 链接的后面,比如我们登录知乎,输入用户名和密码,我们会看到浏览器开发者工具的Network页,Request请求有FormData的键值对信息,那里就存放了我们的登录信息,有利于保护我们的账户信息安全;
请求URL:URL全称是统一资源定位符,也就是我们说的网址。

