如何实现爬虫系列中的验证码识别功能?

2026-05-06 03:431阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计3753个文字,预计阅读时间需要16分钟。

如何实现爬虫系列中的验证码识别功能?

读取验证码与训练Tesseract,在上篇文章中我们介绍了如何使用Tesseract识别格式规范的文字。本文将详细介绍如何使用Tesseract识别图像验证码。虽然大多数人只关注单个字,但本文将提供更全面的解决方案。

读取验证码与训练 Tesseract

在上一篇文章中我们介绍了使用 Tesseract 如何识别格式规范的文字,在这篇文章中我们将详细介绍使用 Tesseract 如何识别图像验证码。

虽然大多数人对单词“CAPTCHA”都很熟悉,但是很少人知道它的具体含义:全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart)。它的奇怪缩写似乎表示,它一直在扮演着十分奇怪的角色。其目的是为了阻止网站访问,而不是让访问更通畅,它经常让人类和非人类的网络机器人深陷验证码识别的泥潭不能自拔。

图灵测试首次出现在阿兰·图灵(Alan Turing)1950 年发表的论文“计算装置与智能”(Computing Machinery and Intelligence)中。他在论文中描述了这样一种场景:一个人可以和其他人交流,也可以通过计算机终端和人工智能程序交流。如果一番对话之后这个人不能区分人和人工智能程序,那么就认为这个人工智能程序通过了图灵测试,图灵认为这个人工智能程序就可以真正地“思考”所有的事情。

令人啼笑皆非的是,60多年以后,我们开始用这些原本测试程序的题目来测试我们自己。Google 的 reCAPTCHA 难得令人发指,作为目前最具有安全意识的流行网站,Google 拦截了多达 25% 的准备访问网站的正常人类用户。

大多数其他的验证码都是比较简单的。

阅读全文

本文共计3753个文字,预计阅读时间需要16分钟。

如何实现爬虫系列中的验证码识别功能?

读取验证码与训练Tesseract,在上篇文章中我们介绍了如何使用Tesseract识别格式规范的文字。本文将详细介绍如何使用Tesseract识别图像验证码。虽然大多数人只关注单个字,但本文将提供更全面的解决方案。

读取验证码与训练 Tesseract

在上一篇文章中我们介绍了使用 Tesseract 如何识别格式规范的文字,在这篇文章中我们将详细介绍使用 Tesseract 如何识别图像验证码。

虽然大多数人对单词“CAPTCHA”都很熟悉,但是很少人知道它的具体含义:全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart)。它的奇怪缩写似乎表示,它一直在扮演着十分奇怪的角色。其目的是为了阻止网站访问,而不是让访问更通畅,它经常让人类和非人类的网络机器人深陷验证码识别的泥潭不能自拔。

图灵测试首次出现在阿兰·图灵(Alan Turing)1950 年发表的论文“计算装置与智能”(Computing Machinery and Intelligence)中。他在论文中描述了这样一种场景:一个人可以和其他人交流,也可以通过计算机终端和人工智能程序交流。如果一番对话之后这个人不能区分人和人工智能程序,那么就认为这个人工智能程序通过了图灵测试,图灵认为这个人工智能程序就可以真正地“思考”所有的事情。

令人啼笑皆非的是,60多年以后,我们开始用这些原本测试程序的题目来测试我们自己。Google 的 reCAPTCHA 难得令人发指,作为目前最具有安全意识的流行网站,Google 拦截了多达 25% 的准备访问网站的正常人类用户。

大多数其他的验证码都是比较简单的。

阅读全文