如何用tesserocr在Python3中识别超长尾词验证码?

2026-04-20 09:380阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计1659个文字,预计阅读时间需要7分钟。

如何用tesserocr在Python3中识别超长尾词验证码?

一、背景+需求最近有一个需求是从一个后台留言网站爬取评论数据。后台管理网站需要登录,登录后会有一个验证码问题。由于验证码是由后端生成的,无法直接解析。

一、背景

最近有个需求是从一个后台的留言网站爬取留言数据,后台管理网站必然涉及到了登录,登录就有个验证码的问题必须得解决,由于验证码是从后端生成的,并且不了解其生成规则,那就只能通过图像识别技术来做验证码识别了!通过查阅资料发现Python中的的tesserocr这个库好像使用的比较多,所以对这个库进行了一番研究,并且实现了那个后台网站验证码的识别。

二、准备工作

1. 安装tesserocr

由于我使用的Python版本是python3.5,所以一下所有操作都是基于python3的,如果有python2的同学,可以找找其他教程~~

首先需要下载tesseract,它为tesserocr提供底层支持。具体下载官方路径:github.com/UB-Mannheim/tesseract/wiki,选择对应的系统版本,可以选择一个相对不带dev的稳定版本下载,如:tesseract-ocr-setup-3.05.02-20180621.exe。然后一路安装,唯一记得勾选Additional language data(download),勾选可能会用到的语言tessdata,如简体、繁体中文,数学模块等,不需要全选,下载tessdata的时间会比较长。

阅读全文

本文共计1659个文字,预计阅读时间需要7分钟。

如何用tesserocr在Python3中识别超长尾词验证码?

一、背景+需求最近有一个需求是从一个后台留言网站爬取评论数据。后台管理网站需要登录,登录后会有一个验证码问题。由于验证码是由后端生成的,无法直接解析。

一、背景

最近有个需求是从一个后台的留言网站爬取留言数据,后台管理网站必然涉及到了登录,登录就有个验证码的问题必须得解决,由于验证码是从后端生成的,并且不了解其生成规则,那就只能通过图像识别技术来做验证码识别了!通过查阅资料发现Python中的的tesserocr这个库好像使用的比较多,所以对这个库进行了一番研究,并且实现了那个后台网站验证码的识别。

二、准备工作

1. 安装tesserocr

由于我使用的Python版本是python3.5,所以一下所有操作都是基于python3的,如果有python2的同学,可以找找其他教程~~

首先需要下载tesseract,它为tesserocr提供底层支持。具体下载官方路径:github.com/UB-Mannheim/tesseract/wiki,选择对应的系统版本,可以选择一个相对不带dev的稳定版本下载,如:tesseract-ocr-setup-3.05.02-20180621.exe。然后一路安装,唯一记得勾选Additional language data(download),勾选可能会用到的语言tessdata,如简体、繁体中文,数学模块等,不需要全选,下载tessdata的时间会比较长。

阅读全文