手写数字识别简化版,如何实现0和1的二分类?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2234个文字,预计阅读时间需要9分钟。
一、数据集解析
1.数据集格式介绍
该数据集可在Yann LeCun的官方网站上查看。官网链接:[Yann LeCun官网](#)2.手写数字识别数据集
该数据集保存了形状比较特殊,四个文件(训练集、测试集的图片和标签)。 一、数据集解析 1. 数据集格式介绍该数据集可以在Yann LeCun的官网上查看。官网链接:手写数字识别数据集。他这个数据集保存形式比较特殊,四个文件(训练集、测试集的图片和标签)都是以IDX文件格式保存的。IDX文件格式是各种数值类型的向量和多维矩阵的简单格式。
以官网的train-images.idx3-ubyte为例来说明IDX格式。
- offset是用16进制数表示的,代表偏移量,也就是在该文件中的存放地址。文件按字节存储,比如第一行起始地址为0000H,存储类型为32bit的整数,占4个字节,所以第二行的起始地址就是0004H。
- 图片的存储是在description中,该文件前面四行分别是magic number、number of images、number of rows、number of columns,后三个的value分别是60000、28、28,告诉了我们训练集中图片的数量与尺寸信息。
- 后面的每一行的pixel表示一张图片中一个像素点的大小,因为像素的范围是0-255的(0是白色、255是黑色),也就是\(2^8\),占8bit,1个字节,也就是占一行,offset+0001H。
本文共计2234个文字,预计阅读时间需要9分钟。
一、数据集解析
1.数据集格式介绍
该数据集可在Yann LeCun的官方网站上查看。官网链接:[Yann LeCun官网](#)2.手写数字识别数据集
该数据集保存了形状比较特殊,四个文件(训练集、测试集的图片和标签)。 一、数据集解析 1. 数据集格式介绍该数据集可以在Yann LeCun的官网上查看。官网链接:手写数字识别数据集。他这个数据集保存形式比较特殊,四个文件(训练集、测试集的图片和标签)都是以IDX文件格式保存的。IDX文件格式是各种数值类型的向量和多维矩阵的简单格式。
以官网的train-images.idx3-ubyte为例来说明IDX格式。
- offset是用16进制数表示的,代表偏移量,也就是在该文件中的存放地址。文件按字节存储,比如第一行起始地址为0000H,存储类型为32bit的整数,占4个字节,所以第二行的起始地址就是0004H。
- 图片的存储是在description中,该文件前面四行分别是magic number、number of images、number of rows、number of columns,后三个的value分别是60000、28、28,告诉了我们训练集中图片的数量与尺寸信息。
- 后面的每一行的pixel表示一张图片中一个像素点的大小,因为像素的范围是0-255的(0是白色、255是黑色),也就是\(2^8\),占8bit,1个字节,也就是占一行,offset+0001H。

