What is the Bag of Visual Words (BOW) model in computer vision?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1747个文字,预计阅读时间需要7分钟。
Bag of Visual Words(BoW,BoF,词袋)简介:BoW是传统的计算机视觉方法,通过一些特征(一些向量)来表示图像。其核心思想是利用一组较为通用的特征,将图像用这些特征来表示,不同图像用不同特征组合。
Bag of Visual Word (BoW, BoF, 词袋) 简介BoW 是传统的计算机视觉方法,用一些特征(一些向量)来表示一个图像。BoW的核心思想是利用一组较为通用的特征,将图像用这些特征来表示,不同图像对于同一个特征的响应也是不同的,最终一个图像可以转化成关于这一组特征的一个频率直方图(向量)。这里有个挺清晰的介绍。BoW 常常用在 content-based image retrieval (CBIR) 任务上。
例如下面这张图(来源 Brown Computer Vision 2021 )形象的介绍了BoW的,首先有一堆图片,然后提取这些图片中的特征,然后提取具有代表性的通用特征,然后计算不同图像对于这些特征的响应,从而将图像转换成关于这组特征的一个特征向量。
本文不过多的介绍理论部分,主要使用opencv来进行一些实践操作。
数据集本文使用的是一个比较老的数据集是 ZuBuD 数据集,是苏黎世联邦理工构建的数据集,开放下载。数据集是苏黎世城市内的一些建筑,训练集有1005张图像,包含201个建筑,测试集有115张图像,用来测试 image retrieval,有ground truth信息,即指定来哪些图像是对应的,如下随便找了两张图片。
以下是 ground truth 的部分信息,例如第一行代表测试集中编号为 1 的图像对应到训练集中,应该是编号 100。
本文共计1747个文字,预计阅读时间需要7分钟。
Bag of Visual Words(BoW,BoF,词袋)简介:BoW是传统的计算机视觉方法,通过一些特征(一些向量)来表示图像。其核心思想是利用一组较为通用的特征,将图像用这些特征来表示,不同图像用不同特征组合。
Bag of Visual Word (BoW, BoF, 词袋) 简介BoW 是传统的计算机视觉方法,用一些特征(一些向量)来表示一个图像。BoW的核心思想是利用一组较为通用的特征,将图像用这些特征来表示,不同图像对于同一个特征的响应也是不同的,最终一个图像可以转化成关于这一组特征的一个频率直方图(向量)。这里有个挺清晰的介绍。BoW 常常用在 content-based image retrieval (CBIR) 任务上。
例如下面这张图(来源 Brown Computer Vision 2021 )形象的介绍了BoW的,首先有一堆图片,然后提取这些图片中的特征,然后提取具有代表性的通用特征,然后计算不同图像对于这些特征的响应,从而将图像转换成关于这组特征的一个特征向量。
本文不过多的介绍理论部分,主要使用opencv来进行一些实践操作。
数据集本文使用的是一个比较老的数据集是 ZuBuD 数据集,是苏黎世联邦理工构建的数据集,开放下载。数据集是苏黎世城市内的一些建筑,训练集有1005张图像,包含201个建筑,测试集有115张图像,用来测试 image retrieval,有ground truth信息,即指定来哪些图像是对应的,如下随便找了两张图片。
以下是 ground truth 的部分信息,例如第一行代表测试集中编号为 1 的图像对应到训练集中,应该是编号 100。

