What is the Bag of Visual Words (BOW) model in computer vision?

2026-05-19 18:200阅读0评论SEO基础

内容介绍
文章标签
相关推荐

本文共计1747个文字，预计阅读时间需要7分钟。

What is the Bag of Visual Words (BOW) model in computer vision?

Bag of Visual Words（BoW，BoF，词袋）简介：BoW是传统的计算机视觉方法，通过一些特征（一些向量）来表示图像。其核心思想是利用一组较为通用的特征，将图像用这些特征来表示，不同图像用不同特征组合。

Bag of Visual Word (BoW, BoF, 词袋) 简介

BoW 是传统的计算机视觉方法，用一些特征（一些向量）来表示一个图像。BoW的核心思想是利用一组较为通用的特征，将图像用这些特征来表示，不同图像对于同一个特征的响应也是不同的，最终一个图像可以转化成关于这一组特征的一个频率直方图（向量）。这里有个挺清晰的介绍。BoW 常常用在 content-based image retrieval (CBIR) 任务上。
例如下面这张图（来源 Brown Computer Vision 2021 ）形象的介绍了BoW的，首先有一堆图片，然后提取这些图片中的特征，然后提取具有代表性的通用特征，然后计算不同图像对于这些特征的响应，从而将图像转换成关于这组特征的一个特征向量。

实践

本文不过多的介绍理论部分，主要使用opencv来进行一些实践操作。

数据集

本文使用的是一个比较老的数据集是 ZuBuD 数据集，是苏黎世联邦理工构建的数据集，开放下载。数据集是苏黎世城市内的一些建筑，训练集有1005张图像，包含201个建筑，测试集有115张图像，用来测试 image retrieval，有ground truth信息，即指定来哪些图像是对应的，如下随便找了两张图片。

以下是 ground truth 的部分信息，例如第一行代表测试集中编号为 1 的图像对应到训练集中，应该是编号 100。

阅读全文

标签：computer Vision Bag Visual Wor