Apache Pulsar如何实现分层存储架构？

2026-05-21 02:073阅读0评论SEO资源

本文共计1608个文字，预计阅读时间需要7分钟。

前言：在一些流数据处理场景中，用户希望将数据长时间存储在流中。Apache Pulsar 对于 topic 的 backlog 大小没有限制，但将所有数据存储在 Pulsar 中，数据存储时间较长，存储成本相对较大。分层存储支持。

前言

在一些流数据用例场景中，用户希望将数据长时间存储在流中。虽然 Apache Pulsar 对topic backlog的大小没有限制，但将所有数据存储在 Pulsar 中较长时间，存储成本比较大。分层存储支持在不影响终端用户的条件下，将较旧的数据移动到长期存储中。

在推荐服务中，开发者不希望限制 backlog 的大小。以音乐服务为例，终端用户每听一首歌，就向 topic 中添加一条消息。使用这一 topic 训练推荐算法，根据终端用户听过的音乐推荐用户可能喜欢的音乐。然后，将计算结果推荐给用户，再循环这个过程。

推荐算法并非一成不变。音乐服务的数据科学家一直在不断优化推荐算法，以更好地预测用户喜欢的音乐，从而提高用户对推荐服务的满意度和参与度。

但是，如果每次修改算法时，都只运行修改时间点之后的用户数据，不仅预测的准确度会受到影响，判断算法的修改效果也会需要一段较长的时间。为了解决这一问题，算法需要尽可能多地运行用户历史数据。

Pulsar 允许用户存储任意大小的 topic backlog。

本文共计1608个文字，预计阅读时间需要7分钟。

Pulsar 允许用户存储任意大小的 topic backlog。