Apache Pulsar如何实现分层存储架构?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1608个文字,预计阅读时间需要7分钟。
前言:在一些流数据处理场景中,用户希望将数据长时间存储在流中。Apache Pulsar 对于 topic 的 backlog 大小没有限制,但将所有数据存储在 Pulsar 中,数据存储时间较长,存储成本相对较大。分层存储支持。
前言
在一些流数据用例场景中,用户希望将数据长时间存储在流中。虽然 Apache Pulsar 对topic backlog的大小没有限制,但将所有数据存储在 Pulsar 中较长时间,存储成本比较大。分层存储支持在不影响终端用户的条件下,将较旧的数据移动到长期存储中。
在推荐服务中,开发者不希望限制 backlog 的大小。以音乐服务为例,终端用户每听一首歌,就向 topic 中添加一条消息。使用这一 topic 训练推荐算法,根据终端用户听过的音乐推荐用户可能喜欢的音乐。然后,将计算结果推荐给用户,再循环这个过程。
推荐算法并非一成不变。音乐服务的数据科学家一直在不断优化推荐算法,以更好地预测用户喜欢的音乐,从而提高用户对推荐服务的满意度和参与度。
但是,如果每次修改算法时,都只运行修改时间点之后的用户数据,不仅预测的准确度会受到影响,判断算法的修改效果也会需要一段较长的时间。为了解决这一问题,算法需要尽可能多地运行用户历史数据。
一、Pulsar 分层存储
Pulsar 允许用户存储任意大小的 topic backlog。
本文共计1608个文字,预计阅读时间需要7分钟。
前言:在一些流数据处理场景中,用户希望将数据长时间存储在流中。Apache Pulsar 对于 topic 的 backlog 大小没有限制,但将所有数据存储在 Pulsar 中,数据存储时间较长,存储成本相对较大。分层存储支持。
前言
在一些流数据用例场景中,用户希望将数据长时间存储在流中。虽然 Apache Pulsar 对topic backlog的大小没有限制,但将所有数据存储在 Pulsar 中较长时间,存储成本比较大。分层存储支持在不影响终端用户的条件下,将较旧的数据移动到长期存储中。
在推荐服务中,开发者不希望限制 backlog 的大小。以音乐服务为例,终端用户每听一首歌,就向 topic 中添加一条消息。使用这一 topic 训练推荐算法,根据终端用户听过的音乐推荐用户可能喜欢的音乐。然后,将计算结果推荐给用户,再循环这个过程。
推荐算法并非一成不变。音乐服务的数据科学家一直在不断优化推荐算法,以更好地预测用户喜欢的音乐,从而提高用户对推荐服务的满意度和参与度。
但是,如果每次修改算法时,都只运行修改时间点之后的用户数据,不仅预测的准确度会受到影响,判断算法的修改效果也会需要一段较长的时间。为了解决这一问题,算法需要尽可能多地运行用户历史数据。
一、Pulsar 分层存储
Pulsar 允许用户存储任意大小的 topic backlog。

