Apache Pulsar如何实现分层存储架构?

2026-05-21 02:073阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计1608个文字,预计阅读时间需要7分钟。

Apache Pulsar如何实现分层存储架构?

前言:在一些流数据处理场景中,用户希望将数据长时间存储在流中。Apache Pulsar 对于 topic 的 backlog 大小没有限制,但将所有数据存储在 Pulsar 中,数据存储时间较长,存储成本相对较大。分层存储支持。

前言

在一些流数据用例场景中,用户希望将数据长时间存储在流中。虽然 Apache Pulsar 对topic backlog的大小没有限制,但将所有数据存储在 Pulsar 中较长时间,存储成本比较大。分层存储支持在不影响终端用户的条件下,将较旧的数据移动到长期存储中。

 

在推荐服务中,开发者不希望限制 backlog 的大小。以音乐服务为例,终端用户每听一首歌,就向 topic 中添加一条消息。使用这一 topic 训练推荐算法,根据终端用户听过的音乐推荐用户可能喜欢的音乐。然后,将计算结果推荐给用户,再循环这个过程。

推荐算法并非一成不变。音乐服务的数据科学家一直在不断优化推荐算法,以更好地预测用户喜欢的音乐,从而提高用户对推荐服务的满意度和参与度。

 

Apache Pulsar如何实现分层存储架构?

但是,如果每次修改算法时,都只运行修改时间点之后的用户数据,不仅预测的准确度会受到影响,判断算法的修改效果也会需要一段较长的时间。为了解决这一问题,算法需要尽可能多地运行用户历史数据。

一、Pulsar 分层存储

Pulsar 允许用户存储任意大小的 topic backlog。

阅读全文

本文共计1608个文字,预计阅读时间需要7分钟。

Apache Pulsar如何实现分层存储架构?

前言:在一些流数据处理场景中,用户希望将数据长时间存储在流中。Apache Pulsar 对于 topic 的 backlog 大小没有限制,但将所有数据存储在 Pulsar 中,数据存储时间较长,存储成本相对较大。分层存储支持。

前言

在一些流数据用例场景中,用户希望将数据长时间存储在流中。虽然 Apache Pulsar 对topic backlog的大小没有限制,但将所有数据存储在 Pulsar 中较长时间,存储成本比较大。分层存储支持在不影响终端用户的条件下,将较旧的数据移动到长期存储中。

 

在推荐服务中,开发者不希望限制 backlog 的大小。以音乐服务为例,终端用户每听一首歌,就向 topic 中添加一条消息。使用这一 topic 训练推荐算法,根据终端用户听过的音乐推荐用户可能喜欢的音乐。然后,将计算结果推荐给用户,再循环这个过程。

推荐算法并非一成不变。音乐服务的数据科学家一直在不断优化推荐算法,以更好地预测用户喜欢的音乐,从而提高用户对推荐服务的满意度和参与度。

 

Apache Pulsar如何实现分层存储架构?

但是,如果每次修改算法时,都只运行修改时间点之后的用户数据,不仅预测的准确度会受到影响,判断算法的修改效果也会需要一段较长的时间。为了解决这一问题,算法需要尽可能多地运行用户历史数据。

一、Pulsar 分层存储

Pulsar 允许用户存储任意大小的 topic backlog。

阅读全文