Twitter的下一代分布式数据库Manhattan是什么？

2026-04-02 11:579阅读0评论SEO基础

内容介绍
文章标签
相关推荐

本文共计2253个文字，预计阅读时间需要10分钟。

2. 孙元浩：利用Spark引擎的高速内存分析和挖掘工具应用孙元浩，2003年加入英特尔，曾是英特尔亚太研发中心软件部亚太CTO，负责英特尔Hadoop开发版的研究和产品。

2.孙元浩：基于Spark引擎的高速内存分析和挖掘工具应用孙元浩，2003年加入英特尔，曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO，负责英特尔Hadoop发行版的研发和产

2. 孙元浩：基于Spark引擎的高速内存分析和挖掘工具应用孙元浩，2003年加入英特尔，曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO，负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技，推出国内首个基于Spark的大数据平台产

2. 孙元浩：基于Spark引擎的高速内存分析和挖掘工具应用

孙元浩，2003年加入英特尔，曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO，负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技，推出国内首个基于Spark的大数据平台产品，在中国成功建立数个Spark成功案例。

孙元浩认为现在把Spark作为M/R执行引擎内嵌在我们的产品中，在两大类应用实践中比较成功，一类是通过PL/SQL进行交互式数据统计和分析，结合可视化工具为用户提供了高速的大数据探索能力。另一类应用是做数据挖掘，因为Spark充分利用内存进行缓存，利用DAG消除不必要的步骤，所以比较合适做迭代式的运算。而有相当一部分机器学习算法是通过多次迭代收敛的算法，所以适合用Spark来实现。我们把一些常用的算法并行化用Spark实现，可以从R语言中方便地调用，降低了用户进行数据挖掘的学习成本。

阅读全文