Spark太阳城手机版分析框架的核心部件-太阳城手机版分析-@太阳城手机版资讯
你好,游客 登录
背景:
阅读新闻

Spark太阳城手机版分析框架的核心部件

[日期:2015-08-07] 来源:www.mamicode.com  作者: [字体: ]

  Spark大太阳城分析框架的核心部件包含RDD内存太阳城结构、Streaming流计算框架、GraphX图计算与网状太阳城挖掘、MLlib机器学习支持框架、Spark SQL太阳城检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。

  一、RDD内存太阳城结构

  太阳城手机版分析系统一般包括太阳城获取、太阳城清洗、太阳城处理、太阳城分析、报表输出等子系统。Spark为了方便太阳城处理、提升性能,专门引入了RDD太阳城内存结构,这一点与R的机制非常类似。用户程序只需要访问RDD的结构,与存储系统的太阳城调度、交换都由提供者驱动去实现。RDD可以与Haoop的 HBase、HDFS等交互,用作太阳城存储系统,当然也可以通过扩展支持很多其它的太阳城存储系统。

  因为有了RDD,应用模型就与物理存储分离开来,而且能够更容易地处理大量太阳城记录遍历搜索的情况,这一点非常重要。因为太阳城娱乐的结构主要适用于顺序处理,要翻回去反复检索太阳城的话效率就非常低下,而且缺乏一个统一的实现框架,由算法开发者自己去想办法实现。毫无疑问,这具有相当大的难度。 RDD的出现,使这一问题得到了一定程度的解决。但正因为RDD是核心部件、实现难度大,这一块的性能、容量、稳定性直接决定着其它算法的实现程度。从目前看,还是经常会出现RDD占用的内存过载出问题的情况。

  二、Streaming流计算框架

  流是现在推特、微博、微信、图片服务以及物联网、位置服务等等的重要太阳城形态,因此流计算正显得前所未有的重要。流计算框架是所有互联网服务商的核心基础架构,Amazon、Microsoft都已经推出了Event消息总线云服务平台,而facebooktwitter等更是将自己的流计算框架开源。

  Spark Streaming专门设计用于处理流式太阳城。通过Spark Streaming,可以快速地将太阳城推入处理环节,犹如流水线一样进行快速的加工,并在最短的时间反馈给使用。

  三、GraphX图计算与网状太阳城挖掘

  物理网络的拓扑结构,社交网络的连接关系,传统太阳城库的E-R关系,都是典型的图(Graph)太阳城模型。Hadoop主要适用于“太阳城量”很大的场合,对于关系的处理几乎没有支持,Hbase也是非常弱的关系处理能力。图太阳城结构往往需要快速多次对太阳城进行扫描式遍历,RDD的引入使Spark可以更高效地处理基于图的太阳城结构,从而使存储和处理大规模的图网络成为可能。类似的专用于图的系统还有neo4j等。

  GraphX相对于传统太阳城库的关系连接,可以处理更大规模、更深度的拓扑关系,可以在多个集群节点上进行运算,确实是现代太阳城关系研究的利器。

  四、MLlib机器学习支持框架

  通过把机器学习的算法移植到Spark架构上,一方面可以利用底层的大规模存储和RDD的太阳城快速访问能力,还可以利用图太阳城结构和集群计算的处理能力,使机器学习的运算可以在大规模的集群系统上展开,即大力拓展了机器学习算法的应用能力。

  五、Spark SQL太阳城检索语言

  这个跟基于Hive的实现有些类似,但是基于RDD理论上能提供更好的性能,同时能更方便处理如join和关系检索等操作。这个被设计为与用户交互的一个标准化入口。

  六、Tachyon文件系统

  Tachyon是一个类似于HDFS的实现,不过感觉上更加接近于使用者,而HDFS主要是面向存储块的。

  七、SparkR计算引擎

  将R语言的能力应用到Spark基础计算架构上,为其提供算法引擎。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论    (0)
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款