加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_商丘站长网 (https://www.0370zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

谷歌大数据的三驾马车

发布时间:2023-01-03 12:36:48 所属栏目:大数据 来源:
导读:  本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三大论文以后,不断的发展起来
  本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三大论文以后,不断的发展起来的,典型的就是Apache开源的hadoop和hbase,其中hadoop的mapreduce和hdfs的思想来源于谷歌mapreduce和gfs论文,而hbase来源于谷歌的bigtable论文。
 
  mapreduce
 
  介绍:MapReduce是一个处理大数据集的编程模型。它通过map函数把基于行的输入转化成不同的键值对,再通过reduce函数把这些键值对针对相同的键进行聚合,并在聚合的过程中进行相应的计算。
 
  其中的重点是:
 
  其中,一个最典型的用例是给出一篇文章,计算每个单词出现的个数,起逻辑流程为:
 
  1、把文章按照行来切分。
 
  谷歌地图大数据_谷歌大数据_大数据之路阿里巴巴大数据实践
 
  2、在map阶段,对每一行的每个单词构建一个键值对,键是单词本身,值是固定值"1"。
 
  3、对map的结果进行分区,使用默认策略,通过哈希进行分区。
 
  4、在reduce阶段,统计聚合在同一个key的值的数量,得出每个单词出现的次数。
 
  gfs-sosp2003
 
  介绍:GFS是一个分布式文件系统,用来存储大量的较大文件,它可以在廉价的硬件上实现存储文件,并做到容错性,并且针对多个客户同时访问提供比较有竞争力的性能。
 
  其中的重点是:
 
  bigtable-osdi06
 
  介绍:Bigtable是一个可以管理结构化数据的分布式存储系统,它本身支持水平的横向扩展谷歌大数据,通过使用成千上万的连接服务器,来支持PB量级的数据处理。
 
  其中的重点是:
 
  MapReduce_NextGen_Architecture
 
  介绍:在第一代mapdure的实现中,资源分配和任务监控都耦合在Master节点上,在Worker节点数增加到一定的数量级,Master节点出现了性能瓶颈,下一代MapReduce框架Yarn把资源管理器和任务管理器分离,解决了这个性能瓶颈。
 

(编辑:开发网_商丘站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!