谷歌大数据的三驾马车

发布时间：2023-01-03 12:36:48 所属栏目：大数据来源：

导读：　　本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable，当前流行的大数据技术都是在谷歌发表了这三大论文以后，不断的发展起来

　　本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable，当前流行的大数据技术都是在谷歌发表了这三大论文以后，不断的发展起来的，典型的就是Apache开源的hadoop和hbase，其中hadoop的mapreduce和hdfs的思想来源于谷歌mapreduce和gfs论文，而hbase来源于谷歌的bigtable论文。

　　mapreduce

　　介绍：MapReduce是一个处理大数据集的编程模型。它通过map函数把基于行的输入转化成不同的键值对，再通过reduce函数把这些键值对针对相同的键进行聚合，并在聚合的过程中进行相应的计算。

　　其中的重点是：

　　其中，一个最典型的用例是给出一篇文章，计算每个单词出现的个数，起逻辑流程为：

　　1、把文章按照行来切分。

　　谷歌地图大数据_谷歌大数据_大数据之路阿里巴巴大数据实践

　　2、在map阶段，对每一行的每个单词构建一个键值对，键是单词本身，值是固定值"1"。

　　3、对map的结果进行分区，使用默认策略，通过哈希进行分区。

　　4、在reduce阶段，统计聚合在同一个key的值的数量，得出每个单词出现的次数。

　　gfs-sosp2003

　　介绍：GFS是一个分布式文件系统，用来存储大量的较大文件，它可以在廉价的硬件上实现存储文件，并做到容错性，并且针对多个客户同时访问提供比较有竞争力的性能。

　　其中的重点是：

　　bigtable-osdi06

　　介绍：Bigtable是一个可以管理结构化数据的分布式存储系统，它本身支持水平的横向扩展谷歌大数据，通过使用成千上万的连接服务器，来支持PB量级的数据处理。

　　其中的重点是：

　　MapReduce_NextGen_Architecture

　　介绍：在第一代mapdure的实现中，资源分配和任务监控都耦合在Master节点上，在Worker节点数增加到一定的数量级，Master节点出现了性能瓶颈，下一代MapReduce框架Yarn把资源管理器和任务管理器分离，解决了这个性能瓶颈。

（编辑：开发网_商丘站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

数据分析常见的误区有	做数据治理前应该明白
如何使云原生运维化繁	大数据技术的成功案例