您现在所在的位置:首页 >关于奇酷 > 行业动态 > 奇酷教育大数据培训 分布式处理技术

奇酷教育大数据培训 分布式处理技术

来源:奇酷教育 发表于:

  奇酷教育大数据培训 分布式处理技术分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,

  奇酷教育大数据培训 分布式处理技术分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

  Hadoop,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。
  而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。
  再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
  你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others
  Hadoop用到的一些技术如下:
  HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (HadoopDistributed File System)
  MapReduce:并行计算框架
  HBase: 类似Google BigTable的分布式NoSQL列数据库。
  Hive:数据仓库工具,由Facebook贡献。
  Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
  Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
  Pig:大数据分析平台,为用户提供多种接口。
  Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
  Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。