在将数据源经过分析挖掘到最终获得价值的大数据处理过程中,MapReduce是在(  )阶段应用分布式并行处理关键技术的常用工具。

1501 次浏览
  • A、数据采集
  • B、数据管理
  • C、数据存储
  • D、数据分析与挖掘
"根据《系统集成项目管理工程师教程(第2版)》第86页,(2)大数据并行分析技术。大数据的分析挖掘是数据密集型计算,需要巨大的计算能力,谷歌的MapReduce是主要的大数据分布式计算技术之一。大数据所涉及的技术很多,主要包括数据采集、数据存储、数据管理、数据分析与挖掘四个环节。在数据采集阶段主要使用的技术是数据抽取工具 ETL。在数据存储环节主要有结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库,通过数据查询语言( SQL)来访问;非结构化(如图片、视频、 doc文件等)和半结构化数据一般通过分布式文件系统的 NoSQL(Not Only SQL)进行存储,比较典型的 NoSQL有 Google的 Bigtable、Amazon的 Dynamo和 Apache的 Hbase。大数据管理主要使用了分布式并行处理技术,比较常用的有 MapReduce,编程人员借助 MapReduce可以在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。数据分析与挖掘是根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示,与 ETL一样,数据分析和挖掘是以前数据仓库的范畴,只是在大数据中得以更好的利用。"
挑战成功
2年前
挑战失败
2年前