南开22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（一）》在线作业【标准答案】

作者：佚名字体：[增加减小] 来源：互联网时间：2023-02-16 09:27

22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（一）》在线作业-00001 试卷总分:100 得分:100 一、单选题 (共 30 道试题,共 60 分) 1.使用Amazon云环境部署Hadoop的说法中错误的是

22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（一）》在线作业-00001

试卷总分:100 得分:100

一、单选题 (共 30 道试题,共 60 分)

1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中

B.Hadoop自带有一套脚本，用于在EC2上面运行Hadoop

C.在EC2上运行Hadoop尤其适用于一些工作流

D.Amazon EC2为Hadoop提供了存储服务

2.以下哪个是HDFS的局限性()。

A.吞吐率

B.数据集

C.兼容性

D.延迟

3.日志的获取属于流计算的哪个步骤()。

A.实时采集

B.实时存储

C.实时计算

D.实时查询

4.以下哪种数据库适合于批量数据处理和即席查询()

A.MySQL

B.Oracle

C.Hbase

D.NosSQL

5.R是哪种可视化工具()

A.信息图表

B.地图工具

C.时间线工具

D.分析工具

6.以下哪个不属于MongoDB的特点

A.提供了面向文档的存储

B.可以设置任何属性索引

C.具有很好的垂直可扩展性

D.支持丰富的查询表达式

7.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器

B.JobTracker指派的任务由TaskTracker执行

C.SecondaryNameNode可以和DataNode共用一台机器

D.NameNode可以和JobTracker共用一台机器

8.D3是哪种可视化工具()

A.信息图表

B.地图工具

C.时间线工具

D.分析工具

9.HBase的目标是处理非常庞大的表,可以通过()方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表

A.垂直扩展

B.水平扩展

C.拓扑扩展

D.叠加

10.()是一个通用文件系统的抽象基类,可以被分布式文件系统继承

A.DistributedFileSystem

B.GFSSystem

C.FileSystem

D.HDFSSystem

11.关于Reduce端Shuffle过程,说法正确的是()。

A.Reduce领取数据先放入缓存，来自不同Map机器，先合并，再归并，写入磁盘

B.多个溢写文件归并最后只能形成一个大文件

C.当数据很少时，也要溢写到磁盘

D.Reduce任务通过RPC向JobTracker询问Map任务是否已经完成

12.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信

B.不同的Reduce任务之间不会发生任何信息交换

C.用户可以显式地从一台机器向另一台机器发送消息

D.所有的数据交换都是通过MapReduce框架自身去实现的

13.HBase的客户端并不依赖Master,而是通过()来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小

A.Master

B.Region

C.Zookeeper

D.Chubby

14.以下哪种属于图数据库()

A.MongoDB

B.Redis

C.Hbase

D.Neo4j

15.Amazon RDS属于()

A.关系数据库

B.键值数据库

C.NoSQL数据库

D.数据仓库

16.以下说法不正确的是()。

A.MapReduce的核心思想就是“分面治之”

B.HDFS是对GFS的开源实现

C.MapReduce是一种分布式计算模型

D.HDFS采用HBase作为其底层数据存储

17.以下针对Hive的说法不正确的是()。

A.Hive是一个基于Hadoop的数据仓库工具

B.Hive是关系数据库

C.Hive QL是一种查询语言

D.Hive可以提供查询分析存储等功能

18.以下亚马逊的产品中哪个是数据仓库

A.ElastiCache

B.RDS

C.DynamoDB

D.Redshift

19.对于不同顶点之间的信息交换,Pregel采用了()

A.远程数据读取

B.共享内存

C.纯消息传递模型

D.共享消息

20.SQL Azure体系结构层中哪层是存储节点集群,相当于普通Web系统的数据库层

A.Client Layer

B.Services Layer

C.Platform Layer

D.Infrastructure Layer

21.在Storm的工作流程中,对于Supervisor说法错误的是()。

A.Supervisor会去Zookeeper集群上认领自己的Task

B.Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的Nimbus

C.Supervisor会将Task和相关的信息提交到Zookeeper集群上

D.Supervisor会通知自己的Worker进程进行Task的处理

22.以下说法不正确的是()。

A.Zookeeper提供分布式锁之类的基本服务

B.Mahout提供了分布式存储服务

C.Flume提供了日志管理服务

D.Sqoop主要被用于数据交互操作

23.NoSQL中的CAP理论中的P代表()

A.一致性

B.可用性

C.分区容忍性

D.可扩展性

24.Echarts是哪种可视化工具()

A.信息图表

B.地图工具

C.时间线工具

D.分析工具

25.Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings()。

A.ShuffleGrouping

B.AllGrouping

C.GlobalGrouping

D.FiedlsGrouping

26.应用于存储、索引并管理面向文档的数据或者类似的半结构化数据,比如,用于后台具有大量读写操作的网站的数据库是哪种()

A.列族数据库

B.键值数据库

C.图数据库

D.文档数据库

27.Hbase在寻址过程客户端只需询问Zookeeper服务器,不需要链接()

A.Master

B.Region

C.Zookeeper

D.Chubby

28.以下亚马逊的产品中哪个是关系数据库

A.RDS

B.SimpleDB

C.DynamoDB

D.Redshift

29.Storm中如果要让每一个Task都会收到所有的Tuple,应该采用哪种Stream Groupings()。

A.ShuffleGrouping

B.AllGrouping

C.GlobalGrouping

D.FiedlsGrouping

30.以下不属于物联网关键技术的是()。

A.RFID

B.传感器

C.交换机

D.矩阵式二维码

二、多选题 (共 10 道试题,共 20 分)

31.以下包含在Hadoop项目中的有()。

A.Ambari

B.Redis

C.MongoDB

D.Pig

E.Sqoop

32.以下哪些应用场景属于大规模图或者网络的呈现形式?()

A.社交网络

B.传染病传播途径

C.交通事故对路网的影响

D.广告推荐

33.MapReduce可以解决哪些计算问题()。

A.矩阵乘法

B.关系代数运算

C.聚合运算

D.关系投影运算

34.关于MapReduce,说法正确的是()。

A.MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave

B.Hadoop框架是用Java实现的，因此MapReduce应用程序要用Java来写

C.MapReduce模型的核心是Map函数和Reduce函数

D.MapReduce将一个存储在分布式文件系统中的大规模数据集，切分成许多独立的分片

35.以下哪种数据库属于NoSQL数据库()

A.关系数据库

B.键值数据库

C.文档数据库

D.分布式数据库

36.以下哪些属于典型的大数据应用()。

A.谷歌搜索

B.谷歌流感趋势

C.谷歌统计

D.《纸牌屋》制作

E.《黑镜子》制作

37.NoSQL数据库与关系数据库相比有哪些优势()

A.支持事务ACID四性

B.可以支持超大规模数据存储

C.以完善的关系代数理论作为基础

D.具有强大的横向扩展能力

38.以下哪些是云数据库产品()

A.Dynamo

B.SimpleDB

C.RDS

D.SQL Server

39.MapReduce的main函数中设置输出类型的方法有()。

A.setOutputKeyClass

B.setOutputClass

C.setOutputValueClass

D.setKeyValueClass

40.以下哪个应用适合用Pregel来解决()

A.数据库的笛卡尔积

B.单元最短路径

C.二分匹配

D.求极值

三、判断题 (共 10 道试题,共 20 分)

41.UMP系统中的Mnesia不错支持事务

42.Hadoop伪分布式配置中需将副本数量调成1

43.Hbase中列族支持动态扩展,可以很轻松地添加一个列族或列

44.在HBase 的概念视图中, 一个表可以视为一个稀疏、多维的映射关系。

45.Hbase和传统数据库一样都是行式数据库

46.Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件

47.云数据库不可以满足大企业的海量数据存储需求

48.数据实时计算阶段对采集的数据进行实时的分析和计算。流处理系统接收数据采集系统不断发来的实时数据,实时地进行分析计算,不需要反馈实时结果。

49.在分布式文件系统中,如果一个文件小于一个数据块的大小,它会占用整个数据块的存储空间。

50.Pregel将PageRank处理对象看成是连通图,而MapReduce则将其看成是键值对

Tag：

南开22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（一）》在线作业【标准答案】

相关文章

文章分类

大家感兴趣的内容

最近更新的内容