南开20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《大数据开发技术（一）》在线作业题目【标准答案】

20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《大数据开发技术（一）》在线作业

试卷总分:100 得分:100

一、单选题 (共 30 道试题,共 60 分)

1.名称节点和数据节点之间则使用()协议进行交互

A.名称节点

B.第二名称节点

C.数据节点

D.TCP

2.UMP系通过()来实现实现管理每台物理机上的MySQL实例

A.Controller服务器

B.Procy服务器

C.愚公系统

D.Agent服务器

3.以下针对Hive的说法不正确的是()。

A.Hive是一个基于Hadoop的数据仓库工具

B.Hive是关系数据库

C.Hive QL是一种查询语言

D.Hive可以提供查询分析存储等功能

4.MapReduce中最优的Reduce任务个数取决于集群中可用的()的数目。

A.Split

B.Slot

C.Map

D.Shuffle

5.Pregel计算模型以()作为输入

A.有向图

B.无向图

C.矢量图

D.树

6.HBase的目标是处理非常庞大的表,可以通过()方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表

A.垂直扩展

B.水平扩展

C.拓扑扩展

D.叠加

7.Xtimeline是哪种可视化工具()

A.信息图表

B.地图工具

C.时间线工具

D.分析工具

8.HDFS中SecondaryNameNode可减少()重启的时间

A.NameNode

B.SecondaryNameNode

C.DataNode

D.Block

9.BigTable采用()作为底层数据存储

A.HDFS

B.GFS

C.Hbase

D.传统文件系统

10.应用于专门用于处理具有高度相互关联关系的数据,比较适合于社交网络的数据库是哪种()

A.列族数据库

B.键值数据库

C.图数据库

D.文档数据库

11.Hbase中Zookeeper文件记录了()的位置

A..META.表

B.-ROOT-表

C.Region

D.Master

12.以下哪层不属于物联网体系架构()。

A.应用层

B.采集层

C.网络层

D.感知层

13.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移

A.Controller服务器

B.Procy服务器

C.愚公系统

D.Agent服务器

14.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信

B.不同的Reduce任务之间不会发生任何信息交换

C.用户可以显式地从一台机器向另一台机器发送消息

D.所有的数据交换都是通过MapReduce框架自身去实现的

15.Echarts是哪种可视化工具()

A.信息图表

B.地图工具

C.时间线工具

D.分析工具

16.MapReduce设计的一个理念就是(),因为移动数据需要大量的网络传输开销。

A.数据向计算靠拢

B.计算向数据靠拢

C.计算向网络靠拢

D.计算与数据并行

17.Google Cloud SQL是谷歌公司推出的基于()的云数据库

A.MySQL

B.SQL Server

C.Hbase

D.Oracle

18.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流

A.Client Layer

B.Services Layer

C.Platform Layer

D.Infrastructure Layer

19.以下哪种属于图数据库()

A.MongoDB

B.Redis

C.Hbase

D.Neo4j

20.大数据摩尔定律体现了大数据的哪个体征()。

A.数据体量大

B.数据产生速度快

C.数据种类多

D.数据计算快

E.数据价值高

21.行式数据库采用()存储模型

A.NSM

B.DSM

C.Hbase

D.MySQL

22.以下属于Hadoop2.0的特性是()。

A.MapReduce

B.HDFS

C.YARN

D.SPARK

23.以下说法不正确的是()。

A.MapReduce的核心思想就是“分面治之”

B.HDFS是对GFS的开源实现

C.MapReduce是一种分布式计算模型

D.HDFS采用HBase作为其底层数据存储

24.MapReduce将输入文件切分成M个分片,Master将其中()个分片分给处于空闲状态的N个Worker来处理。

A.M

B.N

C.M-1

D.N-1

25.Amazon SimpleDB属于()

A.关系数据库

B.键值数据库

C.NoSQL数据库

D.数据仓库

26.Storm框架在处理()上比MapReduce更有优势。

A.静态数据

B.流数据

C.批量数据

D.网络数据

27.Hbase中()是最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求

A.Master

B.Slaver

C.Regio服务器n

D.客户端

28.Map Task和Reduce Task均由()启动。

A.Client

B.Job Tracker

C.Task

D.Task Tracker

29.以下不属于物联网关键技术的是()。

A.RFID

B.传感器

C.交换机

D.矩阵式二维码

30.MapReduce中()会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作。

A.Client

B.Job Tracker

C.Task

D.Task Tracker

二、多选题 (共 10 道试题,共 20 分)

31.关于Map端Shuffle过程中的合并与归并,说法正确的是()。

A.两个键值对和，如果合并，会得到

B.合并不会改变最终结果

C.两个键值对和，如果归并，会得到

D.两个键值对和，如果归并，会得到>

32.以下哪个是HDFS的局限性()。

A.延迟高

B.只允许对文件执行追加操作，不能执行随机写操作

C.用MapReduce处理大量小文件时，会产生过多的Map任务，线程管理开销会大大增加

D.拥有复杂的数据模型

33.以下哪种数据库属于NoSQL数据库()

A.MySQL

B.DynamoDB

C.InfiniteGraph

D.MongoDB

34.UMP系统依赖的开源组件包括()

A.Mnesia

B.LVS

C.RabbitMQ

D.Zookeeper

35.Hbase中性能监视的工具有()

A.Ganglia

B.Ambari

C.OpenTSDB

D.Zookeeper

36.Hadoop在配置伪分布式时需要修改哪几个配置文件()。

A.hbase-site.xml

B.hdfs-site.xml

C.core-site.xml

D.map-site.xml

E.mapr-site.xml

37.以下哪些是数据可视化分析工具()

A.R

B.Weka

C.Gephi

D.Tableau

38.以下哪种数据库属于NoSQL数据库()

A.关系数据库

B.键值数据库

C.文档数据库

D.分布式数据库

39.HDFS的命名空间包含()

A.节点

B.目录

C.文件

D.块

40.以下哪种数据库是针对在线业务的,并且抛弃了关系模型()

A.MongoDB

B.MySQL

C.Oracle

D.Redis

三、判断题 (共 10 道试题,共 20 分)

41.Ambari通过Web进行Hadoop集群的管理配置。

42."hadoop dfs"和"hadoop fs"两条命令适用于任何不同的文件系统

43.阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等

44.Hbase中列族支持动态扩展,可以很轻松地添加一个列族或列

45.Pregel的消息模式采用异步和批量的方式传递消息,却无法缓解远程读取的延迟

46.NoSQL数据库可以完全取代关系数据库

47.在伪分布式模式中,NameNode和DataNode是同一个节点。

48.Hbase中为每个Region服务器配置了一个HLog文件,它是一种后写式日志

49.HDFS在块的大小的设计上明显要小于普通文件系统,可以最小化寻址开销

50.在概念视图层面, HBase 中的每个表是采用了基于列的存储方式

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。