您的当前位置:首页正文

HCNA-Big_Data培训教材V2.0课后习题及答案

2022-03-04 来源:年旅网


大数据行业与技术趋势

1. 大数据从什么地方来?这些数据有哪些特点?

2. 大数据可以应用在哪些社会领域?

政治、金融、教育、出行、旅游、政府公共安全、交通规划、体育等。

3. 华为大数据解决方案叫什么?

FusionInsight

HDFS技术原理

1. HDFS是什么,适合于做什么?

HDFS是Hadoop技术框架中的分布式文件系统,对部署在多台独立物理机器上的文件进行管理。

2. HDFS包含哪些角色?

Client、NameNode、Datanodes

3. 请简述HDFS的读写流程。

写的时候写了三副本

读的时候只读了一次

MapReduce和YARN技术原理

1. 请简述MapReduce的工作原理。

总结:

MapReduce阶段分为Map阶段和Reduce阶段

Map阶段分为 1.分区 2.排序 3.组合 4.合并 四个过程

Map阶段的输出结果就是Reduce阶段的输入。Map阶段输出的中间结果存在磁盘当中(先放在环形缓冲区当中,缓冲区满了刷入磁盘中)。Reduce从磁盘中读出中间数据进行下一步计算。

Reduce阶段分为 1.copy 2.Merge 3.Reduce三个过程

2. 请简述YARN的工作原理

总结(八步):

1.应用提交到RecourseManager上

2.RecourseManager为该应用分配第一个container并且与这个container所对应的NodeManager通信,要求它在这个container中启动应用程序的ApplicationMaster(也就是选举出一个AppMaster)

3.ApplicationMaster首先向RecourseManager进行注册,这样用户可以通过RecourseManager查看程序的运行程序的运行状态

4.AppMaster为它所要进行的任务申请资源,并且监控分配给他的这些container的运行状态。

5.ApplicationMaster申请到资源后,与对应的NodeManager通信,要求它启动任

务。

6.NodeManager为任务设置好运行环境,后将任务启动命令写到一个脚本中,通过运行该脚本启动任务

7.各个container通过rpc协议向ApplicationMaster汇报自己状态和进度,让ApplicationMaster随时掌握任务的运行进度和状态,从而可以在任务运行失败时重启该任务。(用户可以通过rpc协议向Application Master查询应用程序运行的当前状态)

8.应用程序运行完后,Application Master向RecourseManager注销并关闭自己。

ABD

C

Spark2x技术原理

Spark的特点有哪些?

B

ABCD

1.

2. Spark相对于MR的优势是什么?

Spark比MapReduce的计算速率要快

3. Spark宽依赖窄依赖的区别是什么?

窄依赖:RDD的每个分区仅依赖一个父RDD的分区;

宽依赖:RDD的每个分区依赖多个父RDD的分区;

4. Spark的应用场景有哪些?

1.Transformation Action

2.RDD

3.宽依赖 窄依赖

HBase技术原理

1. HBase的Region在split时可以提供服务吗?

被分裂的region会暂停读写服务,其他region正常

2. HBase的Region split有何好处?

负载均衡。

A

Hive技术原理

BCD

D

Streaming技术原理

Streaming是如何保障消息可靠性?

A

通过设置Ack保障可靠性

ABCD

B

Flink技术原理

1. Flink的特点有哪些?

2. Flink的常用窗口类型有哪些?

Tumbling Windows

Sliding Windows

Session Windows

Loader技术原理

F

F

Flume技术原理

Flume是什么,可以用来干什么?

AB

B

1.

2. Flume有哪些关键特性?

Flunme支持级联,可以对数据进行简单的清洗,它有很好的传输数据的可靠性,在不同Flume之间传输数据的时候支持压缩和加密,保证传输的速率和可靠性。

3. Source/Channel/Sink分别有什么作用?

Source用来采集数据

Channel用来缓存数据

Sink用来把数据放到目的地

T

Kafka技术原理

ABC

B

1. Kafka是如何保证数据可靠的?

2. 通过kafka客户端提供的Shell命令可以对Topic进行哪些操作?

Create delete list describe等操作

ZooKeeper集群分布式协调服务

1. ZooKeeper在集群中的位置及作用是什么?

它是FusionInsight HD的底层组件

提供分布式、高可用性的协调服务能力

2. ZooKeeper为什么建议奇数部署?

因为奇数部署和偶数部署的容灾能力一样

偶数部署时,成为leader的节点需要获得更多的票数。

3. ZooKeeper一致性的含义是什么?

FusionInsight HD解决方案介绍

1. FusionInsight HD有哪些特性?

1. 系统可靠性,数据可靠性

2. 安全性

3. 网络安全可靠---双平面组网

4. 可视化集群管理,运维便捷

5. 图形化的健康巡检工具

6. 易开发

2. Hive/HBase细粒度加密支持哪些加密算法?

3. HDFS中存海量小文件会给NameNode带来极大的压力;HBase存海量小文件,Compacion会带来IO资源浪费。针对这种现象时有什么技术解决?

HFS方案

4. 日志级别调整有哪些级别?

TRACE DEBUG INFO WARN ERROR OFF

T

T

ABCD

最后一章关注 问题与解决方法

因篇幅问题不能全部显示,请点此查看更多更全内容