大数据行业与技术趋势
1. 大数据从什么地方来?这些数据有哪些特点?
2. 大数据可以应用在哪些社会领域?
政治、金融、教育、出行、旅游、政府公共安全、交通规划、体育等。
3. 华为大数据解决方案叫什么?
FusionInsight
HDFS技术原理
1. HDFS是什么,适合于做什么?
HDFS是Hadoop技术框架中的分布式文件系统,对部署在多台独立物理机器上的文件进行管理。
2. HDFS包含哪些角色?
Client、NameNode、Datanodes
3. 请简述HDFS的读写流程。
写的时候写了三副本
读的时候只读了一次
MapReduce和YARN技术原理
1. 请简述MapReduce的工作原理。
总结:
MapReduce阶段分为Map阶段和Reduce阶段
Map阶段分为 1.分区 2.排序 3.组合 4.合并 四个过程
Map阶段的输出结果就是Reduce阶段的输入。Map阶段输出的中间结果存在磁盘当中(先放在环形缓冲区当中,缓冲区满了刷入磁盘中)。Reduce从磁盘中读出中间数据进行下一步计算。
Reduce阶段分为 1.copy 2.Merge 3.Reduce三个过程
2. 请简述YARN的工作原理
总结(八步):
1.应用提交到RecourseManager上
2.RecourseManager为该应用分配第一个container并且与这个container所对应的NodeManager通信,要求它在这个container中启动应用程序的ApplicationMaster(也就是选举出一个AppMaster)
3.ApplicationMaster首先向RecourseManager进行注册,这样用户可以通过RecourseManager查看程序的运行程序的运行状态
4.AppMaster为它所要进行的任务申请资源,并且监控分配给他的这些container的运行状态。
5.ApplicationMaster申请到资源后,与对应的NodeManager通信,要求它启动任
务。
6.NodeManager为任务设置好运行环境,后将任务启动命令写到一个脚本中,通过运行该脚本启动任务
7.各个container通过rpc协议向ApplicationMaster汇报自己状态和进度,让ApplicationMaster随时掌握任务的运行进度和状态,从而可以在任务运行失败时重启该任务。(用户可以通过rpc协议向Application Master查询应用程序运行的当前状态)
8.应用程序运行完后,Application Master向RecourseManager注销并关闭自己。
ABD
C
Spark2x技术原理
Spark的特点有哪些?
B
ABCD
1.
2. Spark相对于MR的优势是什么?
Spark比MapReduce的计算速率要快
3. Spark宽依赖窄依赖的区别是什么?
窄依赖:RDD的每个分区仅依赖一个父RDD的分区;
宽依赖:RDD的每个分区依赖多个父RDD的分区;
4. Spark的应用场景有哪些?
1.Transformation Action
2.RDD
3.宽依赖 窄依赖
HBase技术原理
1. HBase的Region在split时可以提供服务吗?
被分裂的region会暂停读写服务,其他region正常
2. HBase的Region split有何好处?
负载均衡。
A
Hive技术原理
BCD
D
Streaming技术原理
Streaming是如何保障消息可靠性?
A
通过设置Ack保障可靠性
ABCD
B
Flink技术原理
1. Flink的特点有哪些?
2. Flink的常用窗口类型有哪些?
Tumbling Windows
Sliding Windows
Session Windows
Loader技术原理
F
F
Flume技术原理
Flume是什么,可以用来干什么?
AB
B
1.
2. Flume有哪些关键特性?
Flunme支持级联,可以对数据进行简单的清洗,它有很好的传输数据的可靠性,在不同Flume之间传输数据的时候支持压缩和加密,保证传输的速率和可靠性。
3. Source/Channel/Sink分别有什么作用?
Source用来采集数据
Channel用来缓存数据
Sink用来把数据放到目的地
T
Kafka技术原理
ABC
B
1. Kafka是如何保证数据可靠的?
2. 通过kafka客户端提供的Shell命令可以对Topic进行哪些操作?
Create delete list describe等操作
ZooKeeper集群分布式协调服务
1. ZooKeeper在集群中的位置及作用是什么?
它是FusionInsight HD的底层组件
提供分布式、高可用性的协调服务能力
2. ZooKeeper为什么建议奇数部署?
因为奇数部署和偶数部署的容灾能力一样
偶数部署时,成为leader的节点需要获得更多的票数。
3. ZooKeeper一致性的含义是什么?
FusionInsight HD解决方案介绍
1. FusionInsight HD有哪些特性?
1. 系统可靠性,数据可靠性
2. 安全性
3. 网络安全可靠---双平面组网
4. 可视化集群管理,运维便捷
5. 图形化的健康巡检工具
6. 易开发
2. Hive/HBase细粒度加密支持哪些加密算法?
3. HDFS中存海量小文件会给NameNode带来极大的压力;HBase存海量小文件,Compacion会带来IO资源浪费。针对这种现象时有什么技术解决?
HFS方案
4. 日志级别调整有哪些级别?
TRACE DEBUG INFO WARN ERROR OFF
T
T
ABCD
最后一章关注 问题与解决方法
因篇幅问题不能全部显示,请点此查看更多更全内容