hadoop面试100道收集(带答案)


Hadoop招聘-法国首都华腾软件系统有限公司招聘-海峡人才网
http://www.lagou.com/jobs/1710367.html
印度洋保险的外包岗位,去面试没有办公,找了半天找了一个小的,早晨11点,我对着大太阳在面试,我直接就晕了,问我负责那一块,我说MR和Hive,问了一个怎么看实践计划,他们友善不精晓就说不问了,问我Spark,假使岗位上写斯帕克(Spark)(Spark)工程师,测度没人去面试吗,问我对Oracle熟稔吗,我说自家用pl/sql写过2年的积存过程,竟然问我Oracle的分库分区,我去,你认为自己是DBA吗?


hadoop面试100道收集(带答案) – 吉米my Huang 的专辑 – 博客频道 –
CSDN.NET
http://blog.csdn.net/kingmax54212008/article/details/51257067

十六、来自 aboutyun 的面试题 6 道:

1.说说值对象与引用对象的区分?
2.座谈你对反射机制的通晓及其用途?
3.ArrayList、Vector、LinkedList 的区分及其利弊?HashMap、HashTable
的区别及其

优缺点?
3.列出线程的落实形式?怎么样贯彻同步?
4.sql 题,是一个图纸,具体忘了
5.列出最少五种设计格局?用代码或 UML 类图描述其中几种设计模式的规律?
6.谈谈你近日正值研究的技艺,谈谈你如今项目中用到的技能难点及其解决思路。

十七、来自巴图提供的算法面试题 1 道:

用户手机号 现身的地方 出现的年月 逗留的岁月
111111111 2 2014-02-18 19:03:56.123445 133
222222222 1 2013-03-14 03:18:45.263536 241
333333333 3 2014-10-23 17:14:23.176345 68
222222222 1 2013-03-14 03:20:47.123445 145
333333333 3 2014-09-15 15:24:56.222222 345
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130
按时间排序
愿意结果是:
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130
222222222 1 2013-03-14 03:18:45.263536 24
111111111 ~~
333333333 ~
~~~~
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 46

十八、来自象夫提供的面试题 7 道:
Hdfs:
1.文书大小默认为 64M,改为 128M 有甚影响?
2.RPC 原理?
3.NameNode 与 SecondaryNameNode 的区分与联系?
MapReduce:
4.介绍 MadpReduce 整个过程,比如把 WordCount
的例子的底细将明了(重点讲解
Shuffle)?
5.对 Hadoop 有没有调优经验,没有什么使用体验?(调优从参数调优讲起)
6.MapReduce 出现单点负载多大,怎么负载平衡?(可以用 Partitioner)
7.MapReduce 怎么落实 Top10?

十九、来自 mo•mo•ring 提供的面试题 13 道:

xxxx 软件公司
1.你胜任该地方有什么样优势
2.java 优势及原因(至少 3 个)
3.jvm 优化
4.写一个冒泡程序
5.hadoop 底层存储设计
6.职业规划

xxx 网络商家

1.数据库
1.1 第一范式,第二范式和第三范式
1.2
给出两张数据表,优化表(具体字段不记得了,是有关商品定单和供应商方面的)
1.3 以你的莫过于经历,说下哪些避免全表扫描
2.网络七层协商
3.多线程
4.集合 HashTable 和 HashMap 区别
5.操作系统碎片
6.zookeeper 优点,用在怎么着场所
7.Hbase 中的 metastore 用来做哪些的?

二十、来自 Clouds 提供的面试题 18 道:

1,在线安装 ssh 的命令以及文件解压的指令?
2,把公钥都扩张到授权文件的吩咐?该命令是否在 root 用户下举办?
3,HadoopHA 集群中三弟服务的起步和倒闭的顺序?
4,HDFS 中的 block 块默认保存几份?默认大小多少?
5,NameNode 中的 meta 数据是存放在在NameNode 自身,仍然 DataNode
等此外节点?
DatNOde 节点自身是否有 Meta 数据存在?
6,下列那些程序通常与 NameNode 在一个节点启动?
7,下边这个程序负担 HDFS 数据存储?
8, 在 HadoopHA 集群中国 Zookeeper
的显要效能,以及启动和查阅情状的吩咐?
9, HBase 在进展模型设计时重点在怎么地点?一张表中国定义多少个 Column
Family
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 48
最合适?为什么?
10,怎么样提升 HBase 客户端的读写性能?请举例表明。
11,基于 HadoopHA 集群记性 MapReduce 开发时,Configuration 怎样设置
hbase.zookeeper,quorum 属性的值?
12, 在 hadoop 开发过程中使用过如何算法?其应用场景是怎么?
13, MapReduce 程序如何公布?倘若 MapReduce 中涉及到了第三方的 jar
包,该如何
处理?
14, 在实际工作中使用过什么集群的运维工具,请分别演讲期功用。
15, hadoop 中 combiner 的作用?
16, IO 的原理,IO 模型有二种?
17, Windows 用哪些的模子,Linux 用什么样的模型?
18,一台机器怎么样回应那么多的呼吁访问,高并发到底怎么落实,一个伸手怎么暴发的,
在服务端怎么处理的,最后怎么重回给用户的,整个的环节操作系统是怎么决定的?

二十一、来自****提供的面试题 11 道:

1.hdfs 的 client 端,复制到第多少个副本时宕机,hdfs
怎么过来保证下次写第三副本?block
块音讯是先写 dataNode 仍旧先写 nameNode?
2.快排现场写程序实现?
3.jvm 的内存是怎么分配规律?
4.毒酒问题—1000 桶酒,其中 1 桶有毒。而一旦吃了,毒性会在 1
周后红眼。问最少需要
稍许只老鼠可在一周内找出毒酒?
5.用栈实现队列?
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 49
6.链表倒序实现?
7.多线程模型咋样(生产,消费者)?平常面世多线程都用咋样实现模式?
8.synchonized 是联名悲观锁吧?互斥?怎么写同步提升功效?
9.4 亿个数字,找出哪些重复的,要用最小的可比次数,写程序实现。
10.java 是传值仍然传址?
11.java 处理多线程,另一线程一贯守候?

二十二、来自****提供的面试题 18 道:

1.一个网络商城 1 天大概发生多少 G 的日记?
2.大体有多少条日志记录(在不清洗的状态下)?
3.日访问量大概有些许个?
4.注册数大概多少?
5.我们的日记是不是除了 apache 的访问日志是不是还有此外的日记?
6.倘诺大家有其余的日记是不是足以对这个日志有其它的业务分析?这么些业务分析都有什
么?
7、问:你们的服务器有微微台?
8、问:你们服务器的内存多大?
9、问:你们的服务器怎么分布的?(这里说地理地点分布,最好也从机架方面也谈谈)
10、问:你平凡在小卖部都干些什么(一些指出)
上边是 HBASE 我可怜不懂的地点:
11、hbase 怎么预分区?
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 50
12、hbase 怎么给 web 前台提供接口来拜访(HTABLE 可以提供对 HTABLE
的拜会,不过
怎么查询同一条记下的两个本子数据)?
13、.htable API 有没无线程安全问题,在先后中是单例仍旧多例?
14、我们的 hbase
大概在商店工作中(首假使网上商城)大概都多少个表,多少个表簇,大概
都存什么样的数额?
15、hbase 的产出问题?
下面的 Storm 的问题:
16、metaq 音讯队列 zookeeper 集群 storm 集群(包括 zeromq,jzmq,和 storm
本身)
就足以成功对超市推荐系统功效吗?还有没有此外的中间件?
17、storm 怎么形成对单词的计数?(个人看完 storm
一向都觉得她是流处理,好像从没
积累数据的能力,都是处理完事后一贯分发给下一个零件)
18、storm 其他的部分面试平日问的问题?

二十三、飞哥(hadoop 月薪 13k)提供的面试题 18 道:

1、你们的集群规模?
支出集群:10 台(8 台可用)8 核 cpu
2、你们的数量是用什么导入到数据库的?导入到什么数据库?
处理往日的导入:通过 hadoop 命令导入到 hdfs 文件系统
拍卖完了将来的导出:利用 hive 处理到位之后的数目,通过 sqoop 导出到
mysql 数据库
中,以供报表层使用。
3、你们业务数据量多大?有微微行数据?(面试了三家,都问那个题目)
付出时利用的是一对多少,不是全量数据,有将近一亿行(8、9
绝对,具体不详,一般开
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 51
发中也没人会特别关注这个问题)
4、你们处理多少是直接读数据库的数量或者读文件数据?
将日志数据导入到 hdfs 之后展开处理
5、你们写 hive 的 hql 语句,大概有些许条?
不知情,我要好写的时候也尚无做过总括
6、你们付出的 job 任务大体有稍许个?这一个 job
执行完大概用有些日子?(面试了三家,都
问那么些问题)
没统计过,加上测试的,会与广大
7、hive 跟 hbase 的界别是?
8、你在项目中第一的干活职责是?
接纳 hive 分析数据
9、你在项目中遭逢了哪些难题,是怎么解决的?
一点任务执行时间过长,且失利率过高,检查日志后意识并未实施完就没戏,原因出在
hadoop 的 job 的 timeout 过短(相对于集群的力量来说),设置长一些即可
10、你协调写过 udf 函数么?写了什么?
这些自己尚未写过
11、你的类别交由到 job 的时候数据量有多大?(面试了三家,都问这些问题)
不明了是要问哪些
12、reduce 后输出的数据量有多大?
13、一个网络商城 1 天大概爆发多少 G 的日志? 4tb
14、大概有些许条日志记录(在不清洗的图景下)? 7-8 百万条
15、日访问量大概有些许个?百万
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 52
16、注册数大概多少?不清楚 几十万吗
17、我们的日记是不是除了 apache
的访问日志是不是还有其他的日记?关注音讯
18、假如我们有其他的日志是不是可以对那个日志有此外的政工分析?那一个工作分析都有
什么?

二十四、来自 aboutyun 提供的面试题 1 道:

有一千万条短信,有重新,以文件文件的花样保留,一行一条,有重复。
请用 5 分钟时间,找出重新出现最多的前 10 条。
分析:
正常办法是先排序,在遍历一遍,找出重新最多的前 10
条。但是排序的算法复杂度最低为
nlgn。
可以计划一个 hash_table, hash_map<string,
int>,依次读取一千万条短信,加载到
hash_table 表中,并且总括重复的次数,与此同时维护一张最多 10
条的短信表。
这么遍历五遍就能找出最多的前 10 条,算法复杂度为 O(n)。

二十五、时尚之都-南桑(hadoop 月薪 12k)提供的面试题 5 道:

1、job 的运作流程(提交一个 job 的流水线)?
2、Hadoop 生态圈中各类框架的运用意况?
3、还有好多的精选题
4、面试问到的
hive 中的压缩格式 RCFile、TextFile、SequenceFile 各有什么界别?
如上 3 种格式一样大的文本哪个占用空间大小..等等
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 53
还有 Hadoop 中的一个 HA 压缩。
5、即便:Flume 收集到的数量很多少个小文件,我急需写 MR
处理时将这么些文件合并
(是在 MR 中展开优化,不让一个小文件一个 MapReduce)
他俩集团重大做的是中国电信的流量计费为主,专门写 MR。

二十六、来自炎帝起头化提供的面试题 2 道:

以下问题不必都做完,挑最拿手的即可。

题一:RTB 广告 DSP 算法大赛
请遵照大赛的渴求开展对应的建模和分析,并详细记录整个分析处理过程及各步骤成果物。

算法大赛主页:http://contest.ipinyou.com/cn/index.shtml
算法大赛数据下载地址:
http://pan.baidu.com/share/link?shareid=1069189720&uk=3090262723\#dir

题二:cookieID 识别
大家有 M 个用户 N 天的的上网日志:详见 58.sample
字段结构如下:
ip string 客户端 IP
ad_id string 宽带 ADSL 账号
time_stamp string 上网最先时间
url string URL
ref string referer
ua string User Agent
dest_ip string 目标 IP
cookie string cookie
day_id string 日期

58.com 的 cookie 值如:
bangbigtip2=1; bdshare_firstime=1374654651270;
CNZZDATA30017898=cnzz_eid%3D2077433986-1374654656-http%253A%252F%252Fsh.58.com
%26ntime%3D1400928250%26cnzz_a%3D0%26ltime%3D1400928244483%26rtime%3D63;
Hm_lvt_f5127c6793d40d199f68042b8a63e725=1395547468,1395547513,1395758399,13957594
68; id58=05dvZ1HvkL0TNy7GBv7gAg==;
Hm_lvt_3bb04d7a4ca3846dcc66a99c3e861511=1385294705;
__utma=253535702.2042339925.1400424865.1400424865.1400928244.2;
__utmz=253535702.1400424865.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none);
city=sh;
pup_bubble=1; _ag_cm=1400424864286; myfeet_tooltip=end;
ipcity=sh%7C%u4E0A%u6D77
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 54
其间有一个属性能标识一个用户,大家称为 cookieID。
请依据样例数据解析出 58.com 的 cookieID。
务求详细描述分析过程。

二十七、来自 aboutyun 提供的面试题 7 道:

1、解释“hadoop”和“hadoop 生态系统”几个概念。
2、表达 Hadoop 2.0 的主题组成。
3、相比于 HDFS1.0, HDFS 2.0 最着重的精益求精在哪几方面?
4、试使用“步骤 1,步骤 2,步骤 3…..”表达 YARN
中运作应用程序的为主流程。
5、“MapReduce 2.0”与“YARN”是否一致,尝试解释表达。
6、MapReduce 2.0 中,MRAppMaster 首要功效是哪些,MRAppMaster
咋样贯彻任务
容错的?
7、为何会时有暴发 yarn,它解决了咋样问题,有如何优势?

二十八、来自然月枕流君提供的面试题 6 道:

1、集群多少台,数据量多大,吞吐量是多大,每日处理多少 G 的数额?
2、自动化运维了然过吗,你们是否是自动化运维管理?
3、数据备份,你们是稍稍份,假如数额超越存储容量,你们怎么处理?
4、怎么提升四个 JOB 同时实施带来的下压力,怎样优化,说说思路?
5、你们用 HBASE 存储什么数据?
6、你们的 hive 处理数量能落得的目标是稍微?

QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 55
二十九、来自春日提供的面试题 1 道:

1、 请说说 hadoop1 的 HA 咋样落实?

三十、来自枫林木雨提供的面试题 18 道:

QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 56

备考:想知道更多学生的面试经验,欢迎关注官网:www.crxy.cn
1、10 年工作经验罗同学由月薪 18k 飙升至 45k:
http://www.crxy.cn/detail/news/12
2 、 14 届应届本科生入职中国航天公司,基本年薪 20w ,年初奖 10w :
http://www.crxy.cn/detail/news/12
3、入职腾讯学员告诉您 hadoop
学习方法:http://www.crxy.cn/detail/jobinfo/10
4、揭秘职专生月薪 6.5k 翻番至
13k:http://www.crxy.cn/detail/jobinfo/8
5、美人硕士 hadoop
工作经验分享:http://www.crxy.cn/detail/jobinfo/6
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

发表评论

电子邮件地址不会被公开。 必填项已用*标注