hadoop面试100道收集(带答案)


Hadoop招聘-上海华腾软件系统有限公司招贤-拉勾网
http://www.lagou.com/jobs/1710367.html
太平洋保险的外包岗位,去面试没有办公,找了一半上寻找了一个略之,上午11沾,我本着正值老太阳在面试,我直接就晕了,问我肩负那同样块,我说MR和Hive,问了一个怎么看实践计划,他们好无贯就说不问了,问我Spark,要是岗位上写Spark工程师,估计没人失去面试吧,问我对Oracle熟悉吗,我说自家为此pl/sql写过2年之囤过程,竟然问我Oracle的分库分区,我失去,你看自己是DBA吗?


hadoop面试100志收集(带答案) – Jimmy Huang 的专辑 – 博客频道 –
CSDN.NET
http://blog.csdn.net/kingmax54212008/article/details/51257067

十六、来自 aboutyun 的面试题 6 道:

1.说说值对象及援对象的区分?
2.议论您对反射机制的晓及其用途?
3.ArrayList、Vector、LinkedList 的别及其利弊?HashMap、HashTable
的区分及其

优缺点?
3.列出线程的兑现方式?如何贯彻联机?
4.sql 题,是一个图,具体忘了
5.列出至少五种设计模式?用代码或 UML 类图描述里有数种植设计模式的规律?
6.谈谈你最近正在研究的技艺,谈谈您最近种中之所以到之技术困难及其解决思路。

十七、来自巴图资的算法面试题 1 道:

用户手机号 出现的地点 出现的时光 逗留的年华
111111111 2 2014-02-18 19:03:56.123445 133
222222222 1 2013-03-14 03:18:45.263536 241
333333333 3 2014-10-23 17:14:23.176345 68
222222222 1 2013-03-14 03:20:47.123445 145
333333333 3 2014-09-15 15:24:56.222222 345
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130
按日排序
但愿结果是:
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130
222222222 1 2013-03-14 03:18:45.263536 24
111111111 ~~
333333333 ~
~~~~
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 46

十八、来自象夫提供的面试题 7 道:
Hdfs:
1.文件大小默认为 64M,改呢 128M 有什么影响?
2.RPC 原理?
3.NameNode 以及 SecondaryNameNode 的区别及联络?
MapReduce:
4.介绍 MadpReduce 整个经过,比如把 WordCount
的例证的底细将明了(重点讲解
Shuffle)?
5.对 Hadoop 有无发生调优经验,没有什么使体验?(调优从参数调优讲起)
6.MapReduce 出现单点负载多坏,怎么负载平衡?(可以据此 Partitioner)
7.MapReduce 怎么落实 Top10?

十九、来自 mo•mo•ring 提供的面试题 13 道:

xxxx 软件企业
1.而强任该职务有什么优势
2.java 优势与由(至少 3 独)
3.jvm 优化
4.描绘一个冒泡程序
5.hadoop 脚存储设计
6.职业规划

xxx 网络店铺

1.数据库
1.1 第一范式,第二范式和老三范式
1.2
给有些许摆数据表,优化表(具体字段非记得了,是有关商品定单以及供应商方面的)
1.3 以你的实际经历,说生如何防范全表扫描
2.网络七叠协商
3.多线程
4.集合 HashTable 和 HashMap 区别
5.操作系统碎片
6.zookeeper 优点,用当啊场合
7.Hbase 丁的 metastore 用来举行什么的?

二十、来自 Clouds 提供的面试题 18 道:

1,在线安装 ssh 的授命和文件解压的命?
2,把公钥都多至授权文件的下令?该令是否当 root 用户下实施?
3,HadoopHA 集群中哥哥服务的开行和关的一一?
4,HDFS 中之 block 块默认保存几卖?默认大小多少?
5,NameNode 中的 meta 数据是存放在于NameNode 自身,还是 DataNode
等其它节点?
DatNOde 节点自身是否来 Meta 数据在?
6,下列那个程序通常与 NameNode 在一个节点启动?
7,下面那个程序负担 HDFS 数据存储?
8, 在 HadoopHA 集群中国 Zookeeper
的严重性意图,以及启动和查看状态的命令?
9, HBase 在进展模型设计时要以啊地方?一摆放表中国定义多少个 Column
Family
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 48
最合适?为什么?
10,如何提高 HBase 客户端的读写性能?请举例说明。
11,基于 HadoopHA 集群记性 MapReduce 开发时,Configuration 如何设置
hbase.zookeeper,quorum 属性的价?
12, 在 hadoop 开发进程中运用过哪些算法?其用场景是什么?
13, MapReduce 程序如何发布?如果 MapReduce 中提到到了第三着的 jar
包,该如何
处理?
14, 在实际工作中运用过什么集群的运维工具,请分别阐述期作用。
15, hadoop 中 combiner 的作用?
16, IO 的规律,IO 模型产生几种?
17, Windows 用怎样的模子,Linux 用哪的型?
18,一宝机器如何回复那么基本上之要访问,高并发到底怎么落实,一个请怎么来的,
每当服务端怎么处理的,最后怎么回给用户的,整个的环操作系统是怎么决定的?

二十一、来自****供的面试题 11 道:

1.hdfs 之 client 端,复制到第三独入本时宕机,hdfs
怎么过来保证下次描绘第三合本?block
片信息是预先勾勒 dataNode 还是事先勾勒 nameNode?
2.快脱现场写程序实现?
3.jvm 之内存是怎么分配规律?
4.毒酒问题—1000 桶酒,其中 1 桶有毒。而要吃了,毒性会于 1
周后发。问尽少要
微只是老鼠可在同等完善内搜索来毒酒?
5.为此栈实现队列?
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 49
6.链表倒序实现?
7.多线程模型如何(生产,消费者)?平时面世多线程都因此哪些实现方式?
8.synchonized 是一同悲观锁吧?互斥?怎么形容同步提高效率?
9.4 亿只数字,找来怎样还的,要就此极小之较次数,写程序实现。
10.java 是传值还是传址?
11.java 处理多线程,另一样线程一直待?

二十二、来自****供的面试题 18 道:

1.一个网络商城 1 天大概发生小 G 的日记?
2.大约有小条日志记录(在匪洗的景下)?
3.日访问量大概有多少个?
4.注册数大概多少?
5.咱们的日志是不是除 apache 的拜会日志是无是尚闹任何的日志?
6.假设我们出另外的日记是免是可对这个日志有任何的作业分析?这些工作分析还发生什
么?
7、问:你们的服务器发微令?
8、问:你们服务器的内存多大?
9、问:你们的服务器怎么分布之?(这里说地理位置分布,最好吗从机架方面为谈谈)
10、问:你平凡在店还关系几什么(一些提议)
下是 HBASE 我死勿理解的地方:
11、hbase 怎么预分区?
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 50
12、hbase 怎么吃 web 前台提供接口来访问(HTABLE 可以供针对性 HTABLE
的造访,但是
岂查询同一长记下的大半独本子数据)?
13、.htable API 有没有有线程安全问题,在先后中是单例还是多例?
14、我们的 hbase
大概在小卖部事务被(主要是网上商城)大概都几乎单说明,几只表簇,大概
犹包藏哪的数码?
15、hbase 的出现问题?
下面的 Storm 的问题:
16、metaq 消息队列 zookeeper 集群 storm 集群(包括 zeromq,jzmq,和 storm
本身)
纵使可完成对超市推荐系统功能为?还产生没有起另外的中游件?
17、storm 怎么完成对单词的计数?(个人看罢 storm
一直都以为他是流处理,好像从没
累数据的力,都是拍卖完后直接分发给下一个零部件)
18、storm 其他的一部分面试时问之题目?

二十三、飞哥(hadoop 月薪 13k)提供的面试题 18 道:

1、你们的集群规模?
出集群:10 台(8 台可用)8 核 cpu
2、你们的数码是为此啊导入到数据库的?导入到啊数据库?
拍卖之前的导入:通过 hadoop 命令导入到 hdfs 文件系统
处理得后的导出:利用 hive 处理到位以后的数额,通过 sqoop 导出至
mysql 数据库
着,以供报表层下。
3、你们业务数据量多异常?有稍许行数据?(面试了三下,都问之题目)
开发时用的凡部分多少,不是全量数据,有靠近一亿尽(8、9
绝对,具体不详,一般始于
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 51
发中也从不人见面特别关注这题目)
4、你们处理数量是一直读数据库的数要读文件数据?
将日志数据导入到 hdfs 之后展开处理
5、你们写 hive 的 hql 语句,大概发生稍许条?
无晓得,我好写的时光吗不曾举行过统计
6、你们付出的 job 任务大体发生微微只?这些 job
执行完毕大概用多少日子?(面试了三小,都
问这个题材)
没有统计了,加上测试的,会和广大
7、hive 跟 hbase 的分别是?
8、你在路面临至关重要的干活任务是?
用 hive 分析数据
9、你在品种蒙碰到了安难题,是怎解决之?
少数任务执行时了长,且失败率过大,检查日志后发觉没履完毕就破产,原因发生以
hadoop 的 job 的 timeout 过差(相对于集群的力来说),设置添加一些即可
10、你自己写过 udf 函数么?写了什么?
以此我并未写过
11、你的类型交由至 job 的上数据量有多可怜?(面试了三小,都问这个题材)
莫明了是一旦问啊
12、reduce 后输出的数据量有差不多深?
13、一个网络商城 1 天大概有小 G 的日志? 4tb
14、大概发生些许条日志记录(在非洗的状下)? 7-8 百万长
15、日访问量大概发生小个?百万
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 52
16、注册数大概多少?不清楚 几十万吧
17、我们的日记是勿是除了 apache
的走访日志是免是还发出其他的日记?关注信息
18、假而我们有另的日志是休是得本着是日志有其他的工作分析?这些事情分析还发生
什么?

二十四、来自 aboutyun 提供的面试题 1 道:

起一千万条短信,有再次,以文件文件之花样保留,一尽一长长的,有双重。
请求用 5 分钟时间,找来更出现最为多之前 10 条。
分析:
例行方式是预先排序,在遍历一糟糕,找来更最多的前 10
条。但是排序的算法复杂度最低为
nlgn。
得设计一个 hash_table, hash_map<string,
int>,依次读取一千万久短信,加载到
hash_table 表中,并且统计还的次数,与此同时维护一张极多 10
漫长的短缺信表。
如此这般遍历一不好就是会检索来最为多之前 10 条,算法复杂度为 O(n)。

二十五、北京-南桑(hadoop 月薪 12k)提供的面试题 5 道:

1、job 的运作流程(提交一个 job 的流程)?
2、Hadoop 生态圈着各种框架的使气象?
3、还有很多底精选题
4、面试问到之
hive 中之压缩格式 RCFile、TextFile、SequenceFile 各发生什么分别?
上述 3 种植格式一样好之公文谁占用空间大小..等等
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 53
还有 Hadoop 中之一个 HA 压缩。
5、假如:Flume 收集到的数量多只小文件,我欲写 MR
处理常将这些文件合并
(是于 MR 中进行优化,不深受一个小文件一个 MapReduce)
她们铺要做的凡中国电信之流量计费为主,专门写 MR。

二十六、来自炎帝初始化提供的面试题 2 志:

以下问题不必都召开截止,挑最善于的即可。

书写一:RTB 广告 DSP 算法大赛
请求按大赛的求开展对应的建模和分析,并详尽笔录整个分析处理过程及各级步骤成果物。

算法大赛主页:http://contest.ipinyou.com/cn/index.shtml
算法大赛数据下载地址:
http://pan.baidu.com/share/link?shareid=1069189720&uk=3090262723\#dir

题二:cookieID 识别
俺们发 M 个用户 N 天的底上网日志:详见 58.sample
字段结构如下:
ip string 客户端 IP
ad_id string 宽带 ADSL 账号
time_stamp string 上网开始时
url string URL
ref string referer
ua string User Agent
dest_ip string 目标 IP
cookie string cookie
day_id string 日期

58.com 的 cookie 值如:
bangbigtip2=1; bdshare_firstime=1374654651270;
CNZZDATA30017898=cnzz_eid%3D2077433986-1374654656-http%253A%252F%252Fsh.58.com
%26ntime%3D1400928250%26cnzz_a%3D0%26ltime%3D1400928244483%26rtime%3D63;
Hm_lvt_f5127c6793d40d199f68042b8a63e725=1395547468,1395547513,1395758399,13957594
68; id58=05dvZ1HvkL0TNy7GBv7gAg==;
Hm_lvt_3bb04d7a4ca3846dcc66a99c3e861511=1385294705;
__utma=253535702.2042339925.1400424865.1400424865.1400928244.2;
__utmz=253535702.1400424865.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none);
city=sh;
pup_bubble=1; _ag_cm=1400424864286; myfeet_tooltip=end;
ipcity=sh%7C%u4E0A%u6D77
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 54
里面起一个属于性能标识一个用户,我们誉为 cookieID。
告根据样例数据解析出 58.com 之 cookieID。
渴求详细描述分析过程。

二十七、来自 aboutyun 提供的面试题 7 道:

1、解释“hadoop”和“hadoop 生态系统”两个概念。
2、说明 Hadoop 2.0 的着力组成。
3、相比于 HDFS1.0, HDFS 2.0 最紧要的改善以哪几端?
4、试下“步骤 1,步骤 2,步骤 3…..”说明 YARN
中运作应用程序的着力流程。
5、“MapReduce 2.0”与“YARN”是否同样,尝试解释说明。
6、MapReduce 2.0 中,MRAppMaster 主要意图是呀,MRAppMaster
如何促成任务
容错的?
7、为什么会起 yarn,它解决了啊问题,有什么优势?

二十八、来自然月枕流君提供的面试题 6 道:

1、集群多少台,数据量多很,吞吐量是差不多好,每天处理多少 G 的多少?
2、自动化运维了解了吧,你们是不是是自动化运维管理?
3、数据备份,你们是稍稍份,如果数量超过存储容量,你们怎么处理?
4、怎么提升多单 JOB 同时施行带来的压力,如何优化,说说思路?
5、你们用 HBASE 存储什么数据?
6、你们的 hive 处理多少可知达到的指标是多少?

QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 55
二十九、来自夏天提供的面试题 1 道:

1、 请说说 hadoop1 的 HA 如何促成?

三十、来自枫林木雨提供的面试题 18 道:

QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

编者 QQ:1040195253 56

备注:想清楚再也多学生的面试更,欢迎关注官网:www.crxy.cn。
1、10 年工作经验罗同学由月薪 18k 飙升到 45k:
http://www.crxy.cn/detail/news/12;
2 、 14 届应届本科生入职中国航天集团,基本年薪 20w ,年终奖 10w :
http://www.crxy.cn/detail/news/12;
3、入职腾讯学员告诉你 hadoop
学习方法:http://www.crxy.cn/detail/jobinfo/10;
4、揭秘大专生月薪 6.5k 翻番至
13k:http://www.crxy.cn/detail/jobinfo/8;
5、美女研究生 hadoop
工作经验分享:http://www.crxy.cn/detail/jobinfo/6。
QQ942609288????,???????QQ??
QQ942609288????,???????QQ??

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注