分布式计算

网格总计, 云计算, 集群计算, 分布式总计, 超级总结

 

图片 1一体化来说都有将职责分割、运算、组合,只是一块和拍卖的根本不相同;

一流计算强调的是高并行计算能力,应用设备多是拔尖计算机如天河一号,是infiniband的高并行处理架构,完毕总线级协同,一般采取计算能力更强的GPU而非CPU;
集群总括和分布式总括是周旋于设备配置组织来说,那种总计绝对超算来说,对于总结的并行处理及响应需要较低,需求贯彻的是互连网环境下的联合,完结的功用受互连网环境影响。
网格总括是集群总结和分布式计算与最佳计算中间的产物,是在原本集群总括和分布式总结不能够满足要求,而超算又过分难以完毕的事态下,想透过升高互连网带宽格局来落成通过集群总计和分布式总括能够达到近似超级总计的结果,国家网格节点之间的带宽都以T级别的,就综上可得对于基础财富的必要。
云计算是更类似应用的财富整合,在和谐财富整合应用的前提下,对于使用处理的并行处理须求跟低,只是一种松散耦合的方法,但强调将职务分解、处理、组合的长河,以丰富利用现有财富。

虚拟化和云总结是相反相成的。云总计落地的首先步是IAAS,而云基础架构本人又是搭建在虚拟化技术方面包车型大巴。
虚拟化技术首要分为以下多少个大类 :1.平台虚拟化(Platform
Virtualization),针对计算机和操作系统的虚拟化。 2.财富虚拟化(Resource
Virtualization),针对一定的系统财富的虚拟化,比如内部存款和储蓄器、存款和储蓄、网络财富等。
3.应用程序虚拟化(Application
Virtualization),包涵假冒伪造低劣、模拟、解释技术等。

云总结是并行计算(Parallel Computing)、分布式计算(Distributed
Computing)和网格总结(Grid
Computing)的腾飞,恐怕说是那几个计算机科学概念的经济贸易完毕。云计算是虚拟化(Virtualization)、效率总结(Utility
Computing)、IaaS(基础设备即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合形成并跃升的结果。总的来说,云总计能够算作是网格计算的2个买卖衍生和变化版。

一句话来说:
1 云总结是将一台装备经过虚拟化拆分成多台虚拟机器使用。
2 网格总计式将多台装备统10%一台装备选择。

来源: 
http://zhidao.baidu.com/link?url=qsg9l4H_Q9zkzZ2hQ4hIKNg9cSgjh9Jdk8E2d7rZz2a8L9XNLLMHepWxjMIZtnq4-dPNR1YOy4i2G4pgj4qtAa
http://zhidao.baidu.com/question/133931838100732005.html?fr=qrl&index=1&qbl=topic_question_1
http://zhidao.baidu.com/question/354342684.html?qbl=relate_question_1
http://zhidao.baidu.com/question/324910551.html?qbl=relate_question_4
http://zhidao.baidu.com/question/70675394.html?qbl=relate_question_0
http://www.chinacloud.cn/
http://bbs.chinacloud.cn/
http://www.chinacloud.cn/show.aspx?id=14382&cid=11

所谓网格总括,是指在逻辑团长接入互联网的多台总括机作为一台微型总括机应用,通过升高各台总括机的施用频率,使其完整的拍卖能力大大提升,甚至与极品总计机媲美。在网格计算形式下,系统能够自行向每台总括机分配处理任务。假诺中间一台电脑出现故障,其余的微型总计机能够自行替代它并持续开始展览拍卖。网格计算的本来面目便是汇集采纳粗放的IT能源。

专营商消息系列的上扬经历了几个阶段。第1代处理格局为重型主机集中处理,在那种处理情势下,无论是在情理上依然逻辑上平台都以汇聚的;第一代处理形式为客户端/服务器型的拍卖情势,存在数量众多的服务器与客户终端,无论是在物理上或然逻辑上平台都以散落的;网格总计是商家音讯种类的第一代处理方式,是情理上散落、逻辑上汇聚的点子,在逻辑上则能够用作一台微型总结机来采取。

 

 

 

 

 

 

 

 

 

按政治正确的话, 超算跟堆廉价硬件是不一样等的(严肃脸).
实则贰遍事, 堆廉价硬件那种思路不正是互连网穷屌们玩不起超算才想出来的么,
不过超算正是比较精细了, 对多如牛毛地点都有优化, 玩得全是高富帅级硬件(IB
级背板带宽, 啧啧, 借使推广到户就能永世宅了).

还好作者村校有一个 WNY 地区唯一的超算主题,
于是蹭了门课有幸参观了超算中央和顺便蹭了个账号实践模拟了一晃维生素折叠.
那东西真不是您搭个 mapreduce 就玩得起的. 隔壁化学系和建筑系,
生物系的连商院的都跑过来蹭, 反倒是总括机系的用得少.

针对计算目标不雷同, 往往每种超算宗旨都有不通的通讯协议和遍布调度策略.
你见过 斯Parker 或许 Hadoop 改变通讯协议和调度策略么(不是从未有过, 少)

还记得前段时间超算会议开完之后教授上的首先节课颓败地一命归阴: top 10
里面中华夏族民共和国甚至占了绝大多数, 美帝就三个, 美国帝国主义药丸云云,
心中就充满了自豪啊!(何人叫大家人多划算财富不够啊!
中中原人民共和国应该是唯一1个国度超过一半地市级基本上都有超算中央,
要不天气预先报告和疾控预防怎么玩, 具体笔者也不理解听那几个波兰共和国(The Republic of Poland)助教吹的)

天河是一级计算机。连串布局分歧等决定了使用的场景不平等。
1-分布式总计平台例如Ali云所处理的任务平时比较“小”,例如开多个web服务器恐怕是linux系统的虚拟机,或然说map-reduce那种平凡的pc就能养成的一个独自的职责。分布式计算平台间接通过以太网连接(每秒几百MB),平时各种主机的通讯量不会不小。
2-而天河那样的特等总括机,经常多个cpu+共享内部存款和储蓄器形成一块“板”,板和板直接通过超高速互连设备连接,其传输速率能够达到每分钟几十GB(或许不是很纯粹,大概)。因为火速互联设备的留存,使得cpu相当于共享内部存款和储蓄器,一台顶尖计算机能够用作正是一台电脑,用来做大规模的科学总结,例如需求用几百GB甚至上TB的内部存储器,做大批量的演算,那几个时候分布式总结平台是无力回天恐怕很难形成的。

作者:流云12138
链接:https://www.zhihu.com/question/21294792/answer/97775433
来源:知乎
文章权归作者所有。商业转载请联系小编获得授权,非商业转发请注解出处。

至上总括机的留存是可怜有必不可少的呦。

题主应该是觉得:分布式总括集群总计速度辣么辣么快了,只要并连电脑足够多,总结速度就能跨越天河一级总计机,那么要天河干嘛?(⊙o⊙?)

自身给题主举个通俗易懂的例证:
若是π前面有几十亿位,大家就要把这几十亿位给算出来。
一级总计机的测算能力非凡第一名,一分钟能够测算1万位,普通电脑能够总括玖20人,总括集群能够并连100台总结机从而总结速度和最佳总计机并肩前进。

唯独的确能够这么啊??
答案是无法的,总括π是连接的,前后关联的,真的能让总括利群的第叁台总括机负责前九拾7位,第③台负责第八十几位到200位……
计算π是一整个数的盘算,不可能分拆!!所以测算集群算π的推测速度仍为100,天河却是一千0。

那几个就隐瞒了,总括π那皆以渣渣,复杂的大自然物文学,那才是天河的沙场。

可是一流计算机也不可能代表总计集群。

假使百度时而“美白教程”,对于那一个搜索请求,百度能够分给多台计算机分别搜索,电脑1搜贴吧,电脑2搜网页,电脑3搜经验,电脑4搜文库……甚至能够细分给一千0台计算机。
而天河就得从头开头搜,先搜贴吧,接着网页,再经历,最终文库……速度再快也干然则测算集群量大呀。

就此总结集群和极品总计机的存在都以有必不可少的,他们特点各异,却各有独到之处。

上述为民用浅见,如有错误,还请一定提出。因为是个渣渣,见识短浅,举不出高端的例子,说到这边都快要哭出来了。。。

 

分布式总计有1个重庆大学的指标正是用一堆便宜的PC堆积出二个能与大型机有相同计算能力的集群。想法卓殊好,但分布式总结的前提是,职务要可表明,才能“分布式”总计。
而是不少真相上是串行化的天职是不能并行拆分的,比如微积分总括、正则表明式匹配、航天、卫星轨道计算等,这几个都依靠单机单线程的无敌计算能力,由此大型机是不可或缺的。
再有,分布式要应对的主要难点是PC的安定团结,若是突然的宕机或者会对金融领域造成沉重的分歧性,而大型机有着卓绝的可相信性和服务,自然有存在的商海。

分布式程序本质上是 divide and conquor
思路,能运用多少台机械取决于职分可被诠释的粒度,但在众多景况下(比如机械学习)职责分解后的粒度如故相当的大,甚至当先单个
PC 的承载能力,那时就须要小型总计机、大型机乃至超速出马。

举个例子,搜索引擎在对用户搜索词做分析时,须求开始展览大量的形式匹配,为了保险进程大家把格局存在内部存款和储蓄器词典中,那就造成对搜索词的分析程度受限于单机内部存款和储蓄器。市面上能买到的机械内部存款和储蓄器一般在
200GB 以下,那致使众多高档分析难以展开,进而影响搜索结果性能。

怎么解决吧?3个思路正是尝试用 infiniband 或 fpga
等做高速网络,跨机器访问内部存款和储蓄器,进而 cpu
密集任务(如文本相关性总计)、多轮迭代的 io
密集型职责(如机器视觉)也能收获立异。

天气预告、地理勘探、生物化学试验等也是一致的,要么单个职务太大,要么任务间互动太多,那都不止了
PC +
以太网集群的力量,需求注重高速网络构成贰个最佳单机。那正是超算了,很须要。

别的不说啊,我们实验室里的推测集群已经用上了4倍速的INFINIBAND互连网,插头有三个拇指那么粗,点对点有效带宽20G/s,正是即兴两台机械通信的带宽都相当的大于20G/s。网络延迟ping命令已经快测不出来了,阿秒量级。硬件支撑远程读写内部存储器,便是RAV4DMA协议。

天河1A的网络是定制互联网硬件和定制协议,点对点带宽本身回想是40G/s。天河三只会更快。

具体到程序来说,总计能力需尽管单方面,更主要的依然多少通信,比如大家组的测算程序一般要上千个进程,每多个进程每秒要收发几百兆的数量,总结要持续多少个时辰到几天。

有。人类对进度的言情是向前。之所以分布式明日如此火,是因为廉价的集群能够博得一定高的计量能力。可是普通的分布式集群有那二个的毛病,比如互联网支出非常大,那既受限制与网络链路,也受限制于协议。天河那种机械是精心设计,总结能力依旧日常分布式集群十分小概直达的。假如你要求担当像气候预告总计那样的系列,你最后也是会和天河的统一筹划意见大概。

作者:柳傾
链接:https://www.zhihu.com/question/21294792/answer/90034776
来源:知乎
文章权归作者全数。商业转载请联系小编获得授权,非商业转载请申明出处。

  • 天河是并行计算的机械集群,是为着化解高性能总括的题材。
  • 分布式计算是为着缓解大气的估计问题。

前端的题材是总计量大(应用范围:科学总结等),可并行处理;后者是总计量多,可表达处理(应用范围:Taobao拍卖订单等)。
以矩阵相乘为例:分布式计算相比符合总结百万个一千×一千的矩阵的相乘;而并行计算相比吻合计算3个一千000000×一千00000矩阵的乘法。
为了达到上述的须求,以天河拔尖计算机为代表的并行总括集群的连串布局不一样于一般的分布式集群,各类节点的CPU/GPU
数量多,内部存款和储蓄器大,计算前全数数据读入内部存款和储蓄器,总结进度中大概不访问硬盘,硬盘只当做数据的备份和平运动算结果的保留。为了针对特定领域所必要的高并发品质,往往选拔高吞吐、高品质的GPU恐怕特定的FPGA
代替一般的CPU实行计算,而分布式则采取通用的商用服务器也许更低廉的机械。
看得出就计算能力来说,分布式总括集群在并行总计集群前面正是小巫见大巫,完全不是二个数目级,但所指向和缓解的难点也是例外的。下图比较了天河二号和百度集群的局地圈圈参数:

<img
src=”https://pic2.zhimg.com/e1aca4a36dd1d70fdb63ea13e36ef205\_b.png
data-rawwidth=”588″ data-rawheight=”270″ class=”origin_image
zh-lightbox-thumb” width=”588″
data-original=”https://pic2.zhimg.com/e1aca4a36dd1d70fdb63ea13e36ef205\_r.png">

图片 2

还有多少个正是并行总结的实时性须要比分布式总括要高。(比如场景、灾殃卫星采集的数额必要准实时地解析得到结果,以便尽快处理灾荒情形,那样并行计算比较妥当;而分布式总计比较吻合实时性较弱的政工,如日志分析和多少挖掘)

首先题主难点不符合规律。
处理器分为特级总计机、大型机、中型机、小型计算机和处理器。天河是极品总结机,不属于大型机。

在于问题不专业,所以自身恐怕尽量用通俗的话讲。(开个玩笑)
纯属个人观点。
最佳总括机一向是用以科研,走在时代的前列。因为超算的种类布局和下令结构都以十一分复杂的,所以直接突显出的是它的总括速度。对于超算的斟酌,是推进总计机的向上的。可是,超算也只是适合待在实验室,毕竟它结构复杂,造价高昂,维护开销更不要说。而且超算的乘除速度与IO瓶颈难点,使得超算大部分时候处于空跑状态。

巨型机今后专指IBM主机,也正是英文里面包车型客车mainframe专指。最早时候,在PC出来以前,其实唯有大型机的。IT领域的应该都看过知名的《人月逸事》那本书,以后的大型机正是书里面的IBM
360腾飞过来的。大型机速度固然赶不上超算,不过经过各类平台的软件及系统,很好的平衡了计算速度和IO,使得其很好的应用于大型数据主导。但也是由于其爱戴资金高昂,都以重型非技术公司购进其服务的。在中原,比如中国共产党第五次全国代表大会银行、证券、金融等公司。在海外,大型机客户就多了,还论及到有的临床数据基本等等等等。而且重型机是按每年的总括量收费的,不是叁次性支付。总的来说,大型机依旧比较有应用性。

中型小型型机,未来大致已死,分布式总括的面世使之成为一块鸡肋。价格不便宜,却达不到大型机的演算能力。

至于题主提到的分布式计算平台,当先1/3是由x86架构PC集群构成。因为PC便宜,坏了就换,而且能够完毕以往海量数据的拍卖。所以,未来无数科学技术公司都甘愿利用x86集群,因为有技巧团队,而且保养费用低廉。

事实上不管PC集群还是超大型机,是人人三种相对的处理难点的艺术而已。题主的题材标签是云总括,而云计算暨能够采取集中式,如超算和大型机,也得以选拔分布式,便是后天火热的分布式。
说到此,顺便评论下中夏族民共和国的去IOE之风。自从当局提示国内要自力更生,去IOE后,各种大小店铺都从头喊着去IOE,日常有朋友和自作者谈类似的题材,说咱俩大机已死,巴拉巴拉。。。可是中夏族民共和国脚下并从未可以代替的技术能够真的兑现,尤其是像中国共产党第五次全国代表大会行那种,需要要用浪潮服务器代替。当年没技术引进技术,今后凭借过很,已经去不掉了。
好呢,说了那么多,其实本人想说的是,存在即创立。请我们忽略上一段话,作者只是个学大型机又学分布式的学生,小编连皮毛都不懂,作者胡扯的,不喜勿喷。小编毕业杂谈还没写完,匿了。

率先须要题主澄清一下:分布式总结平台是指什么?是指distributed
computing?举个例证?

接下来天河一号不属于distributed computing, 她是parallel computing,
多个不是3个东西,天河一号不仅仅有存在的必备,而且是持筹握算容积还远远不够,越来越多越好,没有上限的。那根本不是争排名,而是实际需求摆在那里,巨大的供给。

先讲讲distributed computing和parallel computing的分歧。distrubuted
computing是指很多少个computing
node分散开,互相之间从未快捷的网络连接,各自领1个任务的一局部,算完后把结果汇总。这一个任务是能够分解成三个个独自的小职分,不需求node之间太多通讯的。而parallel
computing是无数个computing
node放在一块儿,相互之间用最快的网络连接,一起总括八个职分,那几个职务有不少个步骤,供给各样node之间有很频仍的通讯,通信的数据量能够一点都不小。

举个例子,矩阵的加法是能够分解成各样模块,五个node能够单独算出相应模块的结果。矩阵的乘法就供给解释之后相继node频仍通讯。学MPI应该会写过矩阵乘法。

最后讲parallel
computing的须要性。科学研讨和工业上选择都游人如织,说多少个实际的事例吗,飞机空气引力学模拟,天气预告。那几个缺口都极大,希望出现越来越多的银汉。

自己认为并行指的是在那之中高速总线连接的总计模型,而经过外部网线连接的则是分布式总结。前者例就好像七个CPU里面包车型客车多核,1个主板上的两个CPU,共享内部存款和储蓄器等存款和储蓄介质,数据调换的带宽可达数百Gbps。而后人例如几个集群里面多台总计机,通过网线相连,即正是用十分的快以太网或Infiniband,带宽不过几十Gbps。而且因为没有共享的主存,数据调换完全靠网络通讯消除。而一流总计机,纵然互联都是超高速的,从构造上讲应该更就好像后者那种模型。而题主所谓的分布式总括平台也多数是在那种组织上跑起来的。

 

而方今这个超算比起一般的分布式网络连接速度是快了累累,但并不像单机那样多个总结大旨之间共享主存。但从互联速度上来讲介于两者之间,好像专门用“集群总括”称呼更适用一些。

 

 

自然须求。假使您有二个格外大型的测算,供给一千个CPU同时跑,并且他们中间的数量交互量也一定大,这些时候你就务须用超算而不是分布式总结了。

超算并不是一块越发大的主板方面插了几八万个CPU,而是分成二个又2个的节点,各种节点都有自然数额的核(比如说32)。节点与节点之间供给通过网络展开报导。尽管是选择了比常见的网络快很多的InfiniBand,很多先后在超算上跑的时候质量瓶颈依旧是在节点之间的广播发表,因为数据量实在太大了。综上说述假设那种任务放在分布式总括上跑,使用平均200KB/s而且时不时掉线的互连网传输数据程序要跑多长期。

本身记得我们高校超算的二个民间兴办助教曾经说起过一件事情:有一帮搞原子核物军事学(貌似是,记不老子@了)的去找IBM协助进步他们先后的乘除功能,IBM的学者研究发现那几个顺序的表征是,相邻节点之间的数据交互十二分巨大,而任何节点之间则唯有为数不多数码交互。于是IBM的专家就为此程序专门研究开发了贰个极品总计机,那几个顶尖总结机相邻节点之间的简报功能比一般的超算快万分多,而非相邻节点之间的报道的性质则相比较平庸。用这一个计算机跑那个程序速度进步十一分显著,而且世界让从未其余一款纯的软件能够战胜他。

 

 

手提式有线电话机打字,回头有空想起再补偿。

先交付多个结论:
① 、未来为此顶尖总括机本质上都以集群;
贰 、集群能够做分布式总括,但高质量计算的渴求比分布式总计要苛刻得多。

上边逐条表明:
1:超算以前有MPP、SMP等花样的留存,那1个都是专用机械,近10年来超算已经完善向集群转移,一台湾大学超算是由许多少个总计刀片组成的。那也便是怎么有人说天河二号是拿钱砸高级DIY,因为天河二号除了主板(这么些自身不分明)以外的持有重点硬件都以商用设备,有钱总能买到。
2:未来的超算,也许说高性能集群,你完全可以当分布式集群来用。可是超算有更尖端的文件系统和存款和储蓄系统,更快个更低顺延的IB网,以及量身订造优化过的MPI跨节点(分布式)运转条件。后者卓殊重要,小编觉得大约能够说是当今超算的大旨技术之一。以往的这么些分布式系统,其总计职务都是松耦合的,没有何显然的光景重视。可是超算上跑的科学计算不平等,往往上一步解的结果下一步要用,由此各节点之间必要低延时的数据交流。实际上访问数据的延时和带宽是多数高质量总计应用简单遭遇的瓶颈,也是优化程序时重点着力点之一(因为内部存款和储蓄器带宽和速度跟不上CPU的进程),在2个节点内如此,跨节点的传导难题会更要紧。所以才要上IB网,才要对准优化MPI环境。分布式系统不平等,没有那个压力,笔者有一亿张图纸要削减作者就平均下去各机器减弱完了传回到就行。所以高质量集群去做分布式系统没有别的难题,反之则越发。

———-15.12.13更新———-

看样子楼上楼下有那么五个人对大型机的认识不科学,小编给你们一点用百度都能搜到的资料:

某国产大型主机:大潮天梭K1906
,请点去技术标准这里看看

IBM 最新的特大型机 z13:IBM z
Systems
IBM大型机老而弥坚
z第13中学华市场粉红色一片_DOIT.com.cn

实在以往的重型机里面也要用到『通用』的电脑(IBM大型机的电脑是Power种类的改过来的,至于安腾,就算将来早已有气无力,也勉强能够算是『通用』吧,还有此外机器有利用),所以里面也是一大堆处理为主,而不是怎么样单核单线程能力很强。

上边那张图是《Computer Architecture : A Quantitative Approach (5th
edition)》给出的各场景宕机时间长度平均带来的损失,依然2000年总括的老多少:

<img
src=”https://pic3.zhimg.com/abd242ae1f3bfcc8cee4b472b1977076\_b.png
data-rawwidth=”705″ data-rawheight=”372″ class=”origin_image
zh-lightbox-thumb” width=”705″
data-original=”https://pic3.zhimg.com/abd242ae1f3bfcc8cee4b472b1977076\_r.png">所以大型机要的是稳定和安全,因为银行部门不允许在交易高峰出现哪怕五分钟的宕机。

图片 3之所以大型地下的是平静和平安,因为银行部门分化目的在于交易高峰现身就是五分钟的宕机。

有关计量能力,那里应该做多个组别:浮点总括能力和整数计算能力。前者在别的款式的假冒伪造低劣计算(全体的科学计算和模仿都以假冒伪造低劣计算)中都以必不可缺的;后者在事务性总计上,卓绝显现为数据库以及平常软件应用,关系紧凑。

说大型机的计量能力强大,是指其整数计算能力很强;至于其浮点运算能力,一台大型机也打不过两三块日产K80总结卡。没有人未来会去买大型机来做浮点运算,除非是土豪钱多任性。

而现行反革命用在超算上的测算设备,都在增强相互(向量)浮点处理能力。因为多数不错和工程测算难点最后都要转会到一个或三个矩阵计算难题上,而矩阵总计难点就要处理大量的向量。所以Xeon
Phi里有51二个人的向量部件,GPGPU上有上千个流处理器,都是极其具有针对性的。

好,回到原来的题材上,笔者解释一下为啥说互连网通讯技术,也正是硬件层面包车型地铁IB网架构和软件上的MPI跨节点通信库的调节和测试,是超算的主旨技术之一。

先说硬件。今后世界上跑得最快的500台超级计算机,在Home | TOP500
Supercomputer
Sites
查到全体的列表。排名前50的超算,其合力情势为主都是定制的(基于InfiniBand)恐怕直接就是IB网,排行最前的非定制非IB网的机器是第陆6名联想自个儿弄的一套,Segment是Industry。用以太网的机器,其持续运作速度(你大致能够清楚为三个尽量优化的使用能一连跑出去的最快的快慢)比起其辩白最大速度,很多都没有抢先八分之四。过半的那多少个很多都是排行相比后照旧总计节点数比较少的机械。Mellanox在其报告http://www.mellanox.com/page/top\_500中也波及,将近50%的超算用了IB网。而商用的分布式总括集群,比如第六6名这台,用的是万兆以太,总括功能唯有三分一不到。然而作为商用集群,那或多或少题材都尚未。

再说一下MPI通讯库的难点。有好的硬件,也要有好的软件去用,前50的超算基本都会指向自身的架构去做三个MPI库的优化。未来能拿到到的免费高品质通用MPI库有OpenMPI、MPICH和MVAPICH,商用的有英特尔MPI。天河二号上的MPI是依据MPICH做了纵深优化的。作者从前有叁个先后,在十七个节点上运转,各种节点上有三个尺寸为2000两百万的double型向量,要将那14个向量做加法,然后存到一台机械上,MPI库有叁个函数MPI_Reduce提供现成的算法去处理。AMDMPI做二次那样的处理,用时比天河二号自主的MPI要慢了一倍有多。所以假使您不去做优化,这么些一边盘算一边须要MPI沟通数据的先后,就会相当的慢。分布式集群一般就不会去处理那种工作,最多买个好一点的商业库,也许直接用免费的。那样的话做科学计算的快慢就远远不如定制过MPI库的超算了。

其它,就自笔者所知,超算上的选择里,有磁盘IO瓶颈的不多,更多的是内部存款和储蓄器带宽和网络延时&带宽瓶颈。但商用分布式集群处理的标题,MapReduce之类的,对磁盘IO的渴求就相比大。那一个时候商用集群能够用方便单击来实现高磁盘IO。至于超算,它各类总括节点自个儿也有一块硬盘,不过不存数据。全数的用户数据都以存放在在贰个联结的高性能存款和储蓄阵列上。

 


作者:王乐珩
链接:https://www.zhihu.com/question/21294792/answer/18068428
来源:知乎
小说权归小编全体。商业转发请联系作者获得授权,非商业转发请评释出处。

一级总结机其实也是分布式集群架构,和常见集群很接近,编制程序模型都以MPI、Mapreduce那一套。稍有两样的是:
1.极品计算机用infiniband那种通讯背板、各个公司级内部团结框架结构……以便进步各节点间的网络IO,常规分布式集群一般都以千兆、万兆网卡。
2.顶尖级总结机一般会配高档的磁盘阵列,而GFS+Mapreduce方案底层基于挂在各节点上的家常硬盘。
3.拔尖总括机会使用更先进的CPU和GPU,更加多内部存款和储蓄器。
4.出于发热强劲,很多极品计算机应用水冷。

从那些细节能够看看:
1.最佳总计机更符合总结密集型作业,即便你是用MPI算原子核物医学、天体物理、硫胺素折叠、渲染《阿凡达》、求解普通PC上必要几千万年的迭代方程,那么就活该用一流计算机。反过来,分布式集群Mapreduce适合IO密集型的功课,加上花费低,能够把集群规模搞得极大,因而最符合扫描过滤海量的数额,例如网络行业的经文应用:为寻找引擎缔造全网Web页面包车型大巴目录。
2.拔尖总括机造价更高昂,维护费用也高,甚至每时辰电费就得上万元。记得小编原先做泛酸搜索引擎的时候,在国内最大的最佳总括机之一跑过叁个80分钟的job,花了业主5000多块上机费(因为大家有项目合作,人家已经给我们打了相当的低的折扣了)。可是这几个作业用MapReduce在通常分布式集群上跑,跑了好几天。

云计算是建立在降价分布式硬件+牛B的软件系统规划上,在经济贸易上越来越成功。所以正在抢占守旧一流总括机的用户市场。例如Ali云刚刚和国内的卡通公司同盟渲染出来的《昆塔》,计算量是阿凡达的四倍。然而就笔者所知,各大古板超算宗旨其实依旧是排队、忙但是来的。随着国内经济的进步,很多造船、原油、质感、生物、天体物理、军事领域的估计要求都很明显,这一类总结密集型职分,质量和时间屡屡比资金更器重。

最后是广告时间(求不折叠)。大家公司在招人,云总计、大数据、分布式总结人才很适量,欢迎投简历,具体音信参考
GeneDock
也欢迎推荐,成功入职后奖励推荐人HUAWEI或DJI大疆无人驾驶飞机。

发表评论

电子邮件地址不会被公开。 必填项已用*标注