就现有处理器及系统中每秒的浮点运算速度而言,摩尔定律尚未达到其极限。但是,就大部分软件甚至是先进技术的计算软件的可用性能而言,或许已经达到了极限。
看一下世界500强超级计算机公司的网址列表,说明大部分技术计算工作量已经转移到商用Linux集群: 廉价服务器、商业网点和商用存储。与此同时,像Cell宽带引擎(Cell BE)这样新颖的多核处理器架构,也显示出驻流在入口级服务器中的强大的计算能力的潜力(每秒几百亿次浮点运算速度),也就是说,2到4个处理器。
利用如此多便于获得的计算能力—无论是片上系统或商用服务器群—全球各地不论规模大小的公司和行业,或者甚至是个人,或许也能够选择这种能力来解决比以前更多的问题。这时就只有一个问题存在:软件在哪儿才能利用所有这些处理器、内核和线程?对于大部分企业或个人而言还没有,甚至在像技术计算这种历史上曾集中在前沿技术授权这样的领域。事实上,IDC的Earl Joseph在一份关于技术计算软件的研究中得出结论指出:“现在许多ISV代码只升级到32位处理器,一些用于工业的最重要的那部分软件却并没有升级到4核处理器。”
他的研究也表明,即使当供应商有了一个要使代码平行运行或升级其代码的方案,重新设计和重新编码的成本相对于可预见的市场利益来说,代价也是非常高。
进入Roadrunner时代
Roadrunner将是以Cell BE为基础的世界第一的超级计算机,当它在2008年问世并在洛斯阿拉莫斯国家实验室运行时,它将具有超过1.6千万亿次或1.6千万亿次计算/秒。
Roadrunner将是首个问世的采用混合计算架构的计算机:具有多层存储器层级的多个不同种类的内核。它完全采用商用的部件来建造,包括:以AMD Opteron为基础的服务器,以Cell BE为基础的加速器和Infiniband互连。标准处理(如文件系统I/O)将由Opteron处理器管理,而更多数学和CPU密集的单元将由Cell BE控制。
为使最高级的科学模拟应用开发人员可以利用这种复杂的架构,系统开发中的大部分工作是编程方法的实现和相应的应用构架和工具。这种应用使能的应用编程界面简单但却可扩展,其设计利用了各种类型存储和I/O子系统的优点,与此同时,保持由开发商隐藏的根本实现方案的不断变化。重点也是使一系列内核、不同拓朴的分散器/集中器存储操作成为可能,并且隐藏像由开发商提供的计算与通信覆盖之类的事情。
基本原理是一种“劳力分割”法。一组计算核心开发商将继续利用微处理器ISA使性能最大化;事实上,许多像这样的内核已经存在(矩阵乘法就是一个很好的实例)。库开发工程师将采用一种为Roadrunner开发的框架来把内核合成到多核、存储器层级库之中。然后,应用开发工程师将采用标准的编译器和连接器技术来连接到这些库中。无须引入新的语言,跨越大量多核架构的连续的API和方法将限制代码维护的成本。这样,库开发工程师不仅为加速器系统,而且为通用目的多核方法和集群改善了使用的方便性。
Roadrunner并不是针对美国国家实验室超级计算机的一个定制项目,它代表一种新的架构。我们正邀请行业合作伙伴来定义编程方法的组件(如API、工具等),以便那些合作伙伴能够很好地利用多核系统。通过这种方式,重大的科学开发就不再被限定在重点大学或主要的研究机构。这种集中的行业使能技术的优越性在于它能使我们日常生活的几乎每个方面都可“分享利益”。其潜在应用包括:
金融服务
通过实时地计算资本市场的原因和效果,超级计算机能立即地预测整个市场中股市变化的连锁反应。
数字模拟
巨大的超级计算能力将令电影制作商创造如此逼真的人物和情景,以致于模拟的和真人扮演的电影之间的界线都将难以区分。
基于信息的医学
通过用于肿瘤检测的在线分析,以及对历史数据和实时患者数据进行比较,将实时显示组织与骨骼结构的复杂3D透视图。实时的患者数据的合成能用于生成与有关身体状况有关的预警信息。
石油和天然气生产
超级计算机能用于绘制出地下的地形,模拟水库,并由现场的科学家对直观获得的数据进行分析。
纳米技术
超级计算机有望推动构建器件的科学的进步,如电子电路及由单个原子和分子构成的器件。
蛋白质合成
超级计算机能被用于揭示疾病产生的原因,如何测试这些疾病,以及如何开发治疗和治愈方案。
随着从多核微处理器到像Roadrunner这样的混合系统的架构变得更加复杂,以及超级计算能力正成为一种商品,加之无须依赖于过去曾流行的“频率撞击”率,开发工程师们仍寻求从他们的软件中挖掘更高的性能。我们专注于保持应用开发的简单性—迫使工程开发进入框架使能的艺术境界—而不是应用开发。通过回到更简单的编程方法,我们将允许软件能够赶上硅技术的进步,使台式电脑的万亿次计算能力不仅是一个可预见的技术成就,而且也是一个有用的技术成就。 |