非常感谢你参与ASC 2016学生超级计算机的挑战(ASC16)。本文档将提供详细信息的初赛比赛。
在初赛中,每个团队注册需要提交的文件包括一个提议,优化源代码文件和输出文件(指定的详细需求在附录A)。这个提议需要用英文写的, 并将由ASC评定委员会审查。
所有团队都应该2016年3月2日早上9点之前提交到info@asc-events.org。你的提交确认将会通过email发给你。提交应包括下列事项:
(a)提案文件(doc.或者pdf格式),与大学或学院名称和命名联系人名称(例如AAAUniversity_BBB.doc)。
(b)额外的文件应该被压缩成一个文件(例如AAAUniversity_BBB.zip,其他压缩格式也行)。压缩文件至少应包括:(详细需求中指定附录A)
3.对于任何进一步询问比赛,请通过以下邮件联系ASC委员会:
a)技术支持:techSupport@asc-events.org
b)竞赛组织:info@asc-events.org
c)新闻和媒体:media@asc-events.org
I.大学的一个简短的背景描述或部门的超级计算活动(5分)
4.详细描述超级计算研究的主要成果(不少于2项),附证明材料(发表论文、获奖证书等)。
a)在3000瓦功率预算内,您的系统被设计来实现的HPCG和MASNUM_WAM应用程序的最佳性能。
b)指定您的系统的软件和硬件配置以及相互连接。描述电力消耗,评估性能和分析你的方案体系结构的优点和缺点。
c)系统应该基于浪潮集团NF5280M4服务器。下面的表格中列出的组件将由浪潮集团提供给进入决赛的团队。其他组件(服务器本身除外)是可以接受的,但应该由团队自费准备。例如,你可以改变NF5280M4服务器和加速器的数量,硬盘和内存的类型,甚至你的方案中以太网配置的类型。
项目 |
名称 |
配置 |
服务器 |
浪潮集团NF5280M4 |
CPU: Intel Xeon E5-2680v3 x 2,2.5Ghz,12 cores 内存:16G x8,DDR4,2133Mhz 硬盘:1T SATA x 1 功耗评估:E5-2680v3 TDP 120W, memory 7.5W, hard disk 10W |
加速器卡 |
XEON PHI-31S1P |
Intel XEON PHI-31S1P (57 cores, 1.1GHz, 1003GFlops, 8GB GDDR5 Memory) 功耗评估: 270W |
HCA卡 |
FDR |
Infiniband Mellanox ConnectX®3 HCA卡、单端口QSFP,FDR IB 功耗评估:9 w |
交换机 电缆 |
GbE交换机 |
Infiniband10/100/1000Mb / s,24端口以太网交换机 功耗评估:30 w |
FDR-IB交换机 千兆CAT6电缆 |
SwitchX™ FDR无线带宽技术交换机、36 QSFP端口 功耗估算:130 w CAT6铜电缆,蓝色,3 m |
无线带宽技术电缆 |
无线带宽技术光缆,QSFP端口,无线带宽技术合作使用 |
团队将在自己的硬件上运行HPCG测试,目的是尽可能的在3 kw-powe预算效率下。
方案应包括描述的软件环境(操作系统、编译器,数学库,MPI软件,HPCG版本,等等),测试方法,性能优化方法、性能评价、问题和解决方案分析,等。深入分析HPCG算法和推荐的源代码。
http://www.hpcg-benchmark.org/software/index.html
成功的验证和优化HPCG硬件平台将获得额外的分数。然而,团队没有必要的硬件平台也鼓励提交他们的想法和分析。
应用程序名为MASNUM波数值模型的表面波模型(简称:masnum_wam)。类似于HPCG测试,团队应当运行MASNUM_WAM测试的硬件验证正确性和实现好的性能和效率。
提案文档应包括测试软件环境的描述(操作系统,编译器,数学库MPI软件和应用软件,等等。版本信息),测试方法,性能优化方法,性能评估,问题和解决方案分析等深入分析MASNUM_WAM的算法和源代码是高度鼓励。
MASNUM_WAM提供了不同的工作负载,展示不同的性能特性,在这个比赛中,团队应该关注两个MASNUM_WAM工作量包含在软件包。MASNUM_WAM软件包可以在远程测试平台上下载。
团队没有所需的硬件平台也鼓励提交他们的想法和分析。
4.在CPU +MIC平台优化DNN项目(40分)
团队需要在独立的混合CPU +MIC平台上进行优化DNN项目的程序。
应用背景:深层神经网络(DNN)是一个深度学习的算法,它被成功应用于许多研究领域,如语音识别和图像识别。
DNN包括8层用于这个测试,包括一个输入层,六个隐藏层,和一个输出层。详细的网络结构如图1所示。该算法包括三个主要部分:计算,误差反向传播,和重量更新。
程序下载链接: asc16.inspur.com:/home/public (on the remote testing platform)
|
基线计划 注意:这部分是DNN培训代码,需要的MIC优化和其他的源代码文件夹是不允许的修改 |
|
验证程序 |
资料组 |
lab_tr .pfile |
声标签的深度学习 |
|
声学特征的深度学习 |
|
调试声标签的子集 |
|
调试声学特征的子集 |
lab_cv .pfile |
声标签交叉验证图谱集 |
|
声学特征交叉验证图谱集 |
|
意思文件 |
|
初始模型 |
|
|
|
|
|
|
交叉验证图谱workload |
|
运行脚本 |
|
验证脚本 |
cd dnn_toolkit/dnn_cvtk_src
i.建议应包括软件和硬件环境的描述,并行设计方法、性能优化方法、测试过程和结果上的CPU +MIC平台。深入分析有关原则,并行算法和代码。
ii.优化后,最后的程序应该与由组委会提供的workload2测试计算服务器的CPU +MIC混合集群(远程测试平台)。CPU +MIC混合集群由4个计算服务器。方案中的性能分析应该建立在本次测试的结果上。每个团队必须包并提交文件夹的“dnntk_src”和“exp”这个测试给ASC委员会
i.ASC委员会提供了远程测试平台,包括CPU和MIC卡。“附录B。远程测试平台”提供了测试平台的详细信息的描述。硬件的配置平台是固定的。
ii.原来的代码是用c语言编写的。修改后的代码应该包括适当的评论。
iii.程序应该在其他CPU或者CPU和MIC的结合上运行。你可以使用诸如MPI并行编程方法,OpenMP,pThread和OpenCL写代码,但是,所有的方法都应该支持MIC。如果程序的计算资源利用MIC卡,你必须使用MIC卸载编程模式。
iv优化方法不能违背基本的DNN算法被原来的代码。
vi.workload2运行后所有数据必须得到结果。
vii.结果保存在“accuracy” saved in the “exp/mlp_cv.0.log”是正确性的指标。?
Viii. 结果“total time cost” saved in the “exp/mlp.0.log”,是性能的指标。
这个应用程序也将进行最后的比赛,但在一个更大的CPU +MIC混合集群中。
平台由13个节点:5个登录/编译 节点和8个计算节点。详细配置如下:?
4个登录/编译节点来登录,CPU编译应用程序并提交多节点,计算节点的工作。这些节点可以通过相同的IP地址访问,和用户将自动分发到不同的节点。
一个小规模的CPU与4个计算节点集群。
l 一个小规模的带4个计算节点CPU +MIC混合集群。
登录IP地址:asc16.inspur.com(by ssh)
登录账号和密码将通过电子邮件通知每个团队。用户应当第一次登录后更改密码。最后的比赛时登录账户后会自动关闭。一个账户最多允许两 个用户同时登录。
每个团队都有默认20 GB的存储空间。用户将自己的数据备份和及时清理磁盘空间。如果用户需要使用一个更大的磁盘空间,请联系 techsupport@asc-events.org。
正如上面提到的,登录/编译节点应当用于登录,编译和做单节点测试(注意,做单节点测试可能会影响其他用户的会话)。
更详细的描述,请参阅“ASC16学生超级计算机的挑战说明书的远程登录平台”,将发送登录信息。
其他问题,请联系techsupport@asc-events.org
按照中国政府的要求,平台必须关闭于2月6日至2月15中国的传统节日春节期间。
HPCG |
HPCG版本 |
|
系统规范 |
|
计算节点 |
|
操作系统 |
|
MPI |
|
编译器 |
|
编译器标志 |
|
环境 变量 |
|
增压器(开/关) |
|
|
|
结果 |
节点数量 |
|
核数量 |
|
HPCG(基础和优化) |
|
HPCG结果 |
|