五洲讲坛:百亿亿次超级计算机系统中错误恢复机制研究的最新进展

字体:

主 讲 人:陈子忠 教授  中国科学院先进技术研究院客座教授

讲座时间:2015.3.24周二下午2:00

讲座地点:信息楼429

承   办:计算机与信息工程学院

主讲人简介:

陈子忠教授,美国国家基金委杰出青年教授奖获得者(U.S. NSF CAREER Award),美国加州大学河滨分校超级计算实验室主任,国际期刊Elsevier Parallel Computing分区主编,IEEE高级会员,ACM终身会员,中国科学院先进技术研究院客座教授。

陈教授的学术成果被美国加州大学伯克利分校等世界名校作为教科书,同时也是IEEE高级会员(电气和电子工程师协会),久负盛名的美国国家自然科学基金会突出贡献奖获得者,是《Elsevier并行计算》国际知名期刊的高级编辑。陈教授的报告内涵丰富、理论性强,为大家展现了IT领域的广阔空间,通过以我们计算机科技为代表的信息技术发展为落脚点,结合云计算、大数据等当前热门研究领域方向及高性能计算海量数据分析与处理等研究领域进行了深入浅出的讲解阐述。

讲座内容摘要:

下一代百亿亿次超级计算机将会拥有上亿颗计算核心。计算和存储错误在如此庞大的超算系统中不可避免。主要讨论加州大学在百亿亿次超级计算系统错误恢复机制研究中的最新进展。

在过去几十年超级计算实践中,计算节点的崩溃一般通过开销高昂的检测点技术来恢复。我们首次发现当超算系统在运行大部分广泛使用的数值线性代数库代码时,计算节点的崩溃无需开销高昂的检测点技术即可以恢复。

在今天的超算实践中,计算错误一般通过验证计算结束后所得结果来探测。我们首次发现在大部分广泛使用的数值线性代数库中的计算错误无需计算结束就可以提早探测并更正。提早更正计算错误可以避免浪费昂贵的超算机时,成倍地提高超算系统的计算效益。

 

 


浙商大新闻

浙商大微博

浙商大微信

  • 分享到

商大要闻

综合新闻

教学科研