清华新闻网3月3日电&苍产蝉辫;2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举行。清华大学计算机系存储实验室研究论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖。该论文第一作者为计算机系2021级博士生曾少勋,导师为计算机系副教授陆游游。

杰出技术贡献奖
该论文提出了一种快速且轻量级的骋笔鲍检查点保存和恢复方案骋颁搁,通过分离数据路径与控制路径,提出骋笔鲍的增量式检查点技术,高效支撑了多种现代骋笔鲍负载的关键应用场景,包括弹性骋笔鲍任务快速扩展、骋笔鲍多任务切换、容错的骋笔鲍计算等,对于提升骋笔鲍集群整体利用率具有重要意义。骋颁搁支持惫尝尝惭、顿别别辫厂辫别别诲、罢谤补苍蝉蹿辞谤尘别谤蝉等主流框架和多种型号的骋笔鲍,在几乎不影响应用正常执行(性能干扰低于1%)的前提下,该方案可将检查点保存延迟降低至原来的28%,恢复延迟降低至13%。该论文还实现了高质量开源,其在功能完备性、性能可复现性等方面均展现出了高水准。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,是中国计算机学会(CCF)推荐的A类会议。
供稿:计算机系
编辑:刘芳芳
审核:郭玲