SC22:年轻人的第一次故地重游
年轻人的第一次故地重游。
今年是第三次去 SC 了。万幸的是中了论文,可以名正言顺地公款开会;不幸的是去的还是达拉斯,四年前已经去过一次了,于是这次便成了年轻人的第一次故地重游。
今年虽然酒店订得早,但还是订到了两站轻轨之外,给老板省点小钱。四年前来达拉斯的时候没做过轻轨,这次从机场进市区和每日来往会场都是轻轨了。达拉斯的轻轨虽然要买票,但是完全没人查票,轨道两侧也毫无防护。每天早上去会场时看轻轨上乘客的样子,我估计起码三分之二都是不买票的那种。可能因为戴口罩,我并没有闻到轻轨上有什么味道。坐轻轨另一个好处是市区那两个轻轨站附近饭店比较多,不必像去年一样吊死在会场周边。饭店多的另一个坏处是附近的流浪汉也多,有一天晚上路过一个赛百味的时候还被一个流浪汉叫住让我给他去买个三明治。还好他没枪,也没真的拦住我。总体而言,今年吃饭算是吃得比四年前好不少,然而能吃到蔬菜的次数屈指可数,唯一一顿吃到熟的蔬菜是在一家泰国菜馆吃咖喱。啊,一想起 2020 年年初去西雅图 SIAM PP20 能吃三次鼎泰丰,感觉没什么机会能超过这个记录了。
今年讲论文比较幸运,排在了周二下午,早讲完早解脱。我们学校几位做 HPC 的教授都来捧场了;说是唯嘴熟尔,讲的时候还是难免紧张。得益于疫情的冲击,今年 SC22 所有 talk 都有录像了,我可以在事后看一次自己的表现。看录像倒是觉得实际效果比自己感觉的要好。唯一令我有点失望的是我挖了几个留给提问者的坑,一个都没人踩,只能说台下听众除了我老板估计没有人真的完全听明白了我的工作,即使这个题目方向已经可以算得上 HPC 里的老生常谈了。
Jack Dongarra 今年的演讲备受瞩目。Jack 的演讲最后不出所料批判了 TOP500 新的机器,以及猜测了中国的 E 级机。大家其实都知道中国为什么不交榜,Jack 这次直接搬上台面说是政治因素。至于中国机器的具体情况,估计他多少有些了解渠道。至于批评 TOP500 机器,虽然我之前也说 Frontier是个强扭的瓜,MI250X是早熟的无情跑分显卡, 但这次我倒是要替 Frontier 说句好话。Frontier 和 Fugaku 的 HPL / HPCG 性能分别是 1102 PF / 14 PF 和 442 PF / 16 PF, Jack 用 Fugaku 来批评 Frontier 的 HPCG/HPL 比例太低了(3.62% vs. 1.27%)。我算了一下,Frontier 有 9400 个节点,每节点 4 卡,每卡 3.2 TB/s, 合计理论峰值带宽 123 PB/s. Fugaku 158976 个节点,每个节点的 A64FX 1TB/s, 合计理论峰值带宽将近 160 PB/s. 也就是说,Frontier 用 Fugaku 75% 到 80% 左右的理论峰值带宽,跑到了 Fugaku 87.5% 的 HPCG 性能。即使考虑到后者的节点数是前者的显卡数的 4 倍多,我觉得负责 Frontier 上 HPCG 的开发人员也已经尽力了。另一方面,Fugaku 已经 15 万个节点了,超过了 10 万个节点 50% 了,还只有 442 PF. 真要摸到 1EF,怕不是要到 40 万个节点。所以日本人要么放弃用 FP64 摸到 1 EF, 要么就得在新芯片上面多堆一点计算单元了。说到这一点我又看了一下 HPCG 榜单,发现用 MI250X 的机器的 HPCG/HPL 比值普遍在 1.2% 上下浮动。相比之下,用 A100 机器的比值则可以到 2%~2.5%. 就算保守一点,两边比值之差也高达 70%。这里顺带多做一点纸面计算。A100 和 H100 的 FP64 machine balance 大致都在 10, 而 MI250X 则到了 15, A64FX 则只有 3.4. 这么一对比,MI250X 属实是太跑分了。
今年展览区依旧热闹,不过不知为何今年 NV 并没有独立展台,只是和 Oracle & Azure 各有一个合作展区。出发前我还特意准备了代码,打算去找富士通的试用机器蹭他们的编译器,解决 Stream Triad 在 A64FX 上跑不到宣称的 800+GB/s 的问题。结果去到一看今年他们只带了几台笔记本来放 PPT,大失所望。别的厂商我也没怎么看他们的宣传。可能一方面是一回生二回熟三回熟视无睹,另一方面是我手上的问题已经让我焦头烂额,没有多余的心思多点开花了。除了不逛展,今年在会场也没有什么认识的朋友。还是怀念 SC19 能跟丽狼和哈利橙面基的经历啊。今年 SYSU SCC 的小朋友们终于能打 SC SCC 了,这是他们第一次闯进 SC,虽然受困于疫情只能线上参赛。我在赛场的摄像头和 Zoom session 那里和他们云面基时,心里实在是百感交集。看到他们这几年形成一套传承和培养的体系,我坚信以后肯定有机会能在比赛现场看到他们。
展览区逛得少,时间就主要用在了听论文上。今年听的论文数量应该比前两次都要多。学阀老爷 Torsten Hoefler 今年依旧是包揽了十分之一的论文,甚至有一个 session 三篇都是他的论文的情况出现。今年的论文,包括 GB finalist, 颇有文艺复兴的感觉:不仅有两个 matrix computation algorithm sessions, 还有一个 algebra application session; GB finalist 里也几乎没有 AI 为主的工作了。听的论文虽多,留下深刻印象的并不多,Hoefler 组的 Deinsum 算是给我观感比较好的一篇。有些 talk 倒是让我有点意外收获,得知了 NVSHMEM 在最近的两个版本里真的加回了 GPU initiated communication. 以前有论文做过这种事情,但是因为寄存器和其他资源消耗太大效果不好。可能是新的显卡和驱动终于有了足够的资源,可以让 NVSHMEM 直接从 GPU 上操作 IB, 完全绕开 CPU 进行通信. 这就是一家公司软硬件结合的好处啊。有些国内团队的 talk 实在是质量不行,可以对着稿念的都念不好,甚至有些应该是录像的都录得不行。不过讲不好问题倒也不是那么大,起码工作是实打实的。有些论文在我看来几乎毫无价值。有些论文能拿 best paper finalist 是我难以理解的。除了论文,更让我迷惑的是今年的 George Michael Memorial HPC Fellowship, 两位获奖人摆在桌面上的水平差别之大让我感觉被人寸劲开颅了十次甚至九次。看了一圈各种骚操作,感觉顶会光环还是要不得。
今年闭幕晚宴没去成,跟老板去和另外两个教授吃饭了。幸运的是不用在人多的密闭空间里呆几个小时提高染病风险,不幸的是被迫听三个中年男人讲了三个多小时的房地产和办公室政治。颇为意外的是师娘居然和老板一起出来了。师娘是个看上去颇为典雅的白人女性,我完全无法想象为什么师娘会做一堆大红大紫东北农村配色风格的缝纫和剪纸作品,在老板的豪宅里贴得到处都是。每人点一个主菜我是没吃饱的,不过老板和师娘喂狗粮倒是喂了不少。
明年的 SC23 又和三年前一样在丹佛开会,真是一种循环了。希望明年也能公款故地重游吧。
最后放一张最终未使用的论文 PPT 页。