HPC CHINA 2019:第三届超大规模科学计算可视分析论坛圆满落幕

2019-09-03 15:18:32 作者:佚名 出处 : 厂商稿

近日,以“计算 见智 赢未来”为主题的第十五届CCF全国高性能计算学术年会(HPC China2019)在内蒙古呼和浩特召开。大会由中国计算机学会主办,中国计算机学会高性能计算专业委员会、内蒙古和林格尔新区管理委员会、清华大学和内蒙古大学共同承办,北京并行科技股份有限公司协办。

作为中国一年一度高性能计算领域的学术年会,本届大会由大会特邀报告、主题论坛、专题论坛、公益比赛、技能培训、展览展示、人才招聘等部分组成。不仅展现了高性能计算领域突出的行业应用,还将学术、技术、产业三方能量聚合,已发展成为学术界、企业界最富影响力的专业技术学术大会。为HPC领域的专家学者、科研人员、企业高管等行业各界人才搭建了一个互相学习交流、分享经验成果、极具权威性和影响力的学术交流平台。
在高性能计算的支撑下,科学与工程计算产生的数据规模越来越大,其中蕴含的物理现象和规律越来越复杂。 Tableau作为企业数据分析平台,其大中华区总裁叶松林就当前数据激增现象曾公开指出:“随着所需处理数据量的不断增加,企业面临筛选并充分利用海量数据的挑战。这其中数据可视化的作用愈加重要——通过数据可视化,海量数据可被简化,以便决策者可以快速查看了解数据集之间的关系并理解新的概念和模式,为决策者提供有价值的商业洞察。”

在此背景下,8月24日上午,第三届超大规模科学计算可视分析论坛作为HPC China2019的专题论坛,邀请了可视化分析领域、高性能计算等领域的专家学者,从实际需求、硬件支撑、算法研究、软件研制和应用服务等多方面、全方位地研讨实现科学与工程大数据高效能分析的可行途径和方法,共同推动高性能科学计算的进步和发展。
首先,北京应用物理与计算数学研究所,中国工程物理研究院高性能数值模拟软件中心研究员肖丽为论坛进行了开场致辞。作为从事高性能科学计算可视分析算法研究和软件研制的第一线工作者,肖丽介绍了TeraVAP平台的相关研制工作,该平台支持海量科学计算大数据的高效分析、推广应用于核能开发、水利水电等领域。
 
接下来国防科技大学副研究员王文珂带来主题为《基于信息论的流线分布方法》的报告。在报告中提出了一种同时考虑矢量场方向和大小信息的流线分布方法。该方法得到的流线可视化效果不仅可以保留矢量场的主要特征,而且可以反应矢量大小的变化情况。
 
中山大学数据科学与计算机学院、国家超级计算广州中心副教授陶钧带来《流可视探索》的主题报告。报告以陶钧教授近期的两个工作为例说明可视探索方法在理解流场数据中的应用。
首先给现场观众抛出了“为什么需要交互方法”的问题,并从探索数据、满足差异化需求以及充分结合计算机与人的优势三个方面进行详细解读。随后在介绍原始空间交互方法的典型例子sketch-based和抽象空间交互方法的典型例子graph-based的过程中,陶钧深度解读了流场可视探索方法在可视化中引入用户交互,充分利用用户的领域知识可以从两个方面应对当前科学模拟计算规模大、复杂度高等挑战:其一,允许领域专家在观察数据的过程中通过互动将数据化繁为简,从大规模复杂数据中发觉关键特征间的内在联系;其二,允许用户通过交互定制可视化效果,从而传达符合其需要的特定信息。
 
中国空气动力研究与发展中心计算空气动力研究所助理研究员王岳青报告的主题为《深度学习在大规模流场数据分析中的应用》。报告围绕新兴机器技术,从卷积神经网络、分割网络、无监督聚类、U-Net和弱监督学习等五个方面,介绍涡特征提取与深度学习结合的一些新思路,为研究人员提供涡提取算法。
首先他先介绍了流场可视化的概念,作为计算流体的力学(CFD)的科学计算可视化技术,是现今科学计算可视化研究和CFD研究的一个重要组成部分。在流体力学、天气预报、轰炸数据模拟当中都有广泛的应用。接着王岳青讲述了涡的定义,它是一种常见且复杂的流动现象,广泛存在于运动流体之中,并在许多工程问题中扮演着重要角色。随着高性能计算技术的迅速发展,催生了海量复杂流场数据。因此准确提取和可视化涡特征结构对理解复杂流场潜在物理规律和机理非常重要。近年来,随着深度学习方法在图像识别领域取得的突破性进展,基于深度神经网络的特征学习已成为图像目标监测的主流。
 
北京应用物理与计算数学研究所副研究员艾志玮报告的主题为《面向E级数值模拟计算的原位可视化技术》。随着模拟程序的高效、高置信度要求的不断提高,并行计算机的I/O性能制约了传统后处理可视分析手段对超大规模数据的可视分析。
艾志玮认为,为了满足实时、高效科学计算可视与分析的要求,采用基于组件的软件工程模式,能够实现原位可视化与仿真程序的紧耦合;解决原位可视化的数据访问、数据负载平衡和预定义的可视分析模式等关键技术问题,满足超大规模数值模拟数据的高效可视分析需求;还能对原位可视化的性能进行精确评估。该技术目前应用于多个模拟程序数据的可视分析。
 
浙江大学计算机学院CAD&CG国家重点实验室副教授陶煜波报告的主题为《多变量数据关联分析》。在报告伊始,陶煜波教授阐述了多变量空间数据可视化目的是分析和表达数据场中多个变量及相互关系,能够帮助用户直接理解复杂空间数据中的多变量时空演化规律。而多变量空间数据的关联分析主要基于体素、变量、数值以及特征的相关性分析,包括全局、局部,静态或动态。仿真模型日益复杂,关联关系更多地体现在属性子集和局部空间上。基于此,陶煜波又介绍了针对局部相关性的分析和可视化方法、提取空间特征或特征子空间,并从属性、特征和数值多个角度,分析多变量科学数据中蕴含的相关性。
 
中国科学院计算机网络信息中心高级工程师刘俊带来主题为《大规模生物电镜数据可视化浏览及分析》的报告。介绍了三位冷冻电镜作为一种近原子分辨率的生物大分子结构分析工具,在结构生物学研究方面发挥着重要作用。
随着电子探测器分辨率的提升,以及样品制备方法及三维重建并行计算方法的改进,电镜数据在数量及体量上不断刷新记录,达到了前所未有的规模。针对电镜密度图数据以及EBI建立的电镜数据银行EMDB等多个科学领域的可视化分析需求,刘俊介绍道,中国科学院计算机网络信息中心联合中科院生物物理研究所相关课题组构建了一系列可视化及可视分析平台,如用于EM密度图本地可视化及分析的VAT4M、EM密度图远程可视化的VizEMEC以及EMDB可视化搜索的VASEM等科学数据可视化工具,并发布上线为科研工作人员提供在线服务,为大规模电镜数据发布及分享提供了有效的服务平台。
 
国家超级计算天津中心应用研发部郑刚带来主题为《基于超级计算环境的可视化环境探索》的报告。郑刚表示,国家超级计算天津中心的宗旨是为国家科技创新服务,简单概括为算天、算地、算人。“天”包括天气预报、气候研究、空气污染预测预警、宇宙天文研究、国产大飞机研究设计等;“地”包括石油和天然气勘探、地下油藏分析、地下矿产勘探、地震成因研究和地震预报、地质演化等;“人”包括人类基因科学和工程、研究新药、人脑科学研究等。
郑刚进一步介绍道,基于超级计算的可视化需求,中心设计了超算平台+云平台的统一服务平台架构,将云平台中的远程可视化加速计算、资源的动态调配技术与HPC的高性能算力相结合。通过应用封装技术,图形远程加速传输技术,统一共享存储系统机构以及应用动态扩展技术,解决了多用户远程可视化计算和实时相应的需求。借助相关技术,构建了包括HPC云平台、仿真云平台、材料基因组平台、人工智能一体化平台以及建筑BIM+GIS平台,实现了多场景下的可用好用的平台落地。
 
中物院高性能数值模拟软件中心助理研究员张哲带来主题为《一体化数值模拟软件界面快速研发》的报告。目前各高校、科研单位自主研发的数值模拟计算程序,通常不包含图形用户界面,其前处理、后处理也需要使用第三方软件来完成。用户需要在不同软件之间切换来完成完整的数值模拟业务流程。“建模—模拟—分析”三者分离导致数据格式需要来回转换,并且需要频繁做数据迁移,工作效率低。此外,计算程序的输入参数需要依靠用户手工编写输入文件,极易出现编写错误且边界条件等与集合相关的设置颇为困难。
张哲介绍,针对上述现象,中物院高性能数值模拟软件中心对数值模拟软件界面研发中的共性进行凝练,为自主研发的数值模拟计算程序快速配备相应的“前处理--计算--后处理”一体化界面。
 
结语:
本次论坛,揭示了可视化分析领域目前所面临的挑战与机遇。现阶段,科学计算可视分析已经由提高数据与理解效率的手段,转变为不可或缺的手段。科学计算可视分析的成效涉及到实际应用需求,复杂的高性能计算机硬件环境和服务环境等多方因素,已不仅仅是可视化和数据分析领域专家所能单方解决的问题。随着高性能计算、云计算、大数据、人工智能等技术与可视化分析结合的更加紧密,相信未来,科学与工程大数据的结合也将上升到一个新的高度,覆盖到更多领域。