Weihao Cui - Publications

^* indicates co-first author, ^† indicates corresponding author

Full List of Papers

Preprint Papers

Weihao Cui^*, Yukang Chen^*, Han Zhao^*, Ziyi Xu, Quan Chen, Xusheng Chen, Yangjie Zhou, Shixuan Sun, Minyi Guo. Optimizing SLO-oriented LLM Serving with PD-Multiplexing . arXiv

Weihao Cui^*, Ziyi Xu^*, Han Zhao, Quan Chen, Zijun Li, Bingsheng He, Minyi Guo. Efficient Function-as-a-Service for Large Language Models with TIDAL . arXiv

Weihao Cui^*, Ji Zhang^*, Han Zhao, Chao Liu, Wenhao Zhang, Jian Sha, Quan Chen, Bingsheng He, Minyi Guo. XPUTimer: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale . arXiv

Chunyu Xue, Weihao Cui, Han Zhao, Quan Chen, Shulai Zhang, Pengyu Yang, Jing Yang, Shaobo Li, Minyi Guo. A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters . arXiv

No matching items

Conference Papers

Yangjie Zhou, Wenting Shen, Jingwen Leng, Shuwen Lu, Zihan Liu, Weihao Cui, Zhendong Zhang, Wencong Xiao, Baole Ai, Yong Li, Wei Lin, Deze Zeng, Yun Liang, Quan Chen, Ning Liu, Minyi Guo. Voyager: Input-Adaptive Algebraic Transformations for High-Performance Graph Neural Networks . ( ASPLOS 2026 ). CCF-A
Han Zhao^*, Weihao Cui^*, Zeshen Zhang, Wenhao Zhang, Jiangtong Li, Quan Chen, Pu Pang, Zijun Li, Zhenhua Han, Yuqing Yang, Minyi Guo. LEGO: Supporting LLM-enhanced Games with One Gaming GPU. . ( HPCA 2026 ). CCF-A
Yangjie Zhou, Honglin Zhu, Qian Qiu, Weihao Cui, Zihan Liu, Cong Guo, Siyuan Feng, Jintao Meng, Haidong Lan, Jingwen Leng, Wenxi Zhu, Minwen Deng. A Sample-Free Compilation Framework for Efficient Dynamic Tensor Computation . ( SC 2025 ). CCF-A
Shulai Zhang, Ao Xu, Quan Chen, Han Zhao, Weihao Cui, Zhen Wang, Yan Li, Limin Xiao, Minyi Guo. Efficient Performance-Aware GPU Sharing with Compatibility and Isolation through Kernel Space Interception . ( ATC 2025 ). CCF-A
Shulai Zhang, Quan Chen, Weihao Cui, Han Zhao, Chunyu Xue, Zhen Zhang, Wei Lin, Minyi Guo. Improving GPU Sharing Performance through Adaptive Bubbleless Spatial-Temporal Sharing . ( EuroSys 2025 ). pdf CCF-A
Zihan Liu, Xinhao Luo, Junxian Guo, Wentao Ni, Yangjie Zhou, Yue Guan, Cong Guo, Weihao Cui, Yu Feng, Minyi Guo, Yuhao Zhu, Minjia Zhang, Chen Jin, Jingwen Leng. VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference . ( HPCA 2025 ). CCF-A
Shulai Zhang, Ningxin Zheng, Haibin Lin, Ziheng Jiang, Wenlei Bao, Chengquan Jiang, Qi Hou, Weihao Cui, Size Zheng, Li-Wen Chang, Quan Chen, Xin Liu. Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts . ( MLSys 2025 ).
Jiagan Cheng, Yilong Zhao, Zijun Li, Quan Chen, Weihao Cui, Minyi Guo. Microless: Cost-Efficient Hybrid Deployment of Microservices on IaaS VMs and Serverless . ( ICPADS 2023 ). pdf
Binghao Chen, Han Zhao, Weihao Cui, Yifu He, Shulai Zhang, Quan Chen, Zijun Li, Minyi Guo. Maximizing the Utilization of GPUs Used by Cloud Gaming through Adaptive Co-location with Combo . ( SoCC 2023 ). pdf CCF-B
Weihao Cui, Zhenhua Han, Lingji Ouyang, Yichuan Wang, Ningxin Zheng, Lingxiao Ma, Yuqing Yang, Fan Yang, Jilong Xue, Lili Qiu, Lidong Zhou, Quan Chen, Haisheng Tan, Minyi Guo. Optimizing Dynamic Neural Networks with Brainstorm . ( OSDI 2023 ). pdf CCF-A
Yangjie Zhou, Yaoxu Song, Jingwen Leng, Zihan Liu, Weihao Cui, Zhendong Zhang, Cong Guo, Quan Chen, Li Li, Minyi Guo. AdaptGear: Accelerating GNN Training via Adaptive Subgraph-Level Kernels on GPUs . ( CF 2023 ). pdf
Weihao Cui, Han Zhao, Quan Chen, Hao Wei, Zirui Li, Deze Zeng, Chao Li, Minyi Guo. DVABatch: Diversity-aware Multi-Entry Multi-Exit Batching for Efficient Processing of DNN Services on GPUs . ( ATC 2022 ). pdf CCF-A
Shulai Zhang, Weihao Cui, Quan Chen, Zhengnian Zhang, Yue Guan, Jingwen Leng, Chao Li, Minyi Guo. PAME: Precision-Aware Multi-Exit DNN Serving for Reducing Latencies of Batched Inferences . ( ICS 2022 ). pdf CCF-B
Han Zhao, Weihao Cui, Quan Chen, Youtao Zhang, Yanchao Lu, Chao Li, Jingwen Leng, Minyi Guo. Tacker: Tensor-CUDA Core Kernel Fusion for Improving the GPU Utilization while Ensuring QoS . ( HPCA 2022 ). pdf CCF-A
Weihao Cui, Han Zhao, Quan Chen, Ningxin Zheng, Jingwen Leng, Jieru Zhao, Zhuo Song, Tao Ma, Yong Yang, Chao Li, Minyi Guo. Enable Simultaneous DNN Services Based on Deterministic Operator Overlap and Precise Latency Prediction . ( SC 2021 ). pdf CCF-A
Han Zhao, Weihao Cui , Quan Chen, Jieru Zhao, Jingwen Leng, Minyi Guo. Exploiting Intra-SM Parallelism in GPUs via Persistent and Elastic Blocks . ( ICCD 2021 ). pdf CCF-B
Han Zhao, Weihao Cui, Quan Chen, Jingwen Leng, Kai Yu, Deze Zeng, Chao Li, Minyi Guo. CODA: Improving Resource Utilization by Slimming and Co-locating DNN and CPU Jobs . ( ICDCS 2020 ). pdf CCF-B
Weihao Cui, Mengze Wei, Quan Chen, Xiaoxin Tang, Jingwen Leng, Li Li, Mingyi Guo. Ebird: Elastic Batch for Improving Responsiveness and Throughput of Deep Learning Services . ( ICCD 2019 ). pdf CCF-B
Wei Zhang, Weihao Cui, Kaihua Fu, Quan Chen, Daniel Edward Mawhirter, Bo Wu, Chao Li, Minyi Guo. Laius: Towards Latency Awareness and Improved Utilization of Spatial Multitasking Accelerators in Datacenters . ( ICS 2019 ). pdf CCF-B

Journal Papers

Han Zhao^*, Weihao Cui^*, Quan Chen, Shulai Zhang, Zijun Li, Jingwen Leng, Chao Li, Deze Zeng, Minyi Guo. Towards Fast Setup and High Throughput of GPU Serverless Computing . ( TACO 2025 ). CCF-A
Yifu He, Han Zhao, Weihao Cui, Shulai Zhang, Quan Chen, Minyi Guo. ARACHNE: Optimizing Distributed Parallel Applications with Reduced Inter-Process Communication . ( TACO 2025 ). CCF-A
Pengyu Yang^*, Weihao Cui ^*, Chunyu Xue, Han Zhao, Quan Chen, Jing Yang, Minyi Guo. Taming Flexible Job Packing in Deep Learning Training Clusters . ( TACO 2025 ). CCF-A
Han Zhao, Junxiao Deng, Weihao Cui, Quan Chen, Youtao Zhang, Deze Zeng, Minyi Guo. Adaptive Kernel Fusion for Improving the GPU Utilization while Ensuring QoS . ( TC 2024 ). pdf CCF-A
Cong Guo, Fengchen Xue, Jingwen Leng, Yuxian Qiu, Yue Guan, Weihao Cui, Quan Chen, Minyi Guo. Accelerating Sparse DNNs based on Tiled Gemm . ( TC 2024 ). pdf CCF-A
Han Zhao, Weihao Cui, Quan Chen, Jingwen Leng, Deze Zeng, Minyi Guo. Improving Cluster Utilization through Adaptive Resource Management for DNN and CPU Jobs Co-location . ( TC 2023 ). pdf CCF-A
Han Zhao, Weihao Cui , Quan Chen, Minyi Guo. ISPA: Exploiting Intra-SM Parallelism in GPUs via Fine-grained Resource Management . ( TC 2022 ). pdf CCF-A
Wei Zhang, Quan Chen, Ningxin Zheng, Weihao Cui, Kaihua Fu, Minyi Guo. Toward QoS-Awareness and Improved Utilization of Spatial Multitasking GPUs . ( TC 2021 ). pdf CCF-A
Weihao Cui, Quan Chen, Han Zhao, Mengze Wei, Xiaoxin Tang, and Minyi Guo. E2bird: Enhanced Elastic Batch for Improving Responsiveness and Throughput of Deep Learning Services . ( TPDS 2020 ). pdf CCF-A