Publications

Shangqing Tu, Zhuoran Pan, Wenxuan Wang, Zhexin Zhang, YuLiang Sun, Jifan Yu, Hongning Wang, Lei Hou, Juanzi Li (2024). Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack. Accepted to KDD 2025.

Shangqing Tu, YuLiang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li (2023). WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models. Accepted to ACL 2024.