周宇

基本信息

姓名：周宇

性别：男

所属部门：计算机科学与技术系

行政职务：无

职称：教授

学历：博士

所学专业：计算机应用技术

办公电话：

电子邮件： yzhou@nankai.edu.cn

研究方向：计算机视觉、多模态人工智能、具身智能、大模型、自然语言处理与深度学习等

个人简介：

周宇，南开大学计算机/密网学院教授、博导；北京中关村学院学院导师；中国图象图形学学会文档图像分析与识别专委会副秘书长、常务委员；中国图象图形学会旗舰英文期刊Visual Intelligence副主编，NeurIPS、ACM MM、IJCAI等会议领域主席或资深程序委员；哈尔滨工业大学计算机系本硕博（导师高文院士、陈熙霖研究员），上海交通大学博士后（导师杨小康教授）；2012.04-2024.08于中科院信工所先后任助研、副研、硕导、博导、研究员。研究方向为计算机视觉、多模态人工智能、具身智能、自然语言处理、大模型及深度学习等，近期聚焦于可视文本处理/检测/识别/理解/安全（OCR）、多模态大模型（含理解与生成）、多模态智能体、终身学习、自监督学习等主题。研发的场景文本提取系统、GUI Agent、特定目标检测系统、钓鱼网站检测系统等应用于多个国家部委及企业，发挥关键作用。在国内外高水平会议及期刊如CVPR/ICCV/ECCV/NeurIPS/ICML/ICLR/IJCV/TMM等发表学术论文100余篇，其中在CCF(THU)-A类/SCI一区会议期刊发表论文70余篇（一作/通作50余篇），获得CCF-A类会议ACM MM 2021最佳论文提名奖（5/1942篇）、ACCV IWRR 2014最佳论文奖。团队核心技术获得ICDAR 2025复杂版面文档图像端到端机器翻译冠军、CSIG 2022票据识别与分析挑战赛冠军、2020年“中国人工智能·多媒体信息识别技术竞赛”手写&印刷文本OCR两项高校组冠军、ICDAR ReST 2023印章主体文字检测第三名等近10项学术竞赛奖项。主持国家重点研发计划课题&子课题、国家自然科学基金面上&青年基金项目、国家部委重大工程课题、中国博士后科学基金、企业委托等项目/课题多项。

详细信息见个人主页：https://intimelab.github.io。

招生：

【博士招生】1) 27年入学博士生：1~2名；2) 校企联培博士生：模式为2年南开+3年企业，欢迎报名；3) 中关村学院博士生：在北京中关村学院参与“具身多模态大模型”及“高效神经网络架构设计”两个项目，每周在中关村学院线下工作1~2天，与每位同学至少讨论1次，欢迎对中关村学院感兴趣的同学联系交流；
【硕士招生】1) 27年入学硕士生：1~2名，若密码专项可招推免生则2~3名；2) 东北师大联培硕士生：每年在东北师大招生少量硕士生，若能力匹配，可来南开线下培养；
【本科实习】欢迎本科生入组实习，但受限于算力瓶颈，每年只能少量接收，如果你自己可以租赁算力，我们可以合作。
招生详细信息见：https://intimelab.github.io/stu。

近期部分论文：

文档智能 具身智能 多模态智能 持续与开放学习 自监督学习 其他工作

2026

G Li, P Lyu, C Zhang, H Shen, L Wu, X Wan, G Zeng, H Hu, C Ma, Y Zhou*. "Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training." CVPR, 2026. (CCF-A, PDF)
G Li, C Zhang, Y Liang, H Shen, Y Zhang, P Lyu, W Wang, X Wan, G Zeng, H Hu, C Ma, Y Zhou*. "MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition–Perception–Reasoning Guided Text-Image Machine Translation." CVPR, 2026. (CCF-A, PDF)
Y Liu, H Shen, Y Liu, S Liu, Z Chen, Y Zhou*. "DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding." CVPR, 2026. (CCF-A, PDF)
Z Chen, F Zhao, Y Shu, Y Liu, Y Liu, Y Zhou*. "StyleTextGen: Style-Conditioned Multilingual Scene Text Generation." CVPR, 2026. (CCF-A, PDF)
Y Zeng, H Wang, M Liu, Y Zhou, C Gao, K Chen, G Huang. "Semantic Audio-Visual Navigation in Continuous Environments." CVPR, 2026. (CCF-A, PDF)
A Zhang, D Yang, C Liu, X Hong, C Ma, Y Zhou*. "Orthogonal Knowledge Refreshing for Domain-Incremental Object Detection." ECCV, 2026. (THU-A, PDF)
J Lyu, P Fu, Z Li, S Zhang, J Yang, Y Zhou*, C Ma, Z Luo, J Luan. "UniTranslator: A Unified Multi-modal framework for End-to-end In-Image Machine Translation." ECCV, 2026. (THU-A, PDF)
G Li, S Peng, C Zhang, B Wu, H Feng, W Wang, P Lyu, H Shen, X Wan, Z Tian, H Hu, C Ma, Y Zhou*. "StrucTab: A Structured Optimization Framework for Table Parsing." ECCV, 2026. (THU-A, PDF)
C Yu, Y Liu, D Wu, G Li, Z Chen, Y Zhou*. "Beyond Detection: A Structure-Aware Framework for Scene Text Tracking." ICML, 2026. (CCF-A, PDF)
A Zhang, D Yang, C Liu, X Hong, Y Zhou*. "Focus, Align, and Sustain: Counteracting Gradient Dilution in Incremental Object Detection." ICML, 2026. (CCF-A, PDF)
D Wu, D Yang, S Zhao, C Ma, Y Zhou. "Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach." ICLR, 2026. (CCF-A, PDF)
D Wu, X Zhang, D Yang, J Yao, L Chen, Q Liu, S Zhao, C Ma, Y Kang, Y Zhou*. "Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning." ICLR, 2026. (CCF-A, PDF)
S Zhao, H Zhang, D Wu, D Huang, W Hong, J Sun, Y Chen, Y Zhou, G Ding. "EmotionReasoner: Emotion-Explanation-Oriented Reinforcement Learning for Explainable Multimodal Emotion Recognition." TAFFC, 2026. (SCI一区, PDF)
J Wei, Y Wu, J Yan, Z Li, Z Zu, Y Zhou, L Zhang, QY Wang. "ST-SAM: Multimodal Scene Text Segmentation with Dense Visual and Sparse Textual Prompts via SAM." AAAI, 2026. (CCF-A, PDF)
Q Ye, W Zeng, M Liu, J Zhang, Y Hu, Z Yu, Y Zhou. "When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?" AAAI, 2026. (CCF-A, PDF)
Q Ye, Y Zhou*, L He, J Zhang, X Guo, J Zhang, M Tan, W Xie, Y Sun, T Tan, X Yuan, G Khoriba, Z Yu. "SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition." AAAI, 2026. (CCF-A, Oral Presentation, PDF)
L He, M Liu, Q Ye, Y Zhou, X Deng, G Ding. "Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement." AAAI, 2026. (CCF-A, PDF)
D Wu, D Yang, H Shen, C Ma, Y Zhou*. "Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition." PR, 2026. (中科院SCI一区, CCF-B, PDF)
D Wu, D Yang, C Ma, Y Zhou*. "EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration." PR, 2026. (中科院SCI一区, CCF-B, PDF)
H Zhang, D Wu, Y Li, K Liu, Y Wang, Y Zhou, S Zhao. "Multimodal Emotion Recognition with Large Language Models ." IJCAI Survey Track, 2026. (PDF)

2025

X Yang, Z Qiao, Y Zhou*. "IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition." IJCV, 2025. (CCF-A, SCI一区, PDF)
Hunyuan Vision Team, P Lyu, X Wan, G Li, S Peng, W Wang, L Wu, H Shen, Y Zhou, C Tang, Q Yang, Q Peng, B Luo, H Yang, X Zhang, J Zhang, H Peng, H Yang, S Xie, L Zhou, G Pei, B Wu, K Wu, J Yang, B Wang, K Liu, J Zhu, J Jiang, Linus, H Hu, C Zhang. "HunyuanOCR Technical Report." 2025. (Github 1.6k stars & 130 forks, PDF)
Y Zhang, C Liu, J Wei, X Yang, Y Zhou*, C Ma, X Ji. "Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition." CVPR, 2025. (CCF-A, PDF)
G Li, H Shen, Y Zhou*. "Beyond Cropped Regions: New Benchmark and Corresponding Baseline for Chinese Scene Text Retrieval in Diverse Layouts." ICML, 2025. (CCF-A, PDF)
D Wu, D Yang, S Zhao, C Ma, Y Zhou*. "An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability." ICML, 2025. (CCF-A, PDF)
Y Shu, H Lin, Y Liu, Y Zhang, G Zeng, Y Li, Y Zhou, SN Lim, H Yang, N Sebe. "When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding." NeurIPS, 2025. (CCF-A, PDF)
T Cao, J Lyu, W Zeng, W Mu, Y Zhou*. "The Devil is in Fine-tuning and Long-tailed Problems: A New Benchmark for Scene Text Detection." IJCAI, 2025. (CCF-A, PDF)
W Li, D Luo, D Yang, Z Li, W Wang, Y Zhou*. "The Role of Video Generation in Enhancing Data-Limited Action Understanding." IJCAI, 2025. (CCF-A, PDF)
J Lyu, W Wang, D Yang, J Zhong, Y Zhou*. "Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance." AAAI, 2025. (CCF-A, PDF)
H Shen, G Li, J Zhong, Y Zhou*. "LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining." AAAI, 2025. (CCF-A, PDF)
Y Zhang, G Zeng, H Shen, D Wu, Y Zhou*, C Ma. "Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues." AAAI, 2025. (CCF-A, PDF)
A Zhang, D Yang, C Liu, X Hong, M Shang, Y Zhou. "DCA: Dividing and Conquering Amnesia in Incremental Object Detection." AAAI, 2025. (CCF-A, PDF)
A Zhang, D Yang, C Liu, X Hong, Y Zhou. "Specifying What You Know or Not for Multi-label Class-incremental Learning." AAAI, 2025. (CCF-A, PDF)
F Zhao, W Zeng, Z Li, D Yang, B Li, X Bi, Y Zhou*. "Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion." ACM MM, 2025. (CCF-A, PDF)
Y Zhang, G Zeng, D Wu, H Shen, B Li, Y Zhou, C Ma, X Bi. "Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective." ACM MM, 2025. (CCF-A, PDF)
J Lyu, J Wei, G Zeng, Z Li, E Xie, W Wang, C Ma, Y Zhou*. "TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model." TOMM, 2025. (SCI一区, CCF-B, PDF)

2024

W Zeng, Y Shu, Z Li, D Yang, Y Zhou*. "TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control." NeurIPS, 2024. (CCF-A, Spotlight, PDF)
Y Zhang, C Liu, Y Zhou*, W Wang, Q Ye, X Ji. "Beyond Instance Discrimination: Relation-aware Contrastive Self-supervised Learning." TMM, 2024. (SCI一区, CCF-B, PDF)
G Zeng, Y Zhang, J Wei, D Yang, P Zhang, Y Gao, X Qin, Y Zhou. "Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval." ACM MM, 2024. (CCF-A, PDF)
D Wu, D Yang, Y Zhou, C Ma. "Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs." ACM MM, 2024. (CCF-A, PDF)
D Wu, D Yang, Y Zhou, C Ma. "Robust Multimodal Sentiment Analysis of Image-Text Pairs by Distribution-Based Feature Recovery and Fusion." ACM MM, 2024. (CCF-A, PDF)

2023

B Fang, W Wu, C Liu, Y Zhou*, M Yang, Y Song, F Li, W Wang, X Ji, W Ouyang. "UATVR: Uncertainty-adaptive Text-Video Retrieval." ICCV, 2023. (CCF-A, PDF)
H Shen, X Gao, J Wei, L Qiao, Y Zhou*, Q Li, Z Cheng. "Divide Rows and Conquer Cells: Towards Structure Recognition for Large Tables." IJCAI, 2023. (CCF-A, Oral Presentation, Acceptance Rate 15.0%, PDF)
D Yang, Y Zhou*, X Hong, A Zhang, W Wang. "One-shot Replay: Boosting Incremental Object Detection via Retrospecting One Object." AAAI, 2023. (CCF-A, Oral Presentation, Acceptance Rate 约11.0%, PDF)
X Qin, P Lyu, C Zhang, Y Zhou*, K Yao, P Zhang, H Lin, W Wang. "Towards Robust Real-time Scene Text Detection: From Semantic to Instance Representation Learning." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
Y Shu, W Wang, Y Zhou*, S Liu, A Zhang, D Yang, W Wang. "Perceiving Ambiguity and Semantics without Recognition: An Efficient and Effective Ambiguous Scene Text Detector." ACM MM, 2023. (CCF-A, Oral Presentation, PDF )
G Zeng, Y Zhang, Y Zhou*, B Fang, G Zhao, X Wei, W Wang. "Filling in the Blank: Rationale-augmented Prompt Tuning for TextVQA." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
D Yang, Y Zhou*, X Hong, A Zhang, X Wei, L Zeng, Z Qiao, W Wang. "Pseudo Object Replay and Mining for Incremental Object Detection." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
G Zeng, Y Zhang, Y Zhou*, X Yang, N Jiang, G Zhao, W Wang, XC Yin. "Beyond OCR + VQA: Towards End-to-end Reading and Reasoning for Robust and Accurate TextVQA." PR, 2023. (SCI一区, CCF-B, PDF)
C Liu, Y Yao, D Luo, Y Zhou, Q Ye. "Self-supervised Motion Perception for Spatio-temporal Representation Learning." TNNLS, 2023. (SCI一区, CCF-B, PDF)

2022

B Fang, W Wu, C Liu, Y Zhou*, D He, W Wang. "MaMiCo: Macro-to-micro Semantic Correspondence for Self-supervised Video Representation Learning." ACM MM, 2022. (CCF-A, Oral Presentation, Acceptance Rate 5.0%, PDF)
W Wang, Y Zhou*, J Lv, D Wu, G Zhao, N Jiang, W Wang. "TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text Representation." ACM MM, 2022. (CCF-A, PDF)
J Wei, Y Zhang, Y Zhou*, G Zeng, Z Qiao, Y Guo, H Wu, H Wang, W Wang. "TextBlock: Towards Scene Text Spotting without Fine-grained Detection." ACM MM, 2022. (CCF-A, PDF)
X Chen, Y Zhou, D Wu, W Zhang, Y Zhou, B Li, W Wang. "Imagine by Reasoning: A Reasoning-based Implicit Semantic Data Augmentation for Long-tailed Classification." AAAI, 2022. (CCF-A, PDF)
D Yang, Y Zhou*, A Zhang, X Sun, D Wu, W Wang, Q Ye. "Multi-view Correlation Distillation for Incremental Object Detection." PR, 2022. (SCI一区, CCF-B, PDF)
Y Zhou, X Li, Y Zhou, Y Wang, Q Hu, W Wang. "Deep Collaborative Multi-task Network: A Human Decision Process Inspired Model for Hierarchical Image Classification." PR, 2022. (SCI一区, CCF-B, PDF)
D Yang, Y Zhou*, W Shi, D Wu, W Wang. "RD-IOD: Two-level Residual-distillation-based Triple Network for Incremental Object Detection." TOMM, 2022. (SCI一区, CCF-B, PDF)
D Luo, Y Zhou*, B Fang, Y Zhou, D Wu, W Wang. "Exploring Relations in Untrimmed Videos for Self-supervised Learning." TOMM, 2022. (SCI一区, CCF-B, PDF)

2021

Z Qiao, Y Zhou*, J Wei, W Wang, Y Zhang, N Jiang, H Wang, W Wang. "PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition." ACM MM, 2021. (CCF-A, Best Paper Candidate [5/1942=2.5‰], PDF)
G Zeng, Y Zhang, Y Zhou*, X Yang. "Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA." ACM MM, 2021. (CCF-A, Oral Presentation, Acceptance Rate 9.2%, PDF)
X Li, Y Zhou*, Y Zhang, A Zhang, W Wang, N Jiang, H Wu, W Wang. "Dense Semantic Contrast for Self-supervised Visual Representation Learning." ACM MM, 2021. (CCF-A, Oral Presentation, Acceptance Rate 9.2%, PDF)
X Qin, Y Zhou*, Y Guo, D Wu, Z Tian, N Jiang, H Wang, W Wang. "Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-shaped Scene Text Detection." ACM MM, 2021. (CCF-A, PDF)
W Zhang, D Wu, Y Zhou, B Li, W Wang, D Meng. "Binary Neural Network Hashing for Image Retrieval." SIGIR, 2021. (CCF-A, PDF)

2020

Z Qiao, Y Zhou*, D Yang, Y Zhou, W Wang. "SEED: Semantics Enhanced Encoder-decoder Framework for Scene Text Recognition." CVPR, 2020. (CCF-A, Acceptance Rate 22%, 391 Citations, PDF)
Y Yao, C Liu, D Luo, Y Zhou, Q Ye. "Video Playback Rate Perception for Self-supervised Spatio-temporal Representation Learning." CVPR, 2020. (CCF-A, Acceptance Rate 22%, 225 Citations, PDF)
D Luo, C Liu, Y Zhou*, D Yang, C Ma, Q Ye, W Wang. "Video Cloze Procedure for Self-supervised Spatio-temporal Learning." AAAI, 2020. (CCF-A, Oral Presentation, Acceptance Rate 5.8%, 194 Citations, PDF)
W Zhang, D Wu, Y Zhou, B Li, W Wang, D Meng. "Deep Unsupervised Hybrid-similarity Hadamard Hashing." ACM MM, 2020. (CCF-A, PDF)
S Zhao, D Wu, W Zhang, Y Zhou, B Li, W Wang. "Asymmetric Deep Hashing for Efficient Hash Code Compression." ACM MM, 2020. (CCF-A, PDF)