我们是北京大学王选计算机研究所(原北京大学计算机科学技术研究所)VDIG (Visual Data Interpreting and Generation) 研究组,导师是王勇涛老师。在目标检测、场景文字检测识别等研究方向上达到国际一流水平,近年来在IJCV、CVPR、AAAI、ICCV、 MM、 ECCV等顶会上有重量级成果发表,如通用目标检测当前最强算法之一“组合主干网络”(CBNet)、当前最流行的“多模态融合3D感知框架”(BEVFusion与RCBEVDet)、第一个面向自动驾驶场景的“多视角重建方法”(DrivingGaussian)、曾获得ICDAR 2017多项场景文字检测竞赛冠军的四边形目标检测算法等。组内学生/实习生曾多次获得国内外CV领域重量级竞赛的冠亚军奖项,如ECCV 2018 无人机航拍视频目标检测竞赛(Vision Meets Drones: A Challenge,task 2 Object Detection In Videos)冠军、CVPR 2018上无人驾驶道路目标检测竞赛(WAD 2018 Challenges,task 2 Road Object Detection)亚军、ICDAR 2017上中文场景文字检测竞赛(RCTW)和英文场景文字检测竞赛(COCO-Text)双项冠军。和国内外知名高校、科研机构有着广泛合作、和国内外AI头部公司(如阿里巴巴、蚂蚁金服)有着长期的项目合作,现阶段与自动驾驶公司有着紧密合作,师生关系融洽,学生、实习生就业与留学去向非常好。1. 计算机视觉感知基础问题,如多模态2D与3D目标检测和分割、开放世界感知(open-world perception)、端到端自动驾驶等;2. 计算机视觉重建与生成问题,如自动驾驶场景的重建与编辑、虚拟场景生成等;3. 深度学习相关的前沿机器学习问题,如自监督学习(self-supervised learning)、终身学习问题(Lifelong Learning)等;4. 神经网络模型架构优化问题,如自动机器学习/神经网络架构搜索(AutoML/NAS)、神经网络模型压缩与量化、模型蒸馏等;5. 神经网络安全相关问题,如通用神经网络黑盒攻击与防御、针对现有生成大模型(例如stable diffusion)的对抗攻击等;6. 主要应用场景为自动驾驶,同时面向教育、金融、出版、智能交通等场景下的视觉感知/文档感知技术、区块链版权保护技术等应用问题。1. 计算机及相关专业、具备扎实的编程和数学基础,良好的英语水平;2. 有足够的自我驱动力、学习能力以及团队合作能力;3. 有深度学习相关研究经历或者基础、熟练使用pytorch等深度学习框架者优先考虑。有意保研北大(25年及以后的保研夏令营)的实习生额外要求(在保研申请材料提交时达到即可):1. 程序设计竞赛获奖(如ACM-ICPC区预赛银牌及以上、CCPC区预赛银牌及以上)或数模竞赛(国赛)国家一等奖或数学竞赛国家一等奖;1. CV和ML领域科研学习方面的指导和培养(包括论文发表),用于深度学习的GPU计算资源;有意者请将个人简历发送到:zwlin@pku.edu.cn,邮件题名为:实习-保研/出国/工作-姓名-学校-专业 (请附上个人简历)。
【轻松参会】为所有CCF收录会议与期刊设立投稿交流群,后台回复会议名/期刊名即可进群。公众号文章会发布近期截稿会议、转投会议推荐、录用率趋势、录用分数分析等重要信息,同时会发布最新的CS/AI招聘招生信息。