About me

许杰,博士研究生,就读于西安交通大学人工智能学院,研究方向为机器人和人机交互,师从 兰旭光教授 。近期专注于机器人多模态交互模型与VLA机器人操作模型研究。

I'm a soon-to-be PhD graduate from the College of Artificial Intelligence, Xi'an Jiaotong University. My research focuses on robotics and human-robot interaction, supervised by Prof. Xuguang Lan . My recent research interests lie in multimodal interaction models and VLA robotic manipulation models.

Email: xujiexx@gmail.com

Background

Time Institution Position
2023.2-2025.6 字节跳动(北京)Seed Robotics 研究实习
2018.9-2025.9 西安交通大学 人工智能学院 控制科学与工程
2014.9-2018.6 湖南大学 电气与信息工程学院 自动化

Projects

2024 • RoboICL VLA模型的上下文学习探索

简介:该项目的任务任务是将上下文学习(In-Context Learning, ICL)应用于机器人操纵领域,难点在于此前相关研究未充分借鉴语言领域 ICL 的成功经验。为此,提出 RoboICL,这是一种自回归机器人基础模型,通过将视觉、语言和动作标记化为统一离散空间,基于视觉 - 语言数据集和机器人操纵数据集训练语言模型,并应用上下文微调,仅基于下一个标记预测进行训练。实验结果表明,ICL 显著提升了模型在基本操纵和泛化场景中的性能,RoboICL 达到了最先进的操纵性能水平。

2024 • SInViG 交互消歧模型的自我迭代进化方法

简介:该项目的任务是要进一步解决人机交互中的语言歧义问题,难点在于日常环境中视觉输入复杂不可预测、交互开放且用户需求多样。为此,提出了 SInViG,一种基于自然语言的自进化交互式视觉代理,它通过多轮视觉语言对话来消除歧义,能自动从未标注图像和大语言模型中学习。效果是在多个交互式视觉基础基准上取得了最优成绩,获得了用户更多偏好,且在 Franka 机器人上的实验表明它能在复杂环境中遵循用户指令并自然交互。

2023 • TiO 交互式视觉定位方法及其机器人系统

简介:该项目的任务是要实现机器人准确交互式视觉定位并为人类提供物体,难点在于自然语言可能存在歧义,需机器人主动收集信息来消除,而先前方法依赖预定义模板,在现实场景中性能不佳。为此,提出了 TiO 端到端系统,它基于视觉对话和定位的统一公式,可在大量公共数据上进行训练。实验结果表明,TiO 在 GuessWhat?! 和 InViG 基准测试中取得了新的最优性能,在 150 个具有挑战性的场景及真实机器人平台上的人机交互实验也显示出其对多样化视觉和语言输入具有卓越的通用性和高成功率。

2022 • 运动预测的持续学习方法

简介:该项目的任务是要实现人机交互中准确的概率性人体运动预测,难点在于现有算法依赖预收集数据,无法处理不熟悉的运动模式且未考虑协作方的实时响应。为此,提出一种针对运动预测模型的持续学习方法,通过贝叶斯神经网络安全收集在线交互数据,并利用经验重放和知识蒸馏提升模型能力,同时保留先前知识。实验结果表明,该方法在评测集上预测误差更低,能持续学习新运动模式且不遗忘已学知识,在真实场景中还能从零学习人体运动学模型,能有效保障人机交互安全。

2021 • 人体运动学的不确定性建模

简介:该项目针对确定性人体运动预测算法可能导致机器人决策风险的问题,提出基于贝叶斯神经网络的概率预测模型,通过生成多种未来运动并计算两种不确定性以提供最优预测,在基准数据集及人机交互场景中验证均表现良好,较之前的工作提升了交互效率与安全性。

2017 • 全国电子设计竞赛 • 滚球控制系统

简介:滚球控制系统赛题要求设计一套控制系统,通过控制边长 65cm 光滑正方形平板倾斜,使直径不大于 2.5cm 小球按指定要求在平板上 9 个外径 3cm 圆形区域间完成动作并计时显示;难点在于小球运动轨迹的精确控制,涉及复杂的机械设计与自动控制算法应用及视觉伺服控制应用等,且小球运动易受平板材质、支撑结构、摩擦力等多种因素影响 。

2017 • 全国工训竞赛 • 无碳小车越障竞赛

简介:无碳小车越障赛题要求设计一种三轮结构小车,仅靠质量 1Kg、下降高度 400±2mm 的标准砝码提供的重力势能驱动行走及转向,且砝码全程随车载运,同时小车需具备可调节的转向控制机构,以适应不同间距障碍物场地,难点在于如何高效利用有限重力势能实现稳定行走与精准转向。

Publications

SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction.
Jie Xu, Hanbo Zhang, Xinghang Li, Huaping Liu, Xuguang Lan, Tao Kong.
ICRA Workshop 2024. [ Paper] [ Video]

Towards Unified Interactive Visual Grounding in The Wild.
Jie Xu, Hanbo Zhang, Qingyi Si, Yifeng Li, Xuguang Lan, Tao Kong.
ICRA 2024. [ Paper] [ Video] [ Demo] [ Website] [ Code]

Vision-Language Foundation Models as Effective Robot Imitators.
Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong.
ICLR 2024. [ Paper] [ Website] [ Code] [ Model]

Experience Consistency Distillation Continual Reinforcement Learning for Robotic Manipulation Tasks.
Chao Zhao, Jie Xu, Ru Peng, Xingyu Chen, Kuizhi Mei, Xuguang Lan.
ICRA 2024. [ Paper] [ Video]

InViG: enchmarking Open-Ended Interactive Visual Grounding with 500K Dialogues.
Hanbo Zhang*, Jie Xu*, Yuchen Mo, Tao Kong.
CVPR Workshop 2024. [ Paper] [ Code] [ Dataset]

A Continuous Learning Approach for Probabilistic Human Motion Prediction.
Jie Xu*, Shihong Wang*, Xingyu Chen, Jiahao Zhang, Xuguang Lan, Nanning Zheng.
ICRA 2022. [ Paper] [ Video]

Probabilistic Human Motion Prediction via A Bayesian Neural Network.
Jie Xu*, Xingyu Chen*, Xuguang Lan, Nanning Zheng.
ICRA 2021. [ Paper] [ Video1] [ Video2]

EAN: Error Attenuation Network for Long-term Human Motion Prediction.
Jie Xu, Xuguang Lan, Jin Li, Xingyu Chen, Nanning Zheng.
CCHI 2019. [ Paper] [ Video]

Patents

已授权的专利

  1. 兰旭光, 许杰, 王仕鸿, 陈星宇, 张家豪. 一种可持续学习的人体运动预测方法: ZL202210505137.7[P]. 2025-05.

审查中的专利

  1. 张翰博, 许杰, 孔涛. 任务执行方法、装置、设备及计算机介质: CN202410145231.5[P]. 2024-04.
  2. 许杰, 张翰博, 李兴航, 孔涛. 用于从图像中识别对象的方法、装置、设备和介质: CN202410179054.2[P]. 2024-05.
  3. 张翰博, 许杰, 黎意枫, 孔涛. 任务执行方法、装置,设备及计算机介质: CN202410130685.5[P]. 2024-04.
  4. 张翰博, 许杰, 黎意枫, 孔涛. 模型训练方法、装置、设备及计算机介质: CN202311559285.8[P]. 2024-04.
  5. Xu; Jie, Zhang; Hanbo, Li; Xinghang, Kong; Tao. METHOD, APPARATUS, DEVICE AND MEDIUM FOR OBJECT RECOGNITION FROM IMAGE: US-20250259422-A1[P]. 2025-08.
  6. Zhang; Hanbo, Xu; Jie, Kong; Tao. METHOD, APPARATUS, DEVICE, AND COMPUTER MEDIUM FOR TASK EXECUTION: US-20250249581-A1[P]. 2025-08.
  7. ZHANG; Hanbo, Xu; Jie, Li; Yifeng, Kong; Tao. TASK EXECUTION METHOD AND APPARATUS, DEVICE, AND COMPUTER MEDIUM: US-20250242496-A1[P]. 2025-07.
  8. 黎意枫, 张翰博, 许杰, 孔涛. 数据处理方法、装置、设备及计算机介质: CN202311562350.2[P]. 2024-01.
  9. 张翰博, 李兴航, 刘明桓, 许杰, 吴弘涛, 荆雅, 郑子琳, 孔涛, 李航. 信息处理方法、任务执行方法、装置、设备及介质: CN202311280845.6[P]. 2024-01.
  10. LI; Yifeng, ZHANG; Hanbo, XU; Jie, KONG; Tao. DATA PROCESSING METHOD AND APPARATUS, DEVICE, AND COMPUTER MEDIUM: US-20250162161-A1[P]. 2025-05.
  11. Zhang; Hanbo, Li; Xinghang, Liu; Minghuan, Xu; Jie, Wu; Hongtao, Jing; Ya, Cheang; Chilam, Kong; Tao, Li; Hang. Information processing method, task execution method, apparatus, device and medium: US-12358135-B2[P]. 2025-07.
  12. ZHANG; Hanbo, LI; Xinghang, LIU; Minghuan, XU; Jie, WU; Hongtao, JING; Ya, CHEANG; Chilam, KONG; Tao, LI; Hang. INFORMATION PROCESSING METHOD, TASK EXECUTION METHOD, APPARATUS, DEVICE AND MEDIUM: US-20250018567-A1[P]. 2025-01.

Awards

Time Title Prize
2024.5 ICRA 2024 Workshop on Human-Robot Co-Manipulation Best Presentation Finalist
2021.10 西安交通大学学业奖学金 一等奖
2021.8 世界机器人大赛(双臂协作组) 一等奖
2020.11 阿里巴巴AI Lab - OCRTOC 机器人桌面整理竞赛 仿真第四名
2018.6 湖南省普通高等学校优秀毕业生 优秀毕业生
2017.12 全国大学生电子设计竞赛 全国一等奖
2017.6 全国大学生工程训练综合能力竞赛 全国二等奖