微信扫码
添加专属顾问
我要投稿
AI感知技术正突破视觉局限,声波与毫米波开启全新交互时代。 核心内容: 1. 无线感知技术如何重塑AI理解物理世界的方式 2. 张进教授分享多模态感知技术的落地挑战与突破 3. 南方科技大学在AI研究领域的创新实践与成长故事
从视觉之外出发,声波与毫米波正在重塑 AI 理解物理世界的方式。
作者丨郑佳美
编辑丨岑峰
这几年,随着人工智能逐步走出实验室,进入真实世界,感知问题重新回到技术讨论的中心。
从自动驾驶、智能终端,到空间智能和具身智能,系统不再只是理解信息,而是必须在复杂、动态的物理环境中持续获取可靠信号。现实应用中,单一依赖视觉的感知方式正不断暴露出局限,也由此促使学术界和产业界重新审视多模态感知在下一阶段智能系统中的位置。
在这样的背景下,声波、毫米波等无线感知技术逐渐受到关注。这类技术并不以看见为目标,而是通过对物理信号的建模与分析,让设备在不增加额外负担、也更少干扰用户的情况下理解环境与行为。它们距离全面普及仍有距离,但已被视为支撑空间智能与真实世界交互的重要基础。
在 GAIR 2025 期间,南方科技大学副教授张进围绕无线感知、多模态感知以及面向空间智能的新型感知技术展开分享。长期从事相关研究的她,更关注这些技术在真实场景中的可行性与可信性,而不仅仅是实验条件下的效果表现。
在会议现场,AI 科技评论与张进教授围绕无线感知及其在真实世界中的应用展开对话。对话中,相比对技术前景的宏观判断,她更愿意从研究实践出发,讨论感知技术在落地过程中遭遇的限制与挑战,并且了分享自己精彩的个人经历和行业观点。相关内容 AI 科技评论做了不改变原意的编辑整理:
01
AI 科技评论:您从清华到港科大,学术背景非常扎实,为什么最终选择来到南方科技大学任教?
张进:我当时选择南方科技大学,核心原因并不是个人发展的跳槽逻辑,而是我非常清楚一所年轻大学在正确制度和环境下,能够成长到什么程度。香港科技大学本身就是一个非常典型的例子,它成立只有二十多年,但已经能做到世界一流。我在港科大工作过,对这件事有非常直接、切身的认识。
南科大当时正处在一个必须要成长起来的阶段,而且是深圳市明确要重点支持、重点打造的一所大学。我们当时内部有一句很响亮的话:“叫醒南科大学生的不是闹钟,而是中国高校改革的号角。”这并不是一句口号,而是一种真实存在的状态,大家是以一种创业的心态在办大学。
我进入南科大的时候,学校甚至还没有计算机系,是从零开始搭建的。我们找系主任、建学科方向、定培养方案,一步一步把计算机系做起来。到现在为止,计算机系每年大约培养 200 名学生,十年下来接近 2000 人。虽然不能说已经非常强,但至少体系完整、规模稳定,这对一所年轻大学来说并不容易。
AI 科技评论:如果把南科大当成一家创业公司来看,您是否更像创始人型的角色?
张进:某种程度上确实是这样。这种参与感会让你对学校产生完全不同的情感。学生怎么培养、课程怎么设计、学科方向怎么布局,这些都不是既定规则,而是你亲自参与制定的。
我现在不仅是计算机系的副系主任,负责研究生培养和科研工作,同时也是致仁书院的副院长。书院制是南科大非常有特色的一部分。再加上去年我们成功拿到了博士点,整个计算机系从 2014 年开始先做本科培养,再到后来逐步完善研究生培养体系,这一整套结构,都是我们一起搭建起来的。
正因为是从无到有参与建设,这种感情和责任感是非常不一样的。
AI 科技评论:除了学校本身,深圳这座城市对您来说意味着什么?
张进:很多人一提深圳,第一反应是很富裕,但我觉得深圳的优势绝不只是有钱。美国也有钱,硅谷也有钱,但硅谷很多硬件最终还是要回到深圳来做。
深圳真正厉害的地方在于,它拥有非常完整的产业链配套,同时又具备高密度的人才储备和真实存在的市场需求。这三件事叠加在一起,是非常罕见的。
港科大的很多毕业生,最后都会选择来深圳,要么创业,要么做科研。我们希望做的是那种真正能改变世界、并且能和产业紧密结合的研究方向,而深圳正好处在一个高速成长的阶段。在这个阶段进入,而不是等它已经到顶了再进去,会有更大的空间。
02
从通信到无线感知的「自然递进」
AI 科技评论:您的研究方向跨度非常大,最早是从哪里开始的?
张进:我的研究方向确实经历了多次变化。硕士阶段在清华,我做的是 3G/4G 的无线移动通信系统,到港科大读博士后,进入计算机系,研究方向转向无线网络,主要关注 WiFi 多基站之间的协同部署。
后来又进一步做认知无线电,也就是让通信系统具备一定智能,能够自动判断频段占用情况,并进行动态切换。博士毕业之后,我开始尝试把无线信号用于智慧医疗场景。
一开始只是感知数据、传输数据,但很快我意识到,无线信号本身就可以用来感知人的健康状态。这是一个非常重要的转折点。
AI 科技评论:您在智慧医疗方面具体做过哪些探索?
张进:博士毕业后,我在港科大做了几年创业,和深圳市人民医院、深圳市第二人民医院有非常深入的合作。我们一起做了移动健康监测系统,包括网络医院的管理系统,用来管理几万名曾经看过病的患者,同时也做了脑卒中的筛查等工作。
从现在回头看,我们当时做得非常早。像 Fitbit、Jawbone 这些手环产品,当时都还没有出现。也正因为太早,技术条件、产业环境和市场认知都还没准备好,很多事情最终没能真正规模化落地。
这让我意识到,一些真正前沿、周期很长的事情,可能还是更适合回到学术界持续做。
AI 科技评论:您后来是如何系统性地进入感知这一方向的?
张进:回到学术界之后,我并没有放弃对健康和环境感知的关注,而是开始从非视觉的角度重新思考这个问题。 2014 年我到南科大之后,开始系统研究毫米波雷达,到 2018、2019 年左右,又逐步引入声波感知,同时继续推进毫米波方向。
技术路径上,我们从最早的信号处理,逐步引入机器学习、深度学习,再发展到现在的大模型。这是一个非常自然的递进过程。我们这个方向的一个天然优势在于,我们既有扎实的信号处理背景,又有计算机和人工智能的背景,所以能够把物理信号和AI模型很好地结合起来。
03
让设备「看不见」却「懂得更多」
AI 科技评论:那您如何理解声波感知和毫米波感知?能否用通俗的方式解释?
张进:声波感知其实非常直观。你可以把手机、电脑、耳机想象成一只蝙蝠:扬声器发出人耳听不到的声波,声波打到周围环境后反射回来,再由麦克风接收,通过这些反射信号来感知环境和人体状态。
它可以用来检测呼吸、心跳,感知房间布局,识别手势姿态,甚至帮助设备之间判断相对位置关系。最大的好处是,它不需要额外增加新的传感器,成本低、体积小,而且感知能力并不弱。
毫米波感知大家最熟悉的是汽车前面的毫米波雷达,用来检测前方是否有车辆。但在生活场景中,它同样可以用来监测室内是否有人、人数多少、人的位置、心跳状态、是否发生跌倒等。同时它又看不到具体形象,在隐私保护方面比摄像头更友好。
AI 科技评论:您认为大众对感知技术最大的误解是什么?
张进:我觉得感知技术本身并不需要被大众理解。最好的技术,往往是你感觉不到的技术。
就像耳机,你戴上就能连上,这是最好的体验,如果你还得点来点去才能连上,你就会非常不爽。感知技术的核心目标,是让设备在具备环境理解能力之后,自然地完成交互,而不是让用户不断去告诉设备现在发生了什么。
AI 科技评论:在您看来,感知技术在推动 AI 和科学发展中有什么不可替代的作用?
张进:现在大家都在谈“空间智能”,但仅靠视觉、语音和图像是远远不够的。图像很难精确获取距离和真实空间结构,而要真正理解和交互物理世界,必须引入物理感知模态。
人类最早发展的智能并不是语言智能,而是空间智能。智能机器如果要成为真正的智能体,也必须具备对物理空间的理解和交互能力。这时候,声波、毫米波以及其她新型感知模态就变得不可或缺。
04
当感知真正进入现实世界
AI 科技评论:那感知结果是否可信?是否会被攻击?
张进:这是我们近两三年重点关注的问题。尤其是毫米波雷达已经大量应用在汽车上,对安全性的要求极高。如果感知系统被攻击,可能会让车辆看不到真实存在的车,或者凭空看到不存在的障碍物,从而引发严重事故。
因此我们不能假设世界上所有人都是好人。感知系统在信号设计、模型结构和整体系统层面,都必须具备抵御攻击的能力,才能真正做到可信。
AI 科技评论:从开始到现在,您的研究方向跨度这么大,如何看科研中的得与失?
张进:我觉得科研的本质是好奇心。如果你每天都在做已经会的事情,其实是没有太大意义的。方向会随着世界在发生什么、社会需要什么而变化,但科研的内核是不变的,发现问题、理解前沿、解决别人没解决的问题。
我也经常跟学生说,你们找工作的时候,不用只看公司要的技术是不是你博士或硕士期间做过的东西。真正重要的是你有没有系统性分析问题、构建解决方案的能力。一个成功的博士,就应该具备进入任何新领域的能力。
AI 科技评论:那您如何看待“女生不适合学工科”的说法?
张进:我完全不认同这种说法。我不认为女生的逻辑能力比男生差,很多时候是被反复暗示“你不行”,才真的不自信。
在我看来,女生学计算机反而有很多优势:稀缺性高、沟通能力强、共情能力强、更细心、抗挫折能力强、韧性更好。在需要团队协作的大型系统性研究中,这些都是非常重要的能力。
我培养过很多非常优秀的女学生,其中就包括南科大第一个拿到美国教职的本科生。所以女生完全可以、也非常适合选择计算机和硬核理工科。
AI 科技评论:如果让您描述未来三年内的感知世界,您会怎么说?
张进:我觉得感知领域未来一定是高度多样化、碎片化的,不会有一种技术可以解决所有问题。不同场景、不同设备约束、不同需求,会对应不同的技术组合。
但最终目标是一致的:技术要真正落地到产品中,让产品变得足够智能,让用户不需要额外输入信息,设备就能理解物理世界。只要能做到这一点,不管用什么技术手段,都是好的感知技术。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-17
语音交互技术:让你的 AI 助手开始说话
2025-12-17
面向业务落地的AI产品评测体系设计与平台实现
2025-12-17
声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布
2025-12-17
OpenAI 发布 GPT Image 1.5:全面升级
2025-12-16
AI导演来了!UniVA:你的全能视频创作智能体
2025-12-15
万字拆解UI-TARS 2.0,看懂豆包手机背后的核心技术
2025-12-14
秒杀传统 TTS?!Gemini 原生中文 TTS 体验 + 提示词模板
2025-12-14
别被“多模态”骗了:用一本200页的教材,我测出了GPT-5.2和Gemini的物种代差
2025-09-19
2025-11-10
2025-12-06
2025-10-22
2025-10-31
2025-09-25
2025-12-07
2025-11-03
2025-11-19
2025-11-20
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05