微信扫码
添加专属顾问
我要投稿
Rokid Glasses创新交互方案解析:如何用头部动作和触控板实现智能眼镜的精准控制。 核心内容: 1. 基于3DOF的头部动作识别实现信息定位与选择 2. 触控板基础操作与场景化应用的交互设计 3. 用户自定义场景模块的灵活配置方案
上一篇主要絮叨的是显示部分可能的优化方案,我将其汇总为下图,这次接着唠一下glasses上的交互可能的“形态”是啥样。
在目前各家光波导显示的方案中,显示区域均在视线的中下位置,这也比较符合人的视觉习惯。如果设备开启了3DOF能力,在正常的生活中左右8°外加上下5°的头部移动一般是比较自然和舒适的,那显示信息可以扫过的区域大概可以参考下图。
由于目前光波导的视场角不大,实际效果在正视的时候将不会显示视区外的信息,如果微转头,信息将会显示在指定角度,这从一定程度上解决了用户信息过载的情况。
信息显示在“固定”的位置了,那如何与它交互?
由于目前的glasses是轻量化设计,不能像vision pro那样增加眼动传感器来追踪用户视觉焦点,因此可以利用3Dof的显示锁定能力,识别用户的头部运动,简化识别方式后预计可以有9个可以识别的区域。
例如:想要看到这个场景设置的日历控件,需要微转头让波导显示区扫到该位置上,此时由于MCU已经识别头部动作,从而显示日历信息,在显示信息的同时也意味着用户“待选中”该应用。
使用头部移动可以看到信息同时做到指向,还需要再进行触发才能选中,此时可以利用眼镜本身的触控板实现应用的选中,单击选中之后表示用户需要对该应用进行下一步操作(比如可以滑动触控板进行翻页)。
当然用手点击眼镜触控板是一个比较繁琐的动作,最佳的触发位置还是手部。目前也看到了很多其他穿戴方案,比如戒指和肌电手环,随着这些硬件的逐步成熟,为了的交互操作也将更为方便。
在目前的触控板操作上对于“单击”、“双击”、“长按”和“滑动”是比较完善的基础动作识别,这些基础操作可以配合“选中”应用的状态进行合理叠加,从而实现更好的应用交互,例如下图的天气显示。
天气预报数据接口一般会支持24小时小时预报和14天日预报,由于尺寸限制需要进行翻页或者滚动操作,这时可以在选中状态下滑动来实现翻页滚动,小时预报和日预报的切换也可以通过在选中状态下长按来去实现。
为了满足用户具体场景的显示需求,可以在App中增加“场景模块”,让用户可以自行创建自己需要的常亮显示信息,例如下图:
用户进入场景模块后,可以自行创建所需的场景,也可以对已有的“系统”场景进行调整,信息调整完成之后将设置信息同步到眼镜端。对一个新场景或已有场景进行编辑时,点击之后便会进入场景编辑模式(如下图)。由于眼镜在3Dof模式下可以比较清晰的识别抬头低头和左右转头这两组动作,因此可以对如下这9个区域进行显示设置,点击显示区后,该区域会变色提示选中,此时可以点击右侧“应用组件”来选取需要显示的信息了。
在“应用组件”列表中是以应用维度来显示,这其中的应用有系统应用,未来也会有第三方应用,点击后进入应用的组件列表。一个应用可以有多个组件供用户使用,应用开发者可以为不同的场景来设计不同大小(比如通知简化显示和通知全文显示)、不同样式、不同交互效果的组件(用户选中之后,长按、滑动有什么操作)。
选中一个组件后,之前选定的区域就会显示组件的示例在该区域(如下图),由于通过头部动作可以识别9个方位,为了之后可以和应用进行交互,因此需要限制每一个区域只能选择一个组件,从而也就限定了每个区域只有一个应用。
由于不同用户所处环境的不同(比如驾车时车辆的座舱,办公区工位等),在选中组件后还可以对显示的位置进行微调(如下图),使其可以在一定的角度实现上下左右移动,从而避让某些固定区域(比如工位电脑屏幕,车辆座舱中的仪表盘和方向盘)。
以上是对glasses的基础交互进行的一些设想,在思考过程中也有了一些其他的感触,比如如何实现语音交互.....,如何让眼镜成为AI入口.....,这些会在下篇长文中继续聊聊。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-09
多智能体自主规划模式性能提升:五大精准策略详解
2025-09-09
nano banana 文生图模型有哪些具体的应用场景?
2025-09-09
Claude Code:极简架构 + 万字提示词 = 最强开发者智能体?
2025-09-09
测试用例还能自动跑?揭秘 AI 测试平台的新功能
2025-09-09
20个进入实用阶段的AI应用场景(设备工程业篇)
2025-09-09
听得清,识得准,语音识别模型Qwen3-ASR-Flash来了!
2025-09-09
Qwen3新成员:阿里发布语音识别模型Qwen3-ASR,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
2025-09-08
告别服务中断焦虑!LongCat API 开放平台为开发者保驾护航
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-06-15
2025-07-29
2025-08-19
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07
2025-09-06
2025-09-03
2025-09-03