视觉上下文
授予视觉上下文权限,让助手能够直接感知、分析并交互当前屏幕上的 UI 元素。
即使未启用该工具,在聊天窗口发送消息时若附件中包含视觉元素,Everywhere 也会尝试获取视觉上下文。该工具主要提供额外的截图和操作功能。
功能
| 功能 | 描述 | 权限 |
|---|---|---|
| 列出窗口 | 列出屏幕上的所有窗口 | 读取屏幕 |
| 截图 UI 元素 | 截取视觉元素的截图 | 读取屏幕 |
| 读取视觉树 | 读取屏幕上窗口或元素的视觉树 | 读取屏幕 |
| 自动化操作 | 执行一组自动化操作,如点击、输入或发送快捷键 | 访问屏幕 |
注意
自动化操作
“自动化操作”功能为实验性,可能无法达到预期效果,请谨慎使用。
自动化操作的功能由大模型自行把握是否执行。通常情况下,模型可能不愿意执行此类动作,且执行效果有时可能不尽人意。
软件兼容性
由于通过 UI 自动化获取视觉上下文,部分不支持无障碍特性的软件(如微信)将无法获取内容。此外,诸如游戏之类的应用也不可用。
实时性
视觉上下文的获取类似于快照而不是实时的,所以类似 YouTube 字幕翻译是做不到的。
这篇文档对您有帮助吗?
最后更新于