Droidrun – 全新开源AI手机管理工具,实现Agent对Android手机的智能操控
Droidrun是什么
Droidrun 是AI手机操作工具,支持 AI Agent像人类一样操作 Android 手机。Droidrun由运行在电脑或云端的 LLM 智能体和安装在手机上的 DroidRun Portal App 组成,结合视觉解析、UI 提取和 LLM 推理,实现复杂任务自动化。Droidrun支持用户基于简单的自然语言命令完成应用启动、UI 操作等任务。Droidrun 支持 OpenAI、Anthropic、Gemini 等多种 LLM 提供商,提供 Python API 用在自定义自动化。Droidrun 为构建强大的 AI 助手和实现复杂任务自动化提供新的可能。

Droidrun的主要功能
- 视觉 + UI 解析:结合视觉模型(识别屏幕内容)和 UI 结构提取(解析控件树),实现精准交互。
- 智能自愈机制:智能检测错误(如网络中断、界面变化),自动调整操作路径,确保自动化流程的稳健性。
- 自然语言控制:用户基于自然语言指令直接控制 Android 设备,例如打开应用、发送消息等。
- 多 LLM 支持:支持多种大型语言模型(LLM)提供商,如 OpenAI、Anthropic、Gemini 等,用户根据需要选择不同的模型。
- 极简命令行操作:提供易于使用的命令行界面,方便用户快速部署和执行自动化任务。
- 丰富的扩展能力:提供可扩展的 Python API,用户能自定义自动化脚本,满足个性化需求。
- 自动化测试支持:执行固定 UI 流程并验证是否成功,适用于测试工程师的自动化测试场景。
Droidrun的技术原理
- 自然语言处理(NLP):基于大型语言模型(LLM)解析用户的自然语言指令。模型理解用户的意图,生成相应的操作序列。
- 视觉解析:基于截图功能获取手机屏幕的图像,用视觉模型(如 OCR 技术)解析屏幕上的文字和控件。让 LLM 能够“看到”手机界面,更准确地理解当前的上下文并生成正确的操作指令。
- UI 结构提取:基于 Android 的 Accessibility Service API 提取屏幕的 UI 结构信息。分析 AccessibilityNode 信息,DroidRun 能识别屏幕上的按钮、输入框等控件,实现精准的操作。
- 操作指令生成:LLM 根据解析的自然语言指令和屏幕上下文信息,生成具体的操作指令序列
- DroidRun Portal App:安装在 Android 手机上的 DroidRun Portal App 负责接收来自电脑或云端的指令,基于 ADB 或 Wi-Fi 将指令转换为实际的手机操作。
Droidrun的官网地址
- 官网地址:droidrun.ai
- GitHub仓库:https://github.com/droidrun/droidrun
Droidrun的应用场景
- AI手机助手:让AI像人一样操作手机,完成各种操作。
- 跨应用数据交互:实现不同应用间的数据传递和任务流转。
- 自动化任务执行:自动完成订车、录视频等复杂任务。
- 数据提取与录入:高效提取和录入应用中的数据。
- 多设备协同控制:支持多设备批量操作和任务分配
发表评论