OmniParser V2是微软推出的多模态界面解析引擎,通过将屏幕像素信息转化为结构化语义数据,让DeepSeek等大语言模型(LLM)获得“视觉理解力”,实现从自然语言指令到精准界面操作的无缝衔接。其核心价值在于:用一句话描述任务目标,AI即可自主解析屏幕元素、规划操作路径并执行(如“整理本月销售数据至Excel表”)。
二、部署过程1.软件下载和准备(1)OmniParser下载
官网下载:https://microsoft.github.io/OmniParser/
图片
github下载:https://github.com/microsoft/OmniParser
图片
(2)OmniParser权重文件下载
权重文件较大,用官网的方式下载容易出错,建议下载好使用。https://huggingface.co/microsoft/OmniParser-v2.0/tree/main
图片
(3)Anaconda环境下载
官网给出使用conda命令配置python环境,需要你自己安装Anaconda环境,下载后直接安装就行,注意添加环境变量。注册下载,实在找不到私信我,发你安装包。
下载地址:https://anaconda.org/
2.安装过程安装过程中除了部署环境需要安装下三个工具,分别是omniparserver服务器,omnibox一个docker虚拟机,gradio是一个可视化UI交互工具,用于执行命令并在omnibox中查看结果。
2.1 omniparser服务器图片
步骤一:部署omniparserver服务器,首先新建文件夹OmniParser,将下载的OmniParser文件解压到文件夹中。
图片
步骤二:安装Anaconda软件后,打开Anaconda Prompt命令行,运行命令:
cd OmniParser
conda create -n 'omni' python==3.12
conda activate omni
pip install -r requirements.txt
图片
步骤三:执行命令conda activate omni,激活python环境。
步骤四:下载权重文件,将权重文件下载到OmniPaser中,新建weighs文件夹,这一步官网命令复杂,下载速度慢,所以我下载下来复制到文件夹icon_detect和icon_caption中,将 weights 目录中的 icon_caption 文件夹重命名为 icon_caption_florence,从而完成文件夹名称的更改。
步骤五:运行python gradio_demo.py
步骤六:打开终端输出中的 URL,我的地址是http://0.0.0.0:7861/,能打开说明安装成功。
注意:部署过程中下载文件有些需要用代理或梯子,但是在运行demo时候需要把代理关闭,否则会报网络连接错误。
2.2 OmniBox 安装步骤一: 确保剩余 30GB 的空间,需要至少 30GB 的空闲空间: 5GB 用于 ISO 文件 400MB 用于 Docker 容器 20GB 用于存储文件夹
步骤二:下载并安装 Docker Desktop。
步骤三:下载 Windows 11 Enterprise Evaluation ISO 文件,访问 Microsoft Evaluation Center,接受服务条款,下载 Windows 11 Enterprise Evaluation(90 天试用版,英文,适用于美国地区)ISO 文件(大约 6GB)。将下载的 ISO 文件重命名为 custom.iso 并复制到 OmniParser/omnitool/omnibox/vm/win11iso 目录下。
步骤四:导航到虚拟机管理脚本目录运行命令:cd OmniParser/omnitool/omnibox/scripts
步骤五:构建 Docker 容器并安装 ISO,运行命令:./manage_vm.sh create这个过程将会创建 Docker 容器并将 ISO 文件安装到存储文件夹中(需要约 20GB 空间)。该过程可能需要 20 至 90 分钟,具体取决于下载速度(通常约 60 分钟),完成后,终端会显示“VM server is up and running!”。你可以通过 NoVNC 视图查看 VM 中安装的应用程序,访问链接:http://localhost:8006/vnc.html?view_only=1&autoconnect=1&resize=scale。请注意,终端窗口在设置完成后不会出现在桌面上。如果看到终端窗口,请耐心等待,不要随便点击。
步骤六: 管理 VM,创建第一次后,VM 状态将保存在 vm/win11storage 目录下。之后可以使用以下命令管理 VM: 启动 VM:./manage_vm.sh start 停止 VM:./manage_vm.sh stop 删除 VM:./manage_vm.sh delete 并删除 OmniParser/omnitool/omnibox/vm/win11storage 目录。
2.3 Gradio 安装步骤一:导航到 Gradio 目录运行命令:cd OmniParser/omnitool/gradio
步骤二:激活 Conda Python 环境运行命令:conda activate omni
步骤三:启动服务器运行命令:python app.py --windows_host_url localhost:8006 --omniparser_server_url localhost:8000
步骤四:打开终端输出中的 URL:设置你的 API 密钥并开始使用 AI 代理。这样就完成了 OmniBox 和 Gradio 的安装和配置。你可以通过 NoVNC 查看 VM 中的应用程序,或者在 Gradio 页面中进行交互。
总结下载,这个还是有一定的技术门槛,我部署调试大概花了两天,只是跑通了官方案例,具体实际使用可能后续还得练习,后续会持续更新使用效果。部署过程中如果有文件下载不了可以问我要。
装完发现页面和这个地址是一样的,大家也可以在线先体验一下,看能用习惯不。
https://huggingface.co/spaces/microsoft/OmniParser
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。下一篇:没有了