OpenDia
扫码查看

连接浏览器与AI模型实现自动化操作的开源工具

OpenDia

综合介绍

OpenDia是一个开源工具,它能将你的浏览器与各类AI大模型连接起来。 这款工具的核心优势在于,它能直接利用你浏览器中已经登录的账户、保存的密码、Cookies和浏览历史等信息,让AI模型可以像你本人一样无缝地操作网页。 例如,AI可以使用你已经登录的社交媒体账号发帖,或者访问需要登录才能查看的内容。 OpenDia支持所有基于Chromium的浏览器,如Chrome、Arc和Edge,同时也支持Firefox。 整个程序在用户本地运行,确保了个人数据的私密性和安全性。 用户可以通过简单的指令,让AI完成总结网页内容、管理社交媒体、进行软件测试、自动填写表单等多种自动化任务。

功能列表

  • 连接AI与浏览器: 支持与Claude、ChatGPT、Cursor以及本地运行的AI模型连接,实现通过AI指令控制浏览器。
  • 利用现有会话: 无需重新登录,直接利用浏览器中已有的登录状态(如X/Twitter, LinkedIn, Facebook)进行操作。
  • 访问浏览器数据: AI可以访问和使用你的书签、浏览历史和保存的密码等数据来完成任务。
  • 支持浏览器插件: 能够与浏览器中已安装的钱包插件(如MetaMask)、密码管理器等协同工作。
  • 本地运行保障隐私: 所有自动化操作都在本地计算机上执行,不经过云端服务器处理,保障用户数据隐私。
  • 反检测技术: 包含了针对X/Twitter、LinkedIn等社交媒体平台的特殊优化,可以模仿人类操作行为,避免被网站的反自动化机制发现。
  • 智能页面分析: AI能够自动理解页面布局,识别并定位到按钮、输入框、链接等可交互的元素。
  • 一键启动: 用户在终端通过一条命令即可启动服务,无需复杂的配置过程。
  • 跨浏览器支持: 兼容所有基于Chromium核心的浏览器(如Chrome, Arc, Edge, Brave)和Firefox。
  • 隧道模式: 内置ngrok隧道功能,可以为在线的AI服务(如ChatGPT网页版)提供一个安全的访问通道。

使用帮助

OpenDia的设计思想是让AI模型能够安全、便捷地调用用户当前的浏览器环境,完成各种自动化任务。它的安装和使用流程非常直接,主要分为两步:安装浏览器扩展和连接AI模型。

第一步:安装OpenDia浏览器扩展

OpenDia需要一个浏览器扩展程序来接收和执行来自AI模型的指令。由于它是一个开发者工具,需要通过“开发者模式”手动加载。

  1. 下载扩展文件:
    • 访问OpenDia在GitHub上的官方发布页面。
    • 找到最新的版本,下载名为opendia.dxt.zip的压缩文件,并解压到一个你方便找到的文件夹中。
  2. 在浏览器中加载扩展:
    • 打开你的Chromium浏览器(如Google Chrome)。
    • 在地址栏输入 chrome://extensions/ 并回车,进入扩展管理页面。
    • 在页面右上角,找到并打开“开发者模式” (Developer mode) 的开关。
    • 启用后,页面上会出现“加载已解压的扩展程序” (Load unpacked) 按钮,点击它。
    • 在弹出的文件选择窗口中,选择你刚刚解压的opendia-extension文件夹。
    • 加载成功后,你会在扩展列表中看到OpenDia,表示浏览器端已经准备就绪。

第二步:启动OpenDia服务并连接AI

浏览器扩展安装好之后,你需要在你的电脑上运行OpenDia的后台服务。这个服务会充当AI模型和浏览器扩展之间的“翻译官”。

  1. 启动服务:
    • 你需要在电脑上安装有Node.js环境。
    • 打开你电脑的终端(在Windows上是命令提示符或PowerShell,在macOS上是终端App)。
    • 执行以下命令来启动OpenDia服务:
      npx opendia
      
    • 当你在终端看到服务成功启动的信息时,说明OpenDia已经开始在本地运行。默认情况下,它会使用5555端口与浏览器扩展进行通信。
  2. 与AI模型连接:
    • 本地AI模型或开发工具 (如Cursor, Claude桌面版):这类工具通常支持通过配置文件连接到外部服务。你需要将OpenDia服务添加到它的配置中。以Claude桌面应用为例,你需要修改其配置文件,加入以下mcpServers代码块:
      {
      "mcpServers": {
      "opendia": {
      "command": "npx",
      "args": ["opendia"]
      }
      }
      }
      

      这样配置后,当你在Claude中发出浏览器操作相关的指令时,它就会自动调用OpenDia来执行。

    • 在线AI模型 (如ChatGPT网页版):如果你想让一个在线的AI服务来控制你的本地浏览器,你需要一个公共网络地址。OpenDia为此提供了--tunnel模式。
      • 首先,你需要安装并配置ngrok。
      • 然后,使用以下命令启动OpenDia:
        npx opendia --tunnel
        
      • 启动后,终端会生成一个临时的ngrok网址。将这个网址提供给你的在线AI,它就能通过这个公共地址与你的本地浏览器安全地通信了。

如何操作:常用指令示例

设置完成后,你就可以通过自然语言向连接好的AI发出指令了。

  • 内容创作:
    • 打开一个新闻文章页面,然后对AI说:“阅读当前页面的文章,并总结主要观点,然后为我生成一条推文草稿。
    • AI会通过OpenDia读取页面文本,进行总结,并生成推文内容。
  • 信息整理:
    • 你可以让AI帮你整理资料:“检查我本周的浏览器历史记录,找出所有关于‘人工智能’的文章,并把它们的标题和链接整理成一个列表。
  • 软件测试:
    • 如果你是开发者,可以打开你正在开发的网站,然后指令AI:“在这个注册页面上,使用测试数据填充所有表单字段,然后点击提交按钮,告诉我注册是否成功。
  • 社交媒体互动:
    • 打开LinkedIn,然后说:“阅读这篇文章,并以我的名义写一条有深度的评论。
    • OpenDia会让AI分析文章内容,并利用你已登录的账号在评论区输入生成的文字。

整个过程的核心在于,OpenDia赋予了AI“看见”和“操作”你的浏览器的能力,而你只需要用自然语言下达最终的目标指令即可。

应用场景

  1. 内容研究与创作当研究人员或内容创作者需要从大量网页中收集和整理信息时,可以使用OpenDia。例如,你可以让AI自动浏览多个指定的行业资讯网站,提取所有关于“芯片技术”的最新文章,将核心观点进行汇总,并自动将这些内容保存到笔记应用中,甚至可以直接在社交媒体上发布摘要。
  2. 软件自动化测试开发者在测试Web应用时,尤其是针对用户界面的功能,可以利用OpenDia实现自动化。例如,命令AI在本地开发环境中打开应用,模拟用户完成一套完整的操作流程,如“注册新账号 -> 登录 -> 修改个人资料 -> 发布一篇文章 -> 退出登录”,并对每一步进行截图,检查功能是否正常。
  3. 个人助理与日常任务用户可以把OpenDia当作一个智能的个人助理来处理日常的浏览器任务。例如,每天早晨,你可以让AI“打开我常看的那几个新闻网站,并告诉我今天最重要的三条新闻是什么”,AI会自动打开标签页,阅读并总结内容,向你汇报。
  4. 社交媒体管理社区经理或个人品牌运营者可以借助OpenDia来管理社交媒体账户。你可以让AI“检查我X/Twitter书签里最近收藏的内容,将它们按主题分类,并为每个类别生成一个总结性的帖子串(Thread)”。

QA

  1. OpenDia是否安全?我的账号密码会泄露吗?OpenDia在设计上将用户隐私放在首位。 它的所有组件,包括后台服务和浏览器扩展,都在你的本地计算机上运行,不会将你的浏览数据、密码或Cookie发送到任何云端服务器。 AI模型通过本地服务与浏览器通信。但需要注意的是,你需要信任你所连接的AI模型,因为它将获得操作你浏览器的权限。
  2. 这个工具和普通的浏览器自动化脚本(如Selenium)有什么不同?传统自动化工具通常在一个“干净”的浏览器环境中运行,没有你的登录信息、历史记录或插件。而OpenDia最大的不同在于,它直接在你日常使用的浏览器上工作,可以完全利用你已经存在的数字环境,比如用你已经登录的Google账号去访问文档,或者用已安装的钱包插件去进行网站交互,这使得自动化流程更加真实和强大。
  3. 使用OpenDia是否需要编程知识?不需要。OpenDia的核心理念就是让用户通过自然语言(即日常说话的方式)来下达指令。你只需要告诉AI你想要完成什么任务,而不需要编写任何代码。整个技术细节被封装在后台,对普通用户隐藏。
  4. 哪些AI模型支持OpenDia?OpenDia支持多种AI模型,包括像ChatGPT和Claude这样的主流模型,也支持为开发者设计的工具如Cursor,甚至是你自己在本地部署的开源大语言模型。 它的连接协议(MCP)是标准化的,因此理论上任何支持该协议的AI工具都可以与它集成。
  5. 在社交媒体上使用这个工具会被封号吗?OpenDia内置了专门的反检测功能,尤其针对X/Twitter、LinkedIn等主流社交平台。 它的操作方式会模仿人类的自然交互行为,而不是像传统机器人那样快速、僵硬地执行,这可以显著降低被平台检测为自动化脚本的风险。但任何自动化工具都存在一定风险,建议谨慎使用。
微信微博Email复制链接