搜索

Babel Fish AI:语音转录与翻译扩展

Babel Fish AI 是我开发的一个开源浏览器扩展,而我本人并未亲自编写任何代码。借助于Roo Code,一个自主的 AI 代理,我构建了一个高效的语音转录与翻译解决方案,同时在项目中探索了像 HeygenFFmpegDALL-E 等技术以丰富功能。这不仅是一个技术工具:也是一次学习之旅、技术观察实践,并致力于为全球用户提供优质的使用体验。

功能

  • 语音转录:捕获高质量音频,通过 Voxtral(Mistral AI)或 Whisper(OpenAI)进行精准转录
  • 实时翻译:可选地将转录内容翻译为 15 种语言
  • 上下文菜单:对任意选中文本进行改写、翻译或拼写校正
  • 多提供方支持:Mistral AI、OpenAI 或自定义端点(LiteLLM)
  • 多浏览器支持:兼容 Chrome 与 Firefox

使用 AI 开发:一种创新方法

Babel Fish AI 完全依赖 Roo Code,它生成了每一行代码——从 Chrome 清单到脚本和界面。即便我不具备 CSS、HTML 或 JS 的专业技能,也通过精确的提示引导 AI。当 AI 遇到难题时,我会查阅文档帮助其前进,证明了有方法论的情况下可以克服技术门槛。我通过 Roo Code 测试了多个 AI 模型:起初探索其能力,随后为性价比选择了 Gemini(尤其是 Gemini 2.0 Pro Experimental)。我也使用了 Claude Sonnet,在 Roo Code 中它在某些任务上表现更优。按需选择合适模型是本项目成功的关键之一。

演进:从 Roo Code 到编码代理

自 2025 年底起,我使用像 Claude CodeGemini CLI 这样的编码代理来维护 Babel Fish AI。这种持续的方法让我加入了许多功能:支持 Firefox、将 Mistral AI(通过 Voxtral)作为转录提供方、为文本改写与校正添加上下文菜单,以及其他多项改进。

多浏览器支持

该扩展可在 ChromeFirefox 上使用:

多语种视频:一次雄心勃勃的多媒体尝试

为展示 Babel Fish AI,我使用 Heygen 制作了多语言演示视频。该流程非常密集:我用 OBS Studio 捕捉画面,使用 FFmpeg 提取音频,然后在 Heygen 中进行合成。为了增添个人风格,我用 DALL-E 生成了一个独特的头像,为这些视频赋予生命。尽管耗时,这项工作让扩展面向全球用户更具可达性,而我也非常享受这次前所未有的多媒体挑战。

翻译与国际无障碍

借助 Roo Code,我通过精心设计的提示将扩展界面翻译成多种语言。人工完成可能需要数小时的工作,但 AI 很快就完成了,大大提升了 Babel Fish AI 的可访问性。这也是我第一次接触软件本地化,这一经历非常宝贵。

质量与专业性

严谨是本项目的核心:

  • 测试与工具:我使用了像 SonarCloudCodeFactorCodacyDeepSource 这样的代码扫描器来检查 AI 生成代码的质量,并辅以大量手动测试。
  • 隐私政策:我撰写了一份详尽的隐私政策,体现了对用户的透明与负责。
  • 项目管理:所有内容都在 Git 上进行版本管理,并通过清晰的拉取请求(pull requests)确保良好的追踪与组织。

这些努力表明,即便不亲自编码,也能交付可靠且专业的产品。

开源与共享

Babel Fish AI 在 GNU Affero General Public License v3.0 下发布。我选择这一许可是基于对技术知识应当共享的信念。源码欢迎贡献者,README 已翻译为 14 种语言以便吸引国际社区。

一个 展示网站 介绍了项目及其功能。

技术观察与学习

这个项目让我接触并学习了许多以前未涉足的工具和技能:

  • AI 编码代理(Roo Code,随后是 Claude Code 与 Gemini CLI)
  • 使用 Heygen、OBS Studio 与 FFmpeg 制作视频
  • 使用 DALL-E 生成头像
  • 起草法律类文档如隐私政策
  • 使用代码分析工具以保证代码质量

这是一次真正的技术观察实践,我在这些新领域中学到了很多。

人机工程与用户体验

即便没有设计专长,我也形成了清晰的用户体验(UX/UI)理念。我引导 Roo Code 创建直观的界面,做出了例如集成良好的上下文菜单和清晰的转录结果显示等选择。对用户体验的关注体现了我对细节的重视以及致力于满足真实用户需求的意愿。

试用 Babel Fish AI!

这个项目说明了我的什么

Babel Fish AI 不只是一个扩展:它展示了我创新、学习与交付成品的能力。我善于将 AI 作为协作工具,管理复杂项目并探索新技术领域,同时保持高标准。这个过程体现了我的好奇心、严谨性以及创造和分享有用工具的愿望。

本文件已使用模型 gpt-5-mini 将法语(fr)版本翻译为中文(zh)。有关翻译过程的更多信息,请参见 https://gitlab.com/jls42/ai-powered-markdown-translator