Buscar

Babel Fish AI : Extensión de transcripción y traducción de voz

Babel Fish AI es una extensión de navegador de código abierto que desarrollé sin escribir una sola línea de código yo mismo. Gracias a Roo Code, un agente IA autónomo, creé una solución de transcripción y traducción de voz eficiente, mientras exploraba tecnologías como Heygen, FFmpeg y DALL-E para enriquecer el proyecto. No es solo una herramienta técnica: es una aventura de aprendizaje, vigilancia tecnológica y un esfuerzo por ofrecer una experiencia de usuario de calidad a una audiencia internacional.

Funcionalidades

  • Transcripción de voz: Captura de audio de alta calidad, transcripción precisa mediante Voxtral (Mistral AI) o Whisper (OpenAI)
  • Traducción en tiempo real: Traducción opcional de las transcripciones a 15 idiomas
  • Menú contextual: Reformular, traducir o corregir la ortografía de cualquier texto seleccionado
  • Multiproveedor: Mistral AI, OpenAI o endpoint personalizado (LiteLLM)
  • Multinavegador: Compatible con Chrome y Firefox

Desarrollar con IA: Un Enfoque Innovador

Babel Fish AI se basa totalmente en Roo Code, que generó cada línea de código — desde el manifiesto de Chrome hasta los scripts y la interfaz. Sin conocimientos de CSS, HTML o JS, guié a la IA con prompts precisos. Cuando se encontraba con obstáculos, consulté la documentación para ayudarla a avanzar, demostrando que con método se pueden superar barreras técnicas. Probé varios modelos de IA a través de Roo Code: al principio exploré sus capacidades, luego opté por Gemini (notablemente Gemini 2.0 Pro Experimental) por su coste gratuito y su buena relación calidad-precio. También utilicé Claude Sonnet, que resultó estar mejor optimizado para ciertas tareas en Roo Code. Elegir el modelo correcto en el momento adecuado fue clave para este proyecto.

Evolución: De Roo Code a los Agentes de Programación

Desde finales de 2025, mantengo Babel Fish AI con agentes de programación como Claude Code y Gemini CLI. Esta continuidad en el enfoque me permitió añadir numerosas funcionalidades: soporte para Firefox, integración de Mistral AI como proveedor de transcripción (vía Voxtral), el menú contextual para reformular y corregir texto, y muchas otras mejoras.

Soporte Multinavegador

La extensión está disponible en Chrome y Firefox:

Videos Multilingües: Un Esfuerzo Multimedia Ambicioso

Para presentar Babel Fish AI, creé videos de demostración en varios idiomas con Heygen. El proceso fue intenso: capturé secuencias con OBS Studio, extraje el audio con FFmpeg y luego ensamblé todo en Heygen. Para añadir un toque personal, generé un avatar único con DALL-E, que da vida a esos videos. Este trabajo, aunque laborioso, permitió hacer la extensión accesible a un público global, y disfruté asumir este desafío multimedia inédito para mí.

Traducción y Accesibilidad Internacional

Gracias a Roo Code, traduje la interfaz de la extensión a numerosos idiomas mediante prompts bien diseñados. Lo que habría llevado horas manualmente se resolvió rápidamente con la IA, reforzando la accesibilidad de Babel Fish AI. También fue una oportunidad para adentrarme en la localización de software, un ámbito que nunca había explorado antes.

Calidad y Profesionalismo

La rigurosidad ha estado en el corazón de este proyecto:

  • Pruebas y Herramientas: Utilicé escáneres de código como SonarCloud, CodeFactor, Codacy y DeepSource para verificar la calidad del código generado por la IA, además de pruebas manuales exhaustivas.
  • Política de Privacidad: Redacté una política de privacidad detallada, un signo de transparencia y seriedad para los usuarios.
  • Gestión de Proyecto: Todo está versionado en Git con pull requests claras, asegurando un seguimiento limpio y organizado.

Estos esfuerzos demuestran que incluso sin programar directamente, se puede entregar un producto fiable y profesional.

Código Abierto y Compartir

Babel Fish AI se distribuye bajo la licencia GNU Affero General Public License v3.0. Esta elección refleja mi convicción de que el conocimiento técnico debe compartirse. El código fuente está abierto a contribuciones, y el README está traducido a 14 idiomas para acoger a una comunidad internacional.

Un sitio web presenta el proyecto y sus funcionalidades.

Vigilancia Tecnológica y Aprendizaje

Este proyecto me abrió puertas a herramientas y competencias que nunca había tocado:

  • Agentes de programación IA (Roo Code, luego Claude Code y Gemini CLI)
  • Creación de video con Heygen, OBS Studio y FFmpeg
  • Generación de avatares con DALL-E
  • Redacción de documentos legales como la política de privacidad
  • Uso de herramientas de análisis de código para garantizar la calidad

Fue una verdadera sesión de vigilancia tecnológica, y aprendí muchísimo sumergiéndome en estos nuevos dominios.

Ergonomía y Experiencia de Usuario

Aunque no soy experto en diseño, desarrollé una visión clara de la ergonomía (UX/UI). Guié a Roo Code para crear una interfaz intuitiva, con decisiones como un menú contextual bien integrado o resultados de transcripción claros. Este enfoque en la experiencia de usuario muestra mi atención al detalle y mi voluntad de responder a las necesidades reales de las personas.

¡Prueba Babel Fish AI!

Lo que Este Proyecto Dice de Mí

Babel Fish AI es más que una extensión: es una vitrina de mi capacidad para innovar, aprender y entregar un producto terminado. Supe explotar la IA como herramienta de colaboración, gestionar un proyecto complejo y explorar nuevos horizontes tecnológicos, manteniendo altos estándares. Este recorrido refleja mi curiosidad, mi rigor y mi deseo de crear herramientas útiles y compartirlas con la comunidad.

Este documento ha sido traducido de la versión fr al idioma es utilizando el modelo gpt-5-mini. Para más información sobre el proceso de traducción, consulte https://gitlab.com/jls42/ai-powered-markdown-translator