Suchen

Babel Fish AI : Erweiterung für Transkription und Sprachübersetzung

Babel Fish AI : Erweiterung für Transkription und Sprachübersetzung

Babel Fish AI ist eine Open-Source-Browsererweiterung, die ich entwickelt habe, ohne selbst eine einzige Codezeile zu schreiben. Dank Roo Code, einem autonomen KI-Agenten, habe ich eine leistungsfähige Lösung für Sprachtranskription und -übersetzung erstellt und dabei Technologien wie Heygen, FFmpeg und DALL-E zur Bereicherung des Projekts untersucht. Es ist nicht nur ein technisches Werkzeug: es ist ein Lernabenteuer, technologische Recherche und ein Versuch, Anwendern weltweit eine hochwertige Erfahrung zu bieten.

Funktionen

  • Sprachtranskription: Hochwertige Audioaufnahme, präzise Transkription über Voxtral (Mistral AI) oder Whisper (OpenAI)
  • Echtzeitübersetzung: Optionale Übersetzung der Transkripte in 15 Sprachen
  • Kontextmenü: Umformulieren, übersetzen oder Rechtschreibkorrektur von beliebigem markiertem Text
  • Multi-Provider: Mistral AI, OpenAI oder ein benutzerdefiniertes Endpoint (LiteLLM)
  • Multi-Browser: Unterstützung für Chrome und Firefox

Entwicklung mit KI: Ein innovativer Ansatz

Babel Fish AI beruht vollständig auf Roo Code, das jede Zeile Code generiert hat – vom Chrome-Manifest bis zu Skripten und der Benutzeroberfläche. Ohne Kenntnisse in CSS, HTML oder JS habe ich die KI mit präzisen Prompts gesteuert. Wenn sie auf Probleme stieß, habe ich die Dokumentation geprüft, um sie voranzubringen, und damit gezeigt, dass man mit Methode technische Hürden überwinden kann. Ich habe verschiedene KI-Modelle über Roo Code getestet: anfangs habe ich ihre Fähigkeiten erkundet, später entschied ich mich für Gemini (insbesondere Gemini 2.0 Pro Experimental) wegen seines kostenlosen Zugangs und des guten Preis-Leistungs-Verhältnisses. Ich habe auch Claude Sonnet eingesetzt, das sich für bestimmte Aufgaben in Roo Code als besser optimiert erwies. Das richtige Modell zur richtigen Zeit zu wählen, war für dieses Projekt entscheidend.

Entwicklung: Von Roo Code zu Coding-Agenten

Seit Ende 2025 pflege ich Babel Fish AI mit Coding-Agenten wie Claude Code und Gemini CLI. Diese Fortführung der Herangehensweise ermöglichte viele neue Funktionen: Firefox-Support, Integration von Mistral AI als Transkriptionsanbieter (via Voxtral), das Kontextmenü zum Umformulieren und Korrigieren von Text und zahlreiche weitere Verbesserungen.

Multi-Browser-Support

Die Erweiterung ist für Chrome und Firefox verfügbar:

Mehrsprachige Videos: Ein ehrgeiziges Multimedia-Projekt

Zur Präsentation von Babel Fish AI habe ich Demonstrationsvideos in mehreren Sprachen mit Heygen erstellt. Der Prozess war intensiv: Ich habe Sequenzen mit OBS Studio aufgenommen, das Audio mit FFmpeg extrahiert und alles in Heygen zusammengesetzt. Um eine persönliche Note hinzuzufügen, habe ich ein einzigartiges Avatar mit DALL-E generiert, das diesen Videos Leben verleiht. Diese Arbeit war zwar zeitaufwändig, hat die Erweiterung aber einem weltweiten Publikum zugänglich gemacht, und ich habe es genossen, diese für mich neue Multimedia-Herausforderung anzunehmen.

Übersetzung und internationale Zugänglichkeit

Dank Roo Code habe ich die Benutzeroberfläche der Erweiterung in viele Sprachen übersetzt, mithilfe gut gestalteter Prompts. Was manuell Stunden gedauert hätte, war mit der KI schnell erledigt, wodurch die Zugänglichkeit von Babel Fish AI gestärkt wurde. Es war auch eine Gelegenheit, sich mit Software-Lokalisierung auseinanderzusetzen, ein Bereich, den ich zuvor nicht erkundet hatte.

Qualität und Professionalität

Sorgfalt stand im Zentrum dieses Projekts:

  • Tests und Tools: Ich habe Code-Scanner wie SonarCloud, CodeFactor, Codacy und DeepSource verwendet, um die Qualität des von der KI erzeugten Codes zu prüfen, zusätzlich zu gründlichen manuellen Tests.
  • Datenschutzerklärung: Ich habe eine detaillierte Datenschutzerklärung verfasst, als Zeichen von Transparenz und Seriosität gegenüber den Nutzern.
  • Projektmanagement: Alles ist in Git versioniert mit klaren Pull Requests, was eine saubere und strukturierte Nachverfolgung sicherstellt.

Diese Maßnahmen zeigen, dass man auch ohne direkte Codierung ein zuverlässiges und professionelles Produkt liefern kann.

Open Source und Teilen

Babel Fish AI wird unter der GNU Affero General Public License v3.0 veröffentlicht. Diese Wahl spiegelt meine Überzeugung wider, dass technisches Wissen geteilt werden sollte. Der Quellcode ist offen für Beiträge, und das README ist in 14 Sprachen übersetzt, um eine internationale Community willkommen zu heißen.

Eine Projektseite stellt das Projekt und seine Funktionen vor.

Technologische Recherche und Lernen

Dieses Projekt hat mir Einblicke in Werkzeuge und Fähigkeiten verschafft, die ich zuvor nicht kannte:

  • KI-Coding-Agenten (Roo Code, später Claude Code und Gemini CLI)
  • Videoproduktion mit Heygen, OBS Studio und FFmpeg
  • Avatar-Generierung mit DALL-E
  • Verfassen rechtlicher Dokumente wie einer Datenschutzerklärung
  • Einsatz von Code-Analyse-Tools zur Sicherstellung der Qualität

Es war eine echte Phase technologischer Recherche, und ich habe beim Eintauchen in diese neuen Bereiche viel gelernt.

Ergonomie und Nutzererlebnis

Auch ohne Design-Expertise habe ich eine klare Vorstellung von Ergonomie (UX/UI) entwickelt. Ich habe Roo Code angeleitet, eine intuitive Oberfläche zu schaffen, mit Entscheidungen wie einem gut integrierten Kontextmenü oder klaren Transkriptionsergebnissen. Dieser Fokus auf das Nutzererlebnis zeigt meine Liebe zum Detail und den Wunsch, reale Bedürfnisse der Nutzer zu erfüllen.

Probieren Sie Babel Fish AI aus!

Was dieses Projekt über mich aussagt

Babel Fish AI ist mehr als eine Erweiterung: es ist ein Schaufenster meiner Fähigkeit zu innovieren, zu lernen und ein fertiges Produkt zu liefern. Ich habe die KI als Kollaborationswerkzeug genutzt, ein komplexes Projekt gemanagt und neue technologische Horizonte erkundet, während ich hohe Standards beibehalten habe. Dieser Weg spiegelt meine Neugier, meine Sorgfalt und meinen Wunsch wider, nützliche Werkzeuge zu schaffen und sie mit der Community zu teilen.

Dieses Dokument wurde mit dem Modell gpt-5-mini von der fr-Version in die en-Sprache übersetzt. Für weitere Informationen zum Übersetzungsprozess konsultieren Sie https://gitlab.com/jls42/ai-powered-markdown-translator