Sök

Babel Fish AI : Tillägg för rösttranskribering och översättning

Babel Fish AI är ett open source-webbläsartillägg som jag utvecklade utan att själv skriva en enda rad kod. Tack vare Roo Code, en autonom AI-agent, skapade jag en kraftfull lösning för rösttranskribering och översättning, samtidigt som jag utforskade tekniker som Heygen, FFmpeg, och DALL-E för att berika projektet. Det är inte bara ett tekniskt verktyg: det är ett lärandeäventyr, en teknisk omvärldsbevakning och ett försök att erbjuda en högkvalitativ användarupplevelse för en internationell publik.

Funktioner

  • Rösttranskribering : Inspelning av högkvalitativt ljud, exakt transkribering via Voxtral (Mistral AI) eller Whisper (OpenAI)
  • Översättning i realtid : Valfri översättning av transkriptionerna till 15 språk
  • Kontextmeny : Omskriva, översätta eller rätta stavningen i vilken markerad text som helst
  • Flera leverantörer : Mistral AI, OpenAI, eller endpoint personnalisé (LiteLLM)
  • Flera webbläsare : Chrome och Firefox stöds

Utveckling med AI: Ett innovativt tillvägagångssätt

Projektet Babel Fish AI bygger helt på Roo Code, som genererade varje kodrad – från Chrome-manifestet till skript och användargränssnittet. Utan kunskaper i CSS, HTML eller JS vägledde jag AI:n med precisa prompts. När den stötte på hinder grävde jag i dokumentationen för att hjälpa den vidare, vilket visar att man med metodik kan övervinna tekniska barriärer. Jag testade flera AI-modeller via Roo Code: initialt utforskade jag deras kapaciteter, och sedan valde jag Gemini (i synnerhet Gemini 2.0 Pro Experimental) för dess kostnadsfria alternativ och goda pris/prestanda. Jag använde också Claude Sonnet, som visade sig vara bättre optimerad för vissa uppgifter i Roo Code. Att välja rätt modell vid rätt tidpunkt var avgörande för detta projekt.

Utveckling: Från Roo Code till kodningsagenter

Sedan slutet av 2025 underhåller jag Babel Fish AI med kodningsagenter som Claude Code och Gemini CLI. Denna kontinuitet i arbetssättet har gjort det möjligt att lägga till många funktioner: stöd för Firefox, integration av Mistral AI som transkriberingsleverantör (via Voxtral), en kontextmeny för att omformulera och rätta text, och många andra förbättringar.

Stöd för flera webbläsare

Tillägget finns tillgängligt för Chrome och Firefox :

Flerspråkiga videor: Ett ambitiöst multimediaprojekt

För att presentera Babel Fish AI skapade jag demonstrationsvideor på flera språk med Heygen. Processen var intensiv: jag fångade sekvenser med OBS Studio, extraherade ljudet med FFmpeg, och satte sedan ihop allt i Heygen. För att lägga till en personlig prägel genererade jag en unik avatar med DALL-E, som ger liv åt videorna. Detta arbete, även om det var tidskrävande, gjorde tillägget tillgängligt för en global publik, och jag älskade att anta denna nya multimediautmaning.

Översättning och internationell tillgänglighet

Tack vare Roo Code översatte jag tilläggets gränssnitt till många språk genom välformulerade prompts. Det som hade tagit timmar manuellt klarades snabbt av med AI, vilket stärkte Babel Fish AIs tillgänglighet. Det var också ett tillfälle att ge sig in i programvarulokalisering, ett område jag aldrig tidigare utforskat.

Kvalitet och professionalitet

Rigor har varit kärnan i detta projekt:

  • Tester och verktyg : Jag använde kodskannrar som SonarCloud, CodeFactor, Codacy och DeepSource för att kontrollera kvaliteten på AI-genererad kod, utöver noggranna manuella tester.
  • Integritetspolicy : Jag skrev en detaljerad integritetspolicy, ett tecken på transparens och seriositet gentemot användarna.
  • Projektledning : Allt versionshanteras i Git med tydliga pull requests, vilket säkerställer ett rent och organiserat spår.

Dessa insatser visar att även utan att koda direkt kan man leverera en pålitlig och professionell produkt.

Öppen källkod och delning

Babel Fish AI distribueras under licensen GNU Affero General Public License v3.0. Detta val speglar min övertygelse att teknisk kunskap bör delas. Källkoden är öppen för bidrag och README-filen är översatt till 14 språk för att välkomna en internationell gemenskap.

En presentationssajt visar projektet och dess funktioner.

Teknikspaning och lärande

Detta projekt öppnade dörrar till verktyg och färdigheter jag aldrig arbetat med tidigare:

  • AI-kodningsagenter (Roo Code, sedan Claude Code och Gemini CLI)
  • Videoproduktion med Heygen, OBS Studio och FFmpeg
  • Generering av avatars med DALL-E
  • Författande av juridiska dokument som integritetspolicyn
  • Användning av kodanalyverktyg för att säkerställa kvaliteten

Det var en verklig teknikspaningssession, och jag lärde mig oerhört mycket genom att fördjupa mig i dessa nya områden.

Ergonomi och användarupplevelse

Även utan designexpertis utvecklade jag en tydlig vision för ergonomi (UX/UI). Jag vägledde Roo Code för att skapa ett intuitivt gränssnitt, med val som en väl integrerad kontextmeny och tydliga transkriptionsresultat. Detta fokus på användarupplevelse visar min uppmärksamhet på detaljer och min vilja att möta människors verkliga behov.

Prova Babel Fish AI!

Vad detta projekt säger om mig

Babel Fish AI är mer än ett tillägg: det är en showcase för min förmåga att innovera, lära mig och leverera en färdig produkt. Jag har kunnat utnyttja AI som ett samarbetsverktyg, leda ett komplext projekt och utforska nya teknologiska horisonter, samtidigt som jag upprätthållit höga standarder. Denna resa speglar min nyfikenhet, min noggrannhet och min vilja att skapa användbara verktyg och dela dem med communityn.

Detta dokument har översatts från versionen fr till språket sv med modellen gpt-5-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator