Szukaj

Babel Fish AI: Rozszerzenie do transkrypcji i tłumaczenia mowy

Babel Fish AI to otwarte rozszerzenie do przeglądarki, które stworzyłem, nie pisząc samodzielnie ani jednej linii kodu. Dzięki Roo Code, autonomicznemu agentowi AI, zrealizowałem wydajne rozwiązanie do transkrypcji i tłumaczenia mowy, jednocześnie eksplorując technologie takie jak Heygen, FFmpeg i DALL-E, aby wzbogacić projekt. To nie tylko narzędzie techniczne: to przygoda edukacyjna, monitorowanie technologii i wysiłek, aby zaoferować wysokiej jakości doświadczenie użytkownika międzynarodowej publiczności.

Funkcje

  • Transkrypcja mowy: Przechwytywanie dźwięku wysokiej jakości, dokładna transkrypcja za pomocą Voxtral (Mistral AI) lub Whisper (OpenAI)
  • Tłumaczenie w czasie rzeczywistym: Opcjonalne tłumaczenie transkrypcji na 15 języków
  • Menu kontekstowe: Przebuduj, przetłumacz lub popraw ortografię dowolnego zaznaczonego tekstu
  • Wiele dostawców: Mistral AI, OpenAI lub niestandardowy endpoint (LiteLLM)
  • Wiele przeglądarek: Obsługa Chrome i Firefox

Rozwój z pomocą AI: Innowacyjne podejście

Babel Fish AI opiera się całkowicie na Roo Code, który wygenerował każdą linię kodu — od manifestu Chrome po skrypty i interfejs. Bez znajomości CSS, HTML czy JS prowadziłem AI za pomocą precyzyjnych promptów. Kiedy napotykała trudności, zagłębiałem się w dokumentację, aby jej pomóc i udowodnić, że metodą można pokonać techniczne przeszkody. Testowałem różne modele AI przez Roo Code: najpierw badałem ich możliwości, potem zdecydowałem się na Gemini (w szczególności Gemini 2.0 Pro Experimental) ze względu na korzystny stosunek jakości do ceny i brak opłat. Korzystałem też z Claude Sonnet, który okazał się lepiej zoptymalizowany do niektórych zadań w Roo Code. Wybór właściwego modelu we właściwym momencie był kluczowy dla tego projektu.

Ewolucja: Od Roo Code do agentów kodujących

Od końca 2025 roku utrzymuję Babel Fish AI przy pomocy agentów kodujących takich jak Claude Code i Gemini CLI. Ta ciągłość podejścia pozwoliła mi dodać wiele funkcji: wsparcie dla Firefox, integrację Mistral AI jako providera transkrypcji (przez Voxtral), menu kontekstowe do przebudowy i korekty tekstu oraz liczne inne ulepszenia.

Wsparcie dla wielu przeglądarek

Rozszerzenie jest dostępne dla Chrome i Firefox:

Wielojęzyczne filmy: Ambitne przedsięwzięcie multimedialne

Aby zaprezentować Babel Fish AI, stworzyłem filmy demonstracyjne w kilku językach przy użyciu Heygen. Proces był intensywny: nagrywałem materiały za pomocą OBS Studio, wydobywałem audio z FFmpeg, a następnie montowałem wszystko w Heygen. Dla osobistego akcentu wygenerowałem unikalnego avatara za pomocą DALL-E, który ożywia te filmy. Praca ta, choć czasochłonna, pozwoliła uczynić rozszerzenie dostępnym dla globalnej publiczności i bardzo polubiłem to wyzwanie multimedialne, które było dla mnie nowe.

Tłumaczenia i dostępność międzynarodowa

Dzięki Roo Code przetłumaczyłem interfejs rozszerzenia na wiele języków za pomocą dobrze dobranych promptów. To, co zajęłoby godziny ręcznie, zostało szybko wykonane z pomocą AI, zwiększając dostępność Babel Fish AI. Była to także okazja do zapoznania się z lokalizacją oprogramowania, dziedziną, której wcześniej nie eksplorowałem.

Jakość i profesjonalizm

Rzetelność była w centrum tego projektu:

  • Testy i narzędzia: Użyłem skanerów kodu takich jak SonarCloud, CodeFactor, Codacy i DeepSource do weryfikacji jakości kodu generowanego przez AI, oprócz dogłębnych testów manualnych.
  • Polityka prywatności: Opracowałem szczegółową politykę prywatności, co jest wyrazem przejrzystości i powagi wobec użytkowników.
  • Zarządzanie projektem: Wszystko jest wersjonowane na Git z czytelnymi pull requestami, zapewniając uporządkowane i przejrzyste śledzenie zmian.

Te działania pokazują, że nawet bez bezpośredniego kodowania można dostarczyć niezawodny i profesjonalny produkt.

Open Source i dzielenie się

Babel Fish AI jest rozpowszechniany na licencji GNU Affero General Public License v3.0. Ten wybór odzwierciedla moją wiarę, że wiedza techniczna powinna być dzielona. Kod źródłowy jest otwarty na wkłady społeczności, a README jest przetłumaczone na 14 języków, aby przyjąć międzynarodową społeczność.

Un site vitrine présente le projet et ses fonctionnalités.

Monitorowanie technologii i nauka

Ten projekt otworzył przede mną drzwi do narzędzi i umiejętności, których wcześniej nie znałem:

  • Agenci kodujący AI (Roo Code, potem Claude Code i Gemini CLI)
  • Tworzenie wideo z Heygen, OBS Studio i FFmpeg
  • Generowanie avatarów z DALL-E
  • Pisanie dokumentów prawnych, takich jak polityka prywatności
  • Korzystanie z narzędzi analizy kodu w celu zapewnienia jakości

To była prawdziwa sesja monitorowania technologii i dużo się nauczyłem, zanurzając się w tych nowych obszarach.

Ergonomia i doświadczenie użytkownika

Nawet bez biegłości w designie rozwinąłem jasną wizję ergonomii (UX/UI). Kierowałem Roo Code, aby stworzyć intuicyjny interfejs, z takimi rozwiązaniami jak dobrze zintegrowane menu kontekstowe czy czytelne wyniki transkrypcji. To skupienie na doświadczeniu użytkownika pokazuje moją dbałość o szczegóły i chęć odpowiadania na realne potrzeby ludzi.

Wypróbuj Babel Fish AI!

Co ten projekt mówi o mnie

Babel Fish AI to więcej niż rozszerzenie: to wizytówka mojej zdolności do innowacji, uczenia się i dostarczania gotowego produktu. Potrafiłem wykorzystać AI jako narzędzie współpracy, zarządzać złożonym projektem i eksplorować nowe obszary technologiczne, jednocześnie utrzymując wysokie standardy. Ta ścieżka odzwierciedla moją ciekawość, rzetelność i chęć tworzenia użytecznych narzędzi oraz dzielenia się nimi ze społecznością.

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, zobacz https://gitlab.com/jls42/ai-powered-markdown-translator