検索

Babel Fish AI:音声文字起こしと翻訳の拡張機能

Babel Fish AI は私が自分で一行もコードを書かずに開発したオープンソースのブラウザ拡張機能です。Roo Codeという自律型AIのおかげで、高性能な音声文字起こしと翻訳のソリューションを作成し、Heygen、FFmpeg、DALL-Eといった技術もプロジェクトに取り入れました。これは単なる技術ツールではなく、学習の旅であり、技術動向の調査であり、国際的なユーザーに高品質な体験を提供するための取り組みでもあります。

機能

  • 音声文字起こし:高品質なオーディオをキャプチャし、Voxtral(Mistral AI)またはWhisper(OpenAI)による高精度な文字起こしを提供
  • リアルタイム翻訳:文字起こしを15言語に任意で翻訳
  • コンテキストメニュー:選択した任意のテキストを言い換え、翻訳、またはスペル修正
  • マルチプロバイダー:Mistral AI、OpenAI、またはカスタムエンドポイント(LiteLLM)
  • マルチブラウザ:ChromeおよびFirefox対応

AIを使った開発:革新的なアプローチ

Babel Fish AIは完全にRoo Codeに基づいており、Chromeのマニフェストからスクリプトやインターフェースに至るまで、AIがすべてのコード行を生成しました。CSS、HTML、JSの知識がなくても、私はAIに対して精緻なプロンプトで指示を与えました。AIが行き詰まったときはドキュメントを読み込み、前に進める手助けをすることで問題を解決しました。これにより、方法論さえあれば技術的な壁は乗り越えられることを示せました。Roo Codeを通じて複数のモデルを試し、最終的にはコスト面と品質のバランスからGemini(特に Gemini 2.0 Pro Experimental)を選択しました。また、特定のタスクで最適化されているClaude Sonnetも利用しました。適切なモデルを適切なタイミングで選ぶことが、このプロジェクトの鍵となりました。

進化:Roo Codeからコーディングエージェントへ

2025年末以降、私はClaude CodeGemini CLIといったコーディングエージェントでBabel Fish AIを保守しています。この継続的なアプローチにより、Firefoxサポートの追加、Voxtral経由でのMistral AIの統合、テキストの言い換えや修正のためのコンテキストメニューなど、多くの機能を実装できました。

マルチブラウザ対応

拡張機能は ChromeFirefox で利用できます:

多言語ビデオ:野心的なマルチメディアの取り組み

Babel Fish AIを紹介するため、私はHeygenを使って複数言語のデモ動画を作成しました。プロセスは集中的で、OBS Studioで映像をキャプチャし、FFmpegで音声を抽出し、Heygenで編集を行いました。個性を加えるためにDALL-Eでオリジナルのアバターも生成しました。時間はかかりましたが、この取り組みにより拡張機能を世界中のユーザーに届けることができ、初めて挑戦するマルチメディア作業を楽しむことができました。

翻訳と国際的アクセシビリティ

Roo Codeの力を借りて、拡張機能のインターフェースを多言語に翻訳しました。手作業で何時間もかかる作業を、AIを用いたプロンプトで迅速に完了させ、Babel Fish AIのアクセシビリティを高めました。これにより、ローカリゼーションというこれまで触れたことのなかった分野にも取り組む機会を得ました。

品質とプロフェッショナリズム

このプロジェクトでは厳格さを重視しました:

  • テストとツール:AIが生成したコードの品質確認として、SonarCloud, CodeFactor, Codacy, DeepSourceなどのコードスキャナーを利用し、手動テストも併せて実施しました。
  • プライバシーポリシー:詳細なプライバシーポリシーを作成し、ユーザーに対する透明性と信頼を確保しました。
  • プロジェクト管理:すべてGitでバージョン管理され、明確なプルリクエストによる整理された履歴を保っています。

これらの取り組みは、直接コーディングしていなくても信頼性とプロフェッショナリズムのある製品を提供できることを示しています。

オープンソースと共有

Babel Fish AIはGNU Affero General Public License v3.0の下で配布されています。この選択は技術的知識は共有されるべきだという私の信念を反映しています。ソースコードは外部からの貢献を歓迎しており、READMEは14言語に翻訳され、国際的なコミュニティを受け入れる準備をしています。

プロジェクトとその機能を紹介する公式サイトがあります。

技術動向の調査と学び

このプロジェクトを通じて、これまで触れたことのないツールやスキルに出会いました:

  • コーディングエージェント(Roo Code、その後の Claude Code と Gemini CLI)
  • Heygen、OBS Studio、FFmpeg を用いた動画制作
  • DALL-E を使ったアバター生成
  • プライバシーポリシーのような法的文書の作成
  • コード品質を保証するための解析ツールの利用

これは本当の意味での技術的な勉強会であり、新しい分野に飛び込んで多くを学びました。

ユーザビリティとユーザー体験

デザインの専門知識がなくても、私は明確なUX/UIのビジョンを持っていました。Roo Codeに指示を与えて直感的なインターフェースを作成し、コンテキストメニューの統合や読みやすい文字起こし結果などの選択を行いました。ユーザー体験へのこのフォーカスは、細部へのこだわりと実際のニーズに応える意志を示しています。

Babel Fish AI を試してみてください!

このプロジェクトが私について語ること

Babel Fish AIは単なる拡張機能以上のものです。これは私のイノベーション能力、学習意欲、そして完成品を届ける力の証明です。AIを共同作業の道具として活用し、複雑なプロジェクトを管理し、新しい技術分野を探求しながら高い基準を維持してきました。この歩みは、私の好奇心、厳密さ、そして有益なツールを作りコミュニティと共有したいという意欲を反映しています。

この文書は gpt-5-mini モデルを使用して fr 版から ja 言語へ翻訳されました。翻訳プロセスの詳細については、https://gitlab.com/jls42/ai-powered-markdown-translator をご覧ください。