Babel Fish AI는 제가 직접 한 줄의 코드도 작성하지 않고 만든 오픈 소스 브라우저 확장입니다. 자율형 AI 에이전트인 Roo Code 덕분에 고성능 음성 전사 및 번역 솔루션을 구현했고, 프로젝트를 풍부하게 하기 위해 Heygen, FFmpeg, DALL-E 같은 기술들도 탐색했습니다. 이건 단순한 기술 도구가 아니라 학습과 기술 감시의 여정이자, 국제적인 사용자 경험을 제공하려는 노력입니다.
기능
- 음성 전사 : 고품질 오디오 캡처, Voxtral (Mistral AI) 또는 Whisper (OpenAI)를 통한 정확한 전사
- 실시간 번역 : 전사를 선택적으로 15개 언어로 번역
- 컨텍스트 메뉴 : 선택한 텍스트를 재구성, 번역 또는 맞춤법 교정
- 멀티 제공자 : Mistral AI, OpenAI, 또는 맞춤형 엔드포인트 (LiteLLM)
- 다중 브라우저 : Chrome 및 Firefox 지원
AI로 개발하기: 혁신적인 접근
Babel Fish AI는 전적으로 Roo Code에 기반해 있으며, Chrome 매니페스트부터 스크립트와 인터페이스까지 모든 코드 라인을 생성했습니다. CSS, HTML, JS에 대한 전문 지식 없이도 저는 AI에 정확한 프롬프트를 제공하며 프로젝트를 이끌었습니다. AI가 난관에 부딪힐 때는 문서를 살펴보며 도와주었고, 방법론이 있다면 기술적 장벽을 극복할 수 있다는 것을 증명했습니다. 저는 Roo Code를 통해 여러 AI 모델을 시험해 보았고, 초반 탐색 후 비용 대비 성능 때문에 Gemini(특히 Gemini 2.0 Pro Experimental)를 선택했습니다. 또한 특정 작업에서는 Claude Sonnet이 Roo Code 환경에서 더 잘 최적화된 결과를 내기도 했습니다. 적절한 시점에 적절한 모델을 선택하는 것이 이 프로젝트의 핵심이었습니다.
진화: Roo Code에서 코딩 에이전트로
2025년 말부터 저는 Claude Code와 Gemini CLI 같은 코딩 에이전트를 사용해 Babel Fish AI를 유지·관리하고 있습니다. 이런 연속적인 접근 덕분에 Firefox 지원 추가, Mistral AI(Voxtral)를 통한 전사 통합, 텍스트 재구성 및 맞춤법 교정용 컨텍스트 메뉴 등 수많은 기능을 추가할 수 있었습니다.
다중 브라우저 지원
이 확장 기능은 Chrome과 Firefox에서 사용할 수 있습니다:
다국어 영상: 야심 찬 멀티미디어 작업
Babel Fish AI를 소개하기 위해 저는 Heygen으로 여러 언어의 데모 영상을 제작했습니다. 과정은 매우 집중적이었고, OBS Studio로 화면을 캡처하고 FFmpeg로 오디오를 추출한 뒤 Heygen에서 조합했습니다. 개인적 터치를 위해 DALL-E로 고유한 아바타도 생성했는데, 이 아바타들이 영상에 생명을 불어넣었습니다. 시간은 많이 들었지만 이 작업 덕분에 확장을 전 세계 사용자에게 더 잘 전달할 수 있었고, 저에게도 새로운 멀티미디어 도전이 되었습니다.
번역과 국제적 접근성
Roo Code를 통해 확장 인터페이스를 여러 언어로 번역했습니다. 잘 구성된 프롬프트 덕분에 수시간이 걸릴 작업이 빠르게 완료되어 Babel Fish AI의 접근성이 크게 향상되었습니다. 소프트웨어 현지화라는 낯선 영역에 발을 들여볼 수 있는 좋은 기회이기도 했습니다.
품질과 전문성
이 프로젝트의 중심에는 엄격함이 있었습니다:
- 테스트와 도구 : 생성된 코드를 검증하기 위해 SonarCloud, CodeFactor, Codacy, DeepSource 같은 코드 스캐너를 사용했고, 수동 테스트도 철저히 수행했습니다.
- 개인정보처리방침 : 투명성과 신뢰를 위해 상세한 개인정보처리방침을 작성했습니다.
- 프로젝트 관리 : 모든 것은 Git으로 버전 관리되며 명확한 풀 리퀘스트로 깔끔한 추적을 보장합니다.
이러한 노력은 직접 코딩하지 않았더라도 신뢰할 수 있고 전문적인 제품을 제공할 수 있음을 보여줍니다.
오픈 소스와 공유
Babel Fish AI는 GNU Affero General Public License v3.0 하에 배포됩니다. 이 선택은 기술적 지식을 공유해야 한다는 제 신념을 반영합니다. 소스 코드는 기여를 위해 공개되어 있으며, README는 14개 언어로 번역되어 국제 커뮤니티를 환영합니다.
프로젝트와 기능을 소개하는 프로젝트 소개 사이트가 있습니다.
기술 동향 조사와 학습
이 프로젝트를 통해 저는 이전에 다루지 않았던 도구와 기술에 대해 배웠습니다:
- AI 코딩 에이전트(Roo Code, 이후 Claude Code 및 Gemini CLI)
- Heygen, OBS Studio, FFmpeg를 이용한 비디오 제작
- DALL-E를 이용한 아바타 생성
- 개인정보처리방침 같은 법적 문서 작성
- 코드 품질 보장을 위한 분석 도구 사용
진정한 기술 동향 조사였고, 새로운 영역에 뛰어들며 많은 것을 배웠습니다.
사용성 및 사용자 경험
디자인 전문가는 아니었지만 UX에 대한 명확한 비전을 갖고 있었습니다. 저는 Roo Code를 안내해 직관적인 인터페이스를 만들었고, 컨텍스트 메뉴 통합이나 명확한 전사 결과와 같은 선택을 했습니다. 사용자 경험에 대한 이런 집중은 세부 사항에 대한 제 관심과 실제 사용자 요구를 충족하려는 의지를 보여줍니다.
Babel Fish AI를 사용해 보세요!
- 공식 사이트 : babelfishai.jls42.org
- 소스 코드 : GitHub
- Chrome : Chrome 웹 스토어
- Firefox : Firefox 애드온
이 프로젝트가 나에 대해 말해주는 것
Babel Fish AI는 단순한 확장을 넘어 제가 혁신하고 학습하며 완성된 제품을 전달할 수 있다는 것을 보여주는 포트폴리오입니다. 저는 AI를 협업 도구로 활용하고 복잡한 프로젝트를 관리하며 새로운 기술적 지평을 탐구할 수 있었고, 높은 기준을 유지하며 유용한 도구를 커뮤니티와 공유하고자 했습니다.
이 문서는 gpt-5-mini 모델을 사용하여 fr 버전에서 ko 언어로 번역되었습니다. 번역 과정에 대한 자세한 내용은 https://gitlab.com/jls42/ai-powered-markdown-translator 를 참조하세요