在这篇文章中,我分享了一个Python脚本,作为一个概念验证(POC),使用OpenAI的GPT-4语言模型自动翻译我的博客文章。这个脚本专门设计用于处理我的Hugo博客结构中的Markdown文件,方便管理我文章的多语言版本。它们有英文、西班牙文和中文版本。
项目起源:将AI与自动化结合到我的博客中
我对人工智能日益增长的兴趣启发了这个自动翻译我博客文章的项目。在初步体验了OpenAI GPT-4和Mistral AI的API后,我被将这些技术应用到一个实际项目的想法所吸引,为我的博客提供切实的价值。这不仅是掌握AI工具的追求,也是将自动化和创新结合起来丰富我的数字空间的愿望。
这个项目演变成一段冒险,AI不仅是写作的主题,也是开发过程中的积极合作伙伴。用AI简单高效地翻译我的文章,同时探索其自动化能力,开启了令人着迷的前景。这是一个跨越语言障碍的机会,使我的内容可以被更广泛的受众访问,同时在不断发展的人工智能领域中探索。
挑战
主要的挑战是创建一个脚本,能够准确翻译并保留文章的原始格式,特别是代码块、链接和图片。另一个挑战是确保脚本可以轻松适应以支持不同的语言。 它还必须能够考虑这种结构:
├── content
│ ├── about
│ │ └── a-propos-du-blog-jls42.md
│ ├── mentions
│ │ └── mentions-legales.md
│ ├── posts
│ │ ├── blog
│ │ │ └── nouveau-theme-logo.md
│ │ ├── ia
│ │ │ ├── poc-mistral-ai-mixtral.md
│ │ │ ├── poc-openai-api-gpt4.md
│ │ │ └── stable-difusion-aws-ec2.md
│ │ ├── infrastructure
│ │ │ └── infrastruture-as-code-serverless-ha-jls42-org.md
│ │ └── raspberry-pi
│ │ ├── glusterfs_distribue_replique_sur_raspberry_pi_via_ansible.md
│ │ ├── initialisation-auto-de-raspbian-sur-raspberry-pi.md
│ │ ├── installation-de-docker-sur-raspberry-pi-via-ansible.md
│ │ └── installation-de-kubernetes-sur-raspberry-pi-via-ansible.md
解决方案:一个创新的脚本
我设计了一个Python脚本,利用OpenAI GPT-4 API来翻译文本,同时保留非文本元素。通过一系列处理规则和占位符的使用,该脚本可以识别并排除代码块和其他不可翻译的元素,从而确保翻译后的内容与原文保持一致。
关键功能
- 使用GPT-4进行精确翻译:该脚本使用OpenAI的GPT-4模型将文本从法语翻译成英语,确保保留原始内容的质量和细微差别。
- 保留格式:在翻译过程中,代码块、URL和图片路径被识别并保持不变,确保保留原始格式。
- 多语言灵活性:该脚本易于适应不同的源语言和目标语言,允许广泛的多语言应用。
- 支持Markdown文件:能够翻译用Markdown编写的文档,保留其特定的结构和格式。
- 自动翻译目录:自动翻译给定目录及其子目录中找到的Markdown文件,便于管理大量内容。
- 整合翻译说明:在翻译后的文档末尾自动添加翻译说明,指明用于翻译的GPT模型。
- 易于配置和自定义:可自定义API密钥、GPT模型、源和目标语言以及文件目录的默认设置,提供极大的使用灵活性。
- 性能报告:该脚本提供有关翻译每个文件所需时间的反馈,可用于监控其性能。
脚本代码
代码也可在此处获得:AI-Powered Markdown Translator
#!/usr/bin/env python3
import os
import argparse
import time
from openai import OpenAI
import re
# Initialisation de la configuration avec les valeurs par défaut
DEFAULT_API_KEY = 'votre-clé-api-par-défaut'
DEFAULT_MODEL = "gpt-4-1106-preview"
DEFAULT_SOURCE_LANG = 'fr'
DEFAULT_TARGET_LANG = 'en'
DEFAULT_SOURCE_DIR = 'content/posts'
DEFAULT_TARGET_DIR = 'traductions_en'
MODEL_TOKEN_LIMITS = {
"gpt-4-1106-preview": 4096,
"gpt-4-vision-preview": 4096,
"gpt-4": 8192,
"gpt-4-32k": 32768,
"gpt-4-0613": 8192,
"gpt-4-32k-0613": 32768
}
# Fonction de traduction
def translate_with_openai(text, client, args):
"""
Traduit le texte donné du langage source au langage cible en utilisant l'API OpenAI.
Args:
text (str) : Le texte à traduire.
client : L'objet client OpenAI.
args : Les arguments contenant les informations sur le langage source, le langage cible et le modèle.
Returns:
str : Le texte traduit.
"""
# Détecter et stocker les blocs de code
code_blocks = re.findall(r'(^```[a-zA-Z]*\n.*?\n^```)', text, flags=re.MULTILINE | re.DOTALL)
placeholders = [f"#CODEBLOCK{index}#" for index, _ in enumerate(code_blocks)]
# Remplacer les blocs de code par des placeholders
for placeholder, code_block in zip(placeholders, code_blocks):
text = text.replace(code_block, placeholder)
# Création du message pour l'API
messages = [
{"role": "system", "content": f"Translate the following text from {args.source_lang} to {args.target_lang}, ensuring that elements such as URLs, image paths, and code blocks (delimited by ```) are not translated. Leave these elements unchanged."},
{"role": "user", "content": text}
]
# Envoi de la demande de traduction
response = client.chat.completions.create(
model=args.model,
messages=messages
)
# Obtenir le texte traduit et remplacer les placeholders par les blocs de code originaux
translated_text = response.choices[0].message.content.strip()
for placeholder, code_block in zip(placeholders, code_blocks):
translated_text = translated_text.replace(placeholder, code_block)
return translated_text
def add_translation_note(client, args):
"""
Ajoute une note de traduction à un document.
Args:
client : Le client de traduction.
args : Arguments supplémentaires.
Returns:
La note de traduction formatée.
"""
# Note de traduction en français
translation_note_fr = "Ce document a été traduit de la version française du blog par le modèle "
# Traduire la note en langue cible
translated_note = translate_with_openai(translation_note_fr + args.model, client, args)
# Formatage de la note de traduction
return f"\n\n**{translated_note}**\n\n"
# Traitement des fichiers Markdown
def translate_markdown_file(file_path, output_path, client, args):
"""
Traduit le contenu d'un fichier markdown en utilisant l'API de traduction OpenAI et écrit le contenu traduit dans un nouveau fichier.
Args:
file_path (str): Chemin vers le fichier markdown d'entrée.
output_path (str): Chemin vers le fichier de sortie où le contenu traduit sera écrit.
client: Client de traduction OpenAI.
args: Arguments supplémentaires pour le processus de traduction.
Returns:
None
"""
print(f"Traitement du fichier : {file_path}")
start_time = time.time()
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
translated_content = translate_with_openai(content, client, args)
# Ajouter la note de traduction à la fin du contenu traduit
translation_note = add_translation_note(client, args)
translated_content_with_note = translated_content + translation_note
with open(output_path, 'w', encoding='utf-8') as f:
f.write(translated_content_with_note)
end_time = time.time()
print(f"Traduction terminée en {end_time - start_time:.2f} secondes.")
def translate_directory(input_dir, output_dir, client, args):
"""
Traduit tous les fichiers markdown dans le répertoire d'entrée et ses sous-répertoires.
Args:
input_dir (str): Chemin vers le répertoire d'entrée.
output_dir (str): Chemin vers le répertoire de sortie.
client: Objet client de traduction.
args: Arguments supplémentaires pour la traduction.
Returns:
None
"""
for root, dirs, files in os.walk(input_dir, topdown=True):
# Exclure les dossiers qui commencent par "traductions_"
dirs[:] = [d for d in dirs if not d.startswith("traductions_")]
for file in files:
if file.endswith('.md'):
file_path = os.path.join(root, file)
base, _ = os.path.splitext(file)
# Ajouter le nom du modèle utilisé dans le nom du fichier de sortie
output_file = f"{base}-{args.model}-{args.target_lang}.md"
relative_path = os.path.relpath(root, input_dir)
output_path = os.path.join(output_dir, relative_path, output_file)
os.makedirs(os.path.dirname(output_path), exist_ok=True)
if not os.path.exists(output_path):
translate_markdown_file(file_path, output_path, client, args)
print(f"Fichier '{file}' traité.")
def main():
"""
Fonction principale pour traduire les fichiers Markdown.
Args:
--source_dir (str): Répertoire source contenant les fichiers Markdown.
--target_dir (str): Répertoire cible pour sauvegarder les traductions.
--model (str): Modèle GPT à utiliser.
--target_lang (str): Langue cible pour la traduction.
--source_lang (str): Langue source pour la traduction.
"""
parser = argparse.ArgumentParser(description="Traduit les fichiers Markdown.")
parser.add_argument('--source_dir', type=str, default=DEFAULT_SOURCE_DIR, help='Répertoire source contenant les fichiers Markdown')
parser.add_argument('--target_dir', type=str, default=DEFAULT_TARGET_DIR, help='Répertoire cible pour sauvegarder les traductions')
parser.add_argument('--model', type=str, default=DEFAULT_MODEL, help='Modèle GPT à utiliser')
parser.add_argument('--target_lang', type=str, default=DEFAULT_TARGET_LANG, help='Langue cible pour la traduction')
parser.add_argument('--source_lang', type=str, default=DEFAULT_SOURCE_LANG, help='Langue source pour la traduction')
args = parser.parse_args()
openai_api_key = os.getenv('OPENAI_API_KEY', DEFAULT_API_KEY)
with OpenAI(api_key=openai_api_key) as client:
translate_directory(args.source_dir, args.target_dir, client, args)
if __name__ == "__main__":
main()
脚本详解
模块导入
首先,我们需要导入一些必要的模块,如os
、argparse
、time
和re
。这些模块用于执行文件系统操作、解析命令行参数、测量执行时间以及执行文本搜索和替换操作。
常量
接下来,我们定义了一些常量,如DEFAULT_API_KEY
、DEFAULT_MODEL
、DEFAULT_SOURCE_LANG
、DEFAULT_TARGET_LANG
、DEFAULT_SOURCE_DIR
和DEFAULT_TARGET_DIR
。这些常量表示脚本中使用的默认值,但可以通过指定命令行参数来修改。
translate_with_openai
函数
接下来,我们有translate_with_openai
函数。该函数以文本、OpenAI客户端对象和参数作为参数。它使用OpenAI API将文本从源语言翻译成目标语言。以下是它的工作原理:
- 该函数使用正则表达式来检测和存储文本中的代码块。这些代码块由三个反引号(
)分隔。代码块存储在名为
code_blocks`的列表中。 - 然后,该函数将文本中的代码块替换为占位符。占位符是形式为
#CODEBLOCK{index}#
的字符串,其中index
是code_blocks
列表中相应代码块的索引。 - 该函数为OpenAI API创建一条消息。该消息包含两部分:一条系统消息,指示API将文本从源语言翻译成目标语言,同时保持URL、图像路径和代码块等元素不变;以及一条用户消息,其中包含要翻译的文本。
- 该函数使用
client.chat.completions.create()
方法向API发送翻译请求。它指定要使用的模型和要翻译的消息。 - API的响应包含翻译后的文本。该函数检索翻译后的文本,并将占位符替换为原始代码块。
- 最后,该函数返回翻译后的文本。
add_translation_note
函数
接下来,我们有add_translation_note
函数。该函数向文档添加翻译说明。它以OpenAI客户端对象和参数作为参数。以下是它的工作原理:
- 该函数使用
translation_note_fr
变量创建法语翻译说明。 - 然后,该函数使用
translate_with_openai
函数通过OpenAI API翻译翻译说明。传递给translate_with_openai
的参数包括法语翻译说明和其他参数。 - 该函数通过添加格式字符来格式化翻译后的翻译说明。
- 最后,该函数返回格式化的翻译说明。
translate_markdown_file
函数
接下来,我们有translate_markdown_file
函数。该函数以输入Markdown文件的路径、输出文件的路径、OpenAI客户端对象和参数作为参数。它使用OpenAI翻译API翻译Markdown文件的内容,并将翻译后的内容写入输出文件。
这个脚本不仅提高了我的博客文章的可访问性,而且还为多语言内容创建的自动化领域开辟了新的可能性。这是朝着更广泛、更具包容性的知识共享迈出的一步。 ## 用户体验和处理时间
使用示例
# Création des répertoires cibles
jls42@Boo:~/blog/jls42$ mkdir content/traductions_en content/traductions_es
###############################################
# Demande de traduction à l'IA vers l'anglais #
###############################################
jls42@Boo:~/blog/jls42$ python3 translate.py --source_dir content/ --target_dir content/traductions_en
Traitement du fichier : content/posts/ia/stable-difusion-aws-ec2.md
Traduction terminée en 21.57 secondes.
Fichier 'stable-difusion-aws-ec2.md' traité.
Traitement du fichier : content/posts/ia/poc-openai-api-gpt4.md
Traduction terminée en 34.87 secondes.
Fichier 'poc-openai-api-gpt4.md' traité.
Traitement du fichier : content/posts/ia/poc-mistral-ai-mixtral.md
Traduction terminée en 62.47 secondes.
Fichier 'poc-mistral-ai-mixtral.md' traité.
Traitement du fichier : content/posts/raspberry-pi/installation-de-kubernetes-sur-raspberry-pi-via-ansible.md
Traduction terminée en 46.37 secondes.
Fichier 'installation-de-kubernetes-sur-raspberry-pi-via-ansible.md' traité.
Traitement du fichier : content/posts/raspberry-pi/installation-de-docker-sur-raspberry-pi-via-ansible.md
Traduction terminée en 10.08 secondes.
Fichier 'installation-de-docker-sur-raspberry-pi-via-ansible.md' traité.
Traitement du fichier : content/posts/raspberry-pi/initialisation-auto-de-raspbian-sur-raspberry-pi.md
Traduction terminée en 17.17 secondes.
Fichier 'initialisation-auto-de-raspbian-sur-raspberry-pi.md' traité.
Traitement du fichier : content/posts/blog/nouveau-theme-logo.md
Traduction terminée en 12.91 secondes.
Fichier 'nouveau-theme-logo.md' traité.
Traitement du fichier : content/posts/infrastructure/infrastruture-as-code-serverless-ha-jls42-org.md
Traduction terminée en 12.64 secondes.
Fichier 'infrastruture-as-code-serverless-ha-jls42-org.md' traité.
Traitement du fichier : content/mentions/mentions-legales.md
Traduction terminée en 11.90 secondes.
Fichier 'mentions-legales.md' traité.
Traitement du fichier : content/about/a-propos-du-blog-jls42.md
Traduction terminée en 18.72 secondes.
Fichier 'a-propos-du-blog-jls42.md' traité.
################################################
# Demande de traduction à l'IA vers l'espagnol #
################################################
jls42@Boo:~/blog/jls42$ python3 translate.py --source_dir content/ --target_dir content/traductions_es --target_lang es
Traitement du fichier : content/posts/ia/stable-difusion-aws-ec2.md
Traduction terminée en 33.19 secondes.
Fichier 'stable-difusion-aws-ec2.md' traité.
Traitement du fichier : content/posts/ia/poc-openai-api-gpt4.md
Traduction terminée en 25.24 secondes.
Fichier 'poc-openai-api-gpt4.md' traité.
Traitement du fichier : content/posts/ia/poc-mistral-ai-mixtral.md
Traduction terminée en 58.78 secondes.
Fichier 'poc-mistral-ai-mixtral.md' traité.
Traitement du fichier : content/posts/raspberry-pi/installation-de-kubernetes-sur-raspberry-pi-via-ansible.md
Traduction terminée en 17.64 secondes.
Fichier 'installation-de-kubernetes-sur-raspberry-pi-via-ansible.md' traité.
Traitement du fichier : content/posts/raspberry-pi/installation-de-docker-sur-raspberry-pi-via-ansible.md
Traduction terminée en 19.60 secondes.
Fichier 'installation-de-docker-sur-raspberry-pi-via-ansible.md' traité.
Traitement du fichier : content/posts/raspberry-pi/initialisation-auto-de-raspbian-sur-raspberry-pi.md
Traduction terminée en 37.12 secondes.
Fichier 'initialisation-auto-de-raspbian-sur-raspberry-pi.md' traité.
Traitement du fichier : content/posts/blog/nouveau-theme-logo.md
Traduction terminée en 18.91 secondes.
Fichier 'nouveau-theme-logo.md' traité.
Traitement du fichier : content/posts/infrastructure/infrastruture-as-code-serverless-ha-jls42-org.md
Traduction terminée en 30.73 secondes.
Fichier 'infrastruture-as-code-serverless-ha-jls42-org.md' traité.
Traitement du fichier : content/mentions/mentions-legales.md
Traduction terminée en 13.14 secondes.
Fichier 'mentions-legales.md' traité.
Traitement du fichier : content/about/a-propos-du-blog-jls42.md
Traduction terminée en 11.24 secondes.
Fichier 'a-propos-du-blog-jls42.md' traité.
处理时间
- 英语 : 约4分钟 (248.70秒)
- 西班牙语 : 约4.7分钟 (284.05秒)
- 总累计时间 : 约8.7分钟 (532.75秒) 这些时间证明了脚本的效率和速度。
结果
您现在可以通过以下链接访问这些翻译内容生成的结果:
这篇博客文章是我在利用AI自动化翻译方面的经验总结。它证明,当我们将编程与人工智能相结合时,可能性几乎是无限的,为知识共享和内容可访问性领域开辟了新的令人兴奋的视野。
‘本文档使用 claude-3-opus-20240229 模型从 fr 版本翻译成 zh 语言。有关翻译过程的更多信息,请访问 https://gitlab.com/jls42/ai-powered-markdown-translator'