Dzięki StoryPixAI moim celem było stworzenie interaktywnej aplikacji webowej umożliwiającej użytkownikom generowanie opowieści dla dzieci, wzbogaconych o obrazy generowane przez modele sztucznej inteligencji. Aby to osiągnąć, użyłem kilku usług AWS, takich jak Lambda, API Gateway, DynamoDB, S3 i Cognito do uwierzytelniania. Kod infrastruktury jest zarządzany za pomocą Terraform, a wdrożenie jest zautomatyzowane przez GitLab CI. W tym wpisie odsłaniam kulisy tego ekscytującego projektu — od wyborów technologicznych po napotkane wyzwania.
Wprowadzenie
Jako doświadczony architekt chmur i inżynier DevOps zawsze fascynowały mnie nowe technologie i ich potencjał do zmiany codzienności. Pojawienie się generatywnej SI wzbudziło we mnie rosnącą ciekawość, dlatego poczułem potrzebę zanurzenia się w ten dynamiczny świat.
Tak narodził się StoryPixAI — projekt osobisty, który pozwolił mi eksplorować nieograniczone możliwości SI do tworzenia spersonalizowanych historii i magicznych ilustracji dla dzieci. Projekt dał mi okazję wcielić się w rolę full-stack developera, prompt engineera, product ownera, a nawet projektanta UX/UI, jednocześnie dzieląc się pasją do technologii z bliskimi.
W tym wpisie na blogu podzielę się wyborami technologicznymi i wyzwaniami, które pokonałem w trakcie tej fascynującej przygody.
Ale najpierw — przedsmak!
Aby dać Wam wyobrażenie o potencjale StoryPixAI, oto kilka automatycznie wygenerowanych opowieści, w kilku językach.
Każda historia jest opatrzona ilustracjami, co sprawia, że opowieść jest jeszcze bardziej wciągająca dla dzieci:
- Francuski: Tom, Zoé et le Royaume d’Argentor
- Angielski: Magiczna wyprawa księżniczki Léa i złodzieja gigantycznego ślimaka
- Hiszpański: Wielka przygoda Rogera i Coco, klauna
- Niemiecki: Szalony drwal i magiczna przygoda
- Włoski: Dziewczynka i magiczny jednorożec w zaczarowanym lesie
- Portugalski: Zaczarowana podróż Lucasa i jego przyjaciół
Sztuczna inteligencja w służbie kreatywności: ścieżka eksperymentów
Moja przygoda ze StoryPixAI rozpoczęła się od prostego Proof of Concept (PoC): funkcji Lambda, która komunikowała się z OpenAI, by generować tekst, oraz z DALL-E, by tworzyć obrazy. Ten pierwszy sukces zachęcił mnie do pójścia dalej i eksperymentowania z innymi modelami SI poprzez AWS Bedrock.
GPT-4 i GPT-4-o: zwinni opowiadacze
Od początku projektu GPT-4 od OpenAI narzucił się jako oczywisty wybór do generowania tekstu. Jego zdolność do rozumienia niuansów języka naturalnego i tworzenia spójnych, kreatywnych opowieści pozwoliła mi tworzyć angażujące historie dopasowane do wieku i zainteresowań dzieci. Eksperymentowałem z różnymi stylami pisania — od baśni po kosmiczne przygody, przez opowieści o zwierzętach i fantastykę.
Kiedy uruchomiono GPT-4-0, szybko zintegrowałem ten nowy model ze StoryPixAI. Zaimponowała mi jego zwiększona szybkość generowania, która znacznie skróciła czas oczekiwania, oraz zauważalna poprawa jakości generowanych historii — opowieści stały się jeszcze płynniejsze, spójniejsze i bardziej pomysłowe. GPT-4-0 stał się więc kluczowym atutem StoryPixAI, oferując szybsze i przyjemniejsze doświadczenie użytkownika.
DALL-E 3: ilustrator referencyjny
Choć modele generujące tekst dawały zadowalające rezultaty, wybór narzędzia do generowania obrazów okazał się krytyczny. Po wielu testach DALL-E 3 wyrósł na model referencyjny dla StoryPixAI. Jego zdolność do tworzenia oryginalnych, szczegółowych ilustracji idealnie dopasowanych do historii wygenerowanych przez GPT-4 była decydującym czynnikiem sukcesu projektu.
AWS Bedrock: drzwi do eksperymentów
Chcąc nie ograniczać się do OpenAI, skorzystałem z AWS Bedrock, aby łatwo integrować inne modele generatywne z StoryPixAI. Ta platforma pozwoliła mi testować Clauda od Anthropic i Mistrala do generowania tekstu oraz Stable Diffusion do tworzenia obrazów.
Chociaż te modele dały ciekawe wyniki, ostatecznie zdecydowałem się skupić na GPT-4 i GPT-4-0 ze względu na ich szybkość i jakość generowanego tekstu oraz na DALL-E 3 za zdolność do tworzenia ilustracji idealnie dopasowanych do historii. Warto podkreślić, że prompt używany do generowania obrazów jest w dużej mierze opracowywany przez sam model tekstowy, co zapewnia spójność między narracją a ilustracją.
Wyzwanie asynchronicznego API i DynamoDB
Po zatwierdzeniu PoC zabrałem się za stworzenie API, aby udostępnić StoryPixAI poprzez interfejs webowy. W tym momencie napotkałem pierwsze poważne ograniczenie: limit czasu API Gateway. Aby obejść to ograniczenie i umożliwić generowanie dłuższych i bardziej złożonych historii, musiałem wdrożyć architekturę asynchroniczną.
Wtedy w grę wkroczył Amazon DynamoDB. Użyłem tej bazy NoSQL do przechowywania zadań generowania historii w toku oraz ich wyników po zakończeniu. Dzięki temu podejściu API mogło zwrócić natychmiastową odpowiedź użytkownikowi, który później mógł sprawdzać status swojego żądania i pobrać wygenerowaną historię, gdy była gotowa.
CORS i interfejs użytkownika: przeszkody do pokonania
Stworzenie interfejsu webowego również wiązało się z wyzwaniami. Musiałem zgłębić niuanse CORS (Cross-Origin Resource Sharing), aby frontend mógł komunikować się z API. Poświęciłem też czas na poprawę doświadczenia użytkownika, dodając funkcje takie jak wybór modeli SI i stylów obrazów.
Prompting: sztuka do opanowania
W trakcie tworzenia StoryPixAI doskonaliłem swoje umiejętności w zakresie prompting — sztuki formułowania właściwych zapytań, które kierują modele SI. Nauczyłem się dostosowywać prompty w zależności od używanych modeli, parametrów opowieści i oczekiwań użytkowników. Ten etap był kluczowy do uzyskania wyników wysokiej jakości i zapewnienia satysfakcjonującego doświadczenia użytkownika.
Solidna i zautomatyzowana infrastruktura na AWS
StoryPixAI opiera się na infrastrukturze serverless hostowanej w Amazon Web Services (AWS), oferującej idealne połączenie elastyczności, skalowalności i optymalizacji kosztów. Ta architektura, w pełni zautomatyzowana dzięki Terraform i GitLab CI/CD, umożliwia szybkie i niezawodne wdrożenia aplikacji.
Usługi AWS w sercu StoryPixAI

Architektura StoryPixAI opiera się na następujących usługach AWS:
- Amazon S3 (Simple Storage Service) : Przechowywanie statycznych plików strony (HTML, CSS, JavaScript) oraz wygenerowanych opowieści i powiązanych z nimi ilustracji.
- Amazon CloudFront : Sieć dostarczania treści (CDN), która przyspiesza dystrybucję zawartości StoryPixAI do użytkowników na całym świecie, buforując ją w lokalizacjach geograficznie bliskich użytkownikom.
- Amazon API Gateway : Bezpieczne wejście do aplikacji. Obsługuje żądania użytkowników, zapewnia ich uwierzytelnianie przez Amazon Cognito i kieruje je do odpowiednich funkcji Lambda.
- AWS Lambda : Funkcje serverless, które stanowią silnik StoryPixAI. Orkiestrują generowanie historii, tworzenie obrazów, obsługę zadań asynchronicznych i interakcję z DynamoDB oraz innymi usługami AWS.
- Amazon DynamoDB : Elastyczna i wydajna baza NoSQL używana do przechowywania informacji niezbędnych do działania aplikacji.
- Amazon Cognito : Usługa zarządzania tożsamością i dostępem, która zabezpiecza aplikację, umożliwiając logowanie użytkowników i kontrolując ich uprawnienia. Zapewnia, że tylko uwierzytelnieni użytkownicy mają dostęp do funkcji generowania historii.
- Amazon Bedrock : Platforma upraszczająca dostęp i korzystanie z modeli generatywnych SI różnych dostawców, takich jak Anthropic (Claude) i Stability AI (Stable Diffusion). Bedrock ułatwia integrację tych modeli z aplikacją bez konieczności zarządzania ich infrastrukturą zaplecza.
- Inne usługi AWS : StoryPixAI korzysta również z innych usług AWS, takich jak IAM (Identity and Access Management) do szczegółowego zarządzania uprawnieniami dostępu do zasobów, CloudWatch do monitorowania i logów (kluczowe do debugowania i analizy wydajności) oraz Systems Manager Parameter Store (SSM Parameter Store) do przechowywania wrażliwych informacji, jak klucze API, co zapewnia bezpieczeństwo aplikacji.
Terraform: automatyzacja infrastruktury
Aby zarządzać tą złożoną infrastrukturą, wybrałem Terraform — narzędzie Infrastructure as Code (IaC), które pozwala opisać infrastrukturę w formie deklaratywnego kodu. Dzięki Terraform mogłem zautomatyzować tworzenie, modyfikację i usuwanie zasobów AWS, zapewniając spójne, powtarzalne i łatwe w zarządzaniu środowisko. To znacznie upraszcza proces wdrożenia i redukuje ryzyko błędów ludzkich.
GitLab CI/CD: płynne i bezproblemowe wdrożenia
Aby zapewnić ciągłe i niezawodne wdrożenia StoryPixAI, skonfigurowałem pipeline CI/CD (Integracja Ciągła / Wdrażanie Ciągłe) w GitLab. Pipeline automatyzuje testy, budowę i wdrożenie aplikacji przy każdej zmianie kodu źródłowego, umożliwiając szybkie wykrywanie i naprawę błędów oraz bezpieczne dostarczanie nowych funkcji. To podejście gwarantuje, że aplikacja jest zawsze aktualna i minimalizuje czas przestojów.
To połączenie AWS, Terraform i GitLab CI/CD pozwoliło mi zbudować solidną, skalowalną i łatwą w utrzymaniu infrastrukturę, dając więcej czasu na koncentrację na kreatywnej stronie projektu i ulepszaniu doświadczenia użytkownika.
Ogólna architektura projektu StoryPixAI
Zanim zagłębię się w kod, oto przegląd architektury aplikacji:
- Statyczna strona na S3 : Statyczna strona hostowana w bucketcie S3, dostępna przez CloudFront dla globalnej dystrybucji.
- API Gateway : Udostępnia endpointy do generowania opowieści i sprawdzania statusu.
- Funkcje Lambda :
StoryPixAI.py: Generuje historię i powiązane obrazy.status_checker.py: Sprawdza status generowania w DynamoDB.
- DynamoDB : Przechowuje statusy zadań generowania.
- S3 : Przechowuje wygenerowane obrazy i powstałe strony HTML.
- Cognito : Zarządza uwierzytelnianiem użytkowników, by zabezpieczyć API.
Funkcja Lambda StoryPixAI.py
Przegląd ogólny
Funkcja StoryPixAI.py jest sercem aplikacji. Odpowiada za:
- Generowanie historii na podstawie promptu od użytkownika.
- Tworzenie szczegółowych instrukcji, które nakierowują model SI przy generowaniu opowieści.
- Wyodrębnianie streszczeń dla każdej sceny lub kluczowego elementu historii.
- Generowanie obrazów odpowiadających tym streszczeniom.
- Łączenie tekstu i obrazów w stronę HTML.
- Przechowywanie wyniku w S3 i aktualizację statusu w DynamoDB.
Rozbiórka kodu
Importy i początkowa konfiguracja
import json
import boto3
import base64
import os
import re
from datetime import datetime
from openai import OpenAI
import logging
# Configuration du logger
logger = logging.getLogger()
logger.setLevel(logging.INFO)
generate_images = False
region_name = os.getenv("AWS_REGION", "us-east-1")
# Création d'un client SSM
ssm = boto3.client("ssm", region_name=region_name)
# Obtention de la clé API OpenAI depuis le SSM
parameter = ssm.get_parameter(Name="/openaikey", WithDecryption=True)
W tej sekcji importuję niezbędne moduły, konfiguruję logger dla debugowania i pobieram klucz API OpenAI przechowywany w AWS Systems Manager Parameter Store (SSM). Pozwala to zabezpieczyć klucz i nie trzymać go jawnie w kodzie.
Funkcje pomocnicze
Korekta tagów
def correct_resume_tags(text):
# Corrige les balises 'résumé', 'resume', 'titre' et leurs variantes en 'resume' et 'titre' respectivement dans le texte généré.
Funkcja ta zapewnia, że tagi używane do wyodrębniania streszczeń i tytułów są jednolite. Jest to kluczowe dla poprawnego wyodrębniania streszczeń później.
Ekstrakcja streszczeń
def extract_summaries(text):
# Extrait les résumés du texte en utilisant des balises spécifiques.
Używa wyrażeń regularnych do wydobywania sekcji tekstu oddzielonych przez [resume] i [end_resume]. Te streszczenia posłużą jako prompt do generowania obrazów.
Generowanie instrukcji dla obrazów
def generate_image_instructions(prompt, style, language):
# Génère les instructions pour la création d'images.
Funkcja ta formatuje prompt w sposób, który nakierowuje model generujący obrazy, uwzględniając styl i język.
Aktualizacja DynamoDB
def update_dynamodb(request_id, status, result_url=None):
# Met à jour une entrée dans la table DynamoDB avec l'ID de la requête, le statut et l'URL du résultat.
Aktualizuje tabelę TaskStatus w celu śledzenia stanu generowania, co jest istotne dla funkcji status_checker.py.
Dogłębna analiza generate_story_instructions
Funkcja generate_story_instructions jest sercem projektu. Generuje zestaw szczegółowych instrukcji, które przekazywane są do modelu SI, aby nakierować generowanie historii.
def generate_story_instructions(prompt, language):
"""
Génère les instructions pour créer une histoire captivante pour enfants.
Args:
prompt (str): Texte source pour inspirer l'histoire.
language (str): Langue de l'histoire.
Returns:
str: Instructions formatées pour la génération de l'histoire.
"""
language_description = get_language_description(language)
return f"""
Crée une histoire unique de 1000 à 1500 mots, captivante et riche en descriptions visuelles pour enfants uniquement dans la langue "{language_description}", inspirée par : "{prompt}". Cette histoire doit mêler aventure, magie, et enseigner des valeurs importantes telles que l'amitié, le courage, la persévérance, l'empathie, et la gentillesse.
L'histoire peut aborder des thèmes comme : l'amitié entre un enfant humain et un animal merveilleux, la découverte d'un monde magique caché, un long voyage vers une contrée enchantée, un enfant qui découvre qu'il/elle possède des pouvoirs magiques spéciaux et doit apprendre à les maîtriser, une quête pour sauver une créature légendaire en danger, un voyage à travers des royaumes féeriques pour briser un sortilège ancien, une aventure sous-marine dans un monde marin peuplé de sirènes et de créatures fantastiques, une mission pour réunir des objets magiques dispersés afin d'empêcher un grand cataclysme, une compétition amicale entre enfants dotés de capacités extraordinaires dans une école de sorcellerie, etc.
L'histoire peut également explorer : l'acceptation de soi à travers un personnage unique comme un enfant métamorphe, la découverte d'une ancienne civilisation perdue et de ses secrets, une épopée pour retrouver des parents disparus dans un monde parallèle, une lutte contre les forces des ténèbres menaçant d'engloutir un royaume enchanté, etc.
N'hésites pas à combiner plusieurs de ces idées pour créer une trame narrative riche et captivante. Tu peux aussi t'inspirer de contes ou légendes traditionnels et leur donner un nouvel éclairage fantastique adapté aux enfants.
Raconte l'histoire au présent pour une immersion maximale.
Instructions spécifiques :
- Utilise des phrases courtes et simples, adaptées pour des enfants de moins de 10 ans.
- Intègre des dialogues dynamiques et réalistes pour rendre l'histoire vivante.
- Choisis des mots simples pour une meilleure compréhension par de jeunes lecteurs.
- Crée des personnages diversifiés en termes d'âge, de genre, d'origine ethnique et de capacités. Assure-toi que l'apparence des personnages (cheveux, yeux, taille, etc.) est précisée au niveau du résumé si jamais ils doivent y apparaître pour être cohérent avec le texte de l'histoire.
- Attribue des traits de personnalité uniques, des intérêts, des peurs et des rêves à chaque personnage pour une caractérisation approfondie.
- Développe les personnages et leurs relations tout au long de l'histoire en montrant leurs interactions, leurs moments de partage et leur évolution.
- Crée des conflits émotionnels et intellectuels, au-delà des défis physiques.
- Décris en détail les défis physiques et les actions des personnages pour les surmonter. Par exemple, lorsqu'ils traversent la forêt, mentionne les branches qui les gênent, les racines sur lesquelles ils trébuchent, la végétation dense qu'ils doivent écarter. Montre leur fatigue, leurs efforts pour avancer, les émotions qu'ils ressentent face à ces difficultés.
- Fais échouer les personnages principaux à un moment donné. Montre comment ils gèrent cet échec et essaient à nouveau. Décris en détail leurs sentiments de doute, de frustration ou de découragement, et comment ils puisent dans leur détermination et leur amitié pour surmonter cet obstacle. Assure-toi que l'échec est significatif et impacte réellement la progression de l'histoire.
- Crée des conflits entre les personnages principaux, ou entre les personnages principaux et les personnages secondaires.
- Ajoute des rebondissements et des défis supplémentaires pour maintenir l'intérêt des jeunes lecteurs. Décris en détail la réaction des personnages face à ces rebondissements, leurs émotions, leurs doutes et leurs efforts pour s'adapter à la nouvelle situation.
- Résous les conflits de manière créative et non violente, en mettant l'accent sur le pouvoir de la communication et de la coopération.
- Développe les antagonistes en leur donnant des motivations claires, des traits de personnalité distincts et des capacités redoutables qui les rendent réellement menaçants pour les héros. Décris en détail leurs actions pour contrecarrer ou mettre en échec les héros à plusieurs reprises au cours de l'histoire. Montre comment leur présence et leurs actions sèment le doute, la peur ou le découragement chez les héros avant qu'ils ne parviennent à les surmonter.
- Assure-toi que le récit comporte une structure narrative claire avec une introduction captivante, de l'action, des conflits, et une résolution.
- Ajoute un objectif clair pour les personnages à atteindre et un accomplissement significatif à la fin de l'histoire.
- Inclue des moments de réflexion ou d'émotion pour permettre aux lecteurs de se connecter aux personnages et à leurs aventures.
- Varie les interactions entre les personnages pour éviter les répétitions et maintenir l'intérêt.
- Maintiens un bon rythme dans l'histoire en alternant des scènes d'action, de réflexion et d'émotion. Ajoute des éléments de suspense pour maintenir l'intérêt des jeunes lecteurs.
- Utilise abondamment des descriptions visuelles riches en couleurs, en textures et en formes pour stimuler l'imagination des enfants et créer un monde immersif.
- Inclue des descriptions sensorielles pour enrichir l'expérience narrative (sons, odeurs, textures).
- Chaque personnage doit avoir une motivation claire et des traits de caractère distincts.
- Assure-toi que chaque chapitre se termine par un cliffhanger ou une question ouverte pour maintenir l'intérêt des lecteurs.
- Ajoute des éléments éducatifs subtils (faits scientifiques, connaissances culturelles) pour enrichir l'histoire sans alourdir le récit.
- Enrichis les descriptions sensorielles pour permettre aux lecteurs de vraiment "voir", "entendre" et "ressentir" l'environnement des personnages.
- Personnalise l'histoire avec des noms ou des éléments familiers pour une connexion émotionnelle plus forte.
- Intègre des questions de réflexion et d'interaction pour engager les enfants.
- Ajoute des éléments d'humour et des jeux de mots pour rendre l'histoire amusante.
- Utilise des illustrations mentales vives et détaillées pour stimuler l'imagination.
- Intègre une leçon morale ou un message éducatif de manière naturelle dans le récit.
- Intègre des messages positifs et encourageants dans tes histoires, comme l'importance de croire en soi, de poursuivre ses rêves et de surmonter les obstacles.
- Ajoute des éléments d'humour et de légèreté dans tes histoires pour les rendre plus amusantes et agréables à lire pour les enfants.
- Intègre des éléments éducatifs dans tes histoires de manière subtile et ludique, comme des métaphores pour enseigner des concepts scientifiques ou des voyages dans différents pays pour enseigner la géographie et les cultures.
- Ajoute des éléments interactifs dans tes histoires, comme des questions aux enfants, des choix qui influencent l'histoire, ou des petits défis ou jeux à réaliser.
Ajoute des difficultés et des obstacles significatifs pour rendre l'histoire plus engageante et permettre aux héros de montrer leur courage et leur ingéniosité :
- Développe les antagonistes en leur donnant des motivations claires, des traits de personnalité distincts et des capacités redoutables qui les rendent réellement menaçants pour les héros. Décris en détail leurs actions pour contrecarrer ou mettre en échec les héros à plusieurs reprises au cours de l'histoire. Montre comment leur présence et leurs actions sèment le doute, la peur ou le découragement chez les héros avant qu'ils ne parviennent à les surmonter.
- Décris chaque affrontement au niveau quasi "temps réel", avec les actions, réactions, émotions, blessures, etc. détaillées pas à pas, presque comme si on y assistait. Intègre des éléments de surprise, de retournements inattendus au cours de ces affrontements pour augmenter le suspense. Montre comment les capacités et l'ingéniosité des antagonistes poussent les héros dans leurs derniers retranchements.
- Lorsque les héros échouent, prends le temps de décrire en détail leurs émotions négatives (déception, frustration, colère, tristesse, etc.) et leurs doutes intérieurs. Montre qu'ils remettent en question leur capacité à poursuivre leur quête à la suite de ces échecs cuisants. Fais en sorte qu'ils aient besoin d'un véritable déclic intérieur, motivé par l'amitié ou leurs valeurs, pour se relever et persévérer. Montre comment cela impacte leurs relations entre eux (reproches, disputes, tensions, ou au contraire un élan de solidarité).
- Décris les affrontements physiques ou psychologiques étape par étape, en montrant les actions, réactions et émotions ressenties de part et d'autre. N'hésite pas à inclure des blessures, de la souffrance ou de la peur pour les héros lors de ces affrontements acharnés. Fais en sorte que la victoire des héros ne soit jamais acquise d'avance et nécessite des sacrifices ou des prises de risque de leur part.
- Crée des situations où les héros doivent collaborer et utiliser leurs compétences spécifiques pour réussir.
- Intègre des moments de doute ou de découragement pour montrer la persévérance des héros. Décris leurs luttes internes et comment ils trouvent la force de continuer. Fais en sorte que les héros aient besoin d'un véritable déclic intérieur, motivé par l'amitié ou leurs valeurs, pour se relever et persévérer.
- Ajoute des moments où l'amitié ou la confiance entre les héros est mise à rude épreuve par les difficultés rencontrées. Montre comment ils doivent surmonter leurs doutes, leur colère ou leur rancune les uns envers les autres pour rester soudés. Décris leurs prises de conscience, leurs excuses et leur cheminement pour renouer des liens forts malgré l'adversité.
- Place les héros dans des situations où ils doivent faire un choix difficile qui aura des conséquences douloureuses (abandonner un compagnon, renoncer à un rêve, etc.). Montre leur dilemme intérieur, leur déchirement avant de faire ce choix douloureux pour un plus grand bien. N'aie pas peur d'inclure des pertes, des renoncements ou des traumatismes marquants issus de ces choix cornéliens.
- Fais en sorte que les personnages apprennent et grandissent à travers les difficultés qu'ils rencontrent.
- Ajoute des rebondissements inattendus qui changent la direction de l'histoire et maintiennent l'intérêt des lecteurs. Décris en détail la réaction des personnages face à ces rebondissements, leurs émotions, leurs doutes et leurs efforts pour s'adapter à la nouvelle situation.
- Fais en sorte que les antagonistes infligent de véritables blessures physiques et/ou psychologiques aux héros au cours des affrontements. Décris ces blessures, la douleur ressentie, l'impact sur leur moral et leurs capacités à avancer. Montre leur résolution, leur courage pour continuer malgré ces handicaps.
- Assure-toi que chaque défi est pertinent pour l'histoire et contribue au développement des personnages.
- Décris en détail chaque énigme ou défi rencontré par les personnages. Par exemple, si les enfants doivent résoudre des énigmes chantées par les vents, précise le contenu de ces énigmes et la manière dont les enfants trouvent les réponses grâce à leur persévérance ou à l'aide de personnages secondaires.
- Lorsque les personnages surmontent un obstacle, montre le processus complet de leurs tentatives, incluant les échecs et les efforts qu'ils font avant de réussir. Par exemple, détaille comment ils essaient plusieurs méthodes pour résoudre une énigme ou surmonter un défi avant de finalement trouver la solution.
- Intègre des dialogues et des interactions entre les personnages et les gardiens ou les antagonistes qui posent des défis. Par exemple, si un enfant des vents protège un objet précieux, décris la conversation où il teste la patience des héros et les réactions des enfants face à ce test.
- Ajoute des descriptions des émotions et des pensées des personnages lorsqu'ils font face à des épreuves difficiles, montrant leur détermination, leurs doutes, et comment ils surmontent ces sentiments pour réussir.
- Assure-toi que chaque défi est clairement expliqué avec des indices et des solutions logiques que les enfants peuvent comprendre et suivre. Par exemple, spécifie les indices que les héros utilisent pour résoudre les énigmes et comment ces indices les mènent à la solution.
IMPORTANT : Ne traduisez ni modifiez pas les balises suivantes :
[titre]Ton titre ici[end_titre] (balises de titre)
[resume] et [end_resume] (balises de résumé)
N'ajoutez aucune autre balise que celles spécifiées ci-dessus.
Voici comment structurer les descriptions visuelles inspirées par : "{prompt}" :
- Commence chaque description avec la balise [resume] et finis avec la balise [end_resume]. Ne traduisez ni modifiez pas ces balises.
- Les descriptions doivent se concentrer exclusivement sur les éléments visuels sans inclure d'actions ou de dialogues des personnages.
- Chaque élément clé mentionné dans le prompt initial doit être décrit de manière unique et détaillée.
- Ne mentionne chaque élément (personnage, animal, lieu, objet clé) qu'une seule fois dans les descriptions visuelles. Une fois qu'un élément a été décrit, ne le mentionne plus dans les descriptions suivantes, même indirectement.
- Utilise des descriptions riches en couleurs, en textures et en formes pour stimuler l'imagination visuelle.
- Inclue des éléments fantastiques, magiques ou surréalistes pour rendre les scènes plus intéressantes et mémorables.
- Veille à ce que chaque description soit suffisamment détaillée pour permettre la création d'une illustration complète.
Exemple de structure de descriptions visuelles (ces exemples sont seulement pour référence, ne les utilisez pas tels quels dans l'histoire) :
[resume]Un koala super sympa avec une fourrure douce et grise, des yeux pétillants et un sourire amical. Il est assis sur une branche d'eucalyptus, grignotant des feuilles et observant son environnement avec curiosité.[end_resume]
[resume]Un escargot très méchant avec une coquille noire et luisante, et des yeux perçants qui semblent voir à travers tout. Il se déplace lentement mais de manière menaçante, laissant derrière lui une traînée de bave visqueuse.[end_resume]
[resume]Un arbre magique avec des feuilles d'un bleu profond qui brillent comme des étoiles. Des oiseaux de toutes les couleurs chantent autour des branches, ajoutant une mélodie enchantée à l'atmosphère mystique.[end_resume]
Assure-toi que chaque description visuelle est riche, détaillée et entièrement nouvelle, sans aucune répétition d'éléments précédents. Évite d'utiliser les exemples fournis ci-dessus et crée des descriptions fraîches pour chaque scène.
La conclusion de l'histoire doit renforcer les thèmes de l'aventure et de l'amitié avec une touche plus percutante, et être accompagnée d'une dernière description visuelle marquante.
[resume]Visualise le chemin de retour à travers un paysage unique et magique, différent pour chaque histoire. Par exemple, un pont arc-en-ciel, un sentier lumineux sous une pluie d'étoiles filantes, des pas dans le sable avec un soleil couchant, etc. Assure-toi que la description finale est riche en détails visuels et évoque une atmosphère enchantée et inoubliable.[end_resume]
Pour varier les débuts d'histoire et éviter la répétition, choisis parmi les exemples suivants, ou laisse libre cours à ton imagination :
- Une classe à l'école, un voyage en famille, une fête d'anniversaire, une visite chez les grands-parents, un jour de pluie où les enfants jouent à l'intérieur, une sortie en nature, etc.
- La découverte d'un livre magique, une rencontre inattendue avec un personnage mystérieux, un rêve étrange qui devient réalité, un message secret trouvé dans une bouteille, un animal parlant qui apparaît soudainement, etc.
- Des personnages principaux différents : une fratrie, des amis, un enfant et son grand-parent, un groupe de camarades de classe, etc.
- Des lieux de départ variés : une maison en ville, une cabane dans les bois, un appartement au bord de la mer, une ferme, une école, etc.
- Déclencheur de l'aventure variés aussi : un portail vers un monde magique, un objet mystérieux trouvé dans le grenier, un événement étrange comme une éclipse ou une étoile filante, un animal parlant qui a besoin d'aide, un visiteur de l'espace, etc.
Cette structure aide à créer un récit harmonieux et visuellement riche, propice à l'illustration et captivant pour les enfants.
Attention, je te rappelle la langue cible de l'histoire : "{language_description}"
"""
Konstrukcja promptu
Prompt został zaprojektowany tak, aby dostarczyć modelowi SI wszystkie informacje potrzebne do stworzenia spójnej, edukacyjnej i dostosowanej do dzieci historii.
-
Język : Parametr
language_descriptionpozwala określić język historii, zapewniając, że wygenerowany tekst będzie w żądanym języku. -
Temat : Prompt od użytkownika jest włączony do instrukcji jako podstawa opowieści.
-
Długość : Zakres 1000–1500 słów jest określony, by kontrolować długość historii.
-
Kluczowe elementy : Instrukcje zachęcają do włączenia elementów takich jak przygoda, magia i ważne wartości edukacyjne.
Szczegóły instrukcji
Instrukcje przekazane modelowi są niezwykle szczegółowe, by precyzyjnie kierować generowaniem.
Oto analiza różnych części promptu:
-
Struktura narracji : Model proszony jest o strukturyzację historii z porywającym początkiem, rozwinięciem pełnym wydarzeń i satysfakcjonującym zakończeniem.
-
Opisy wizualne : Historia ma być bogata w opisy wizualne, by pobudzać wyobraźnię dzieci.
-
Postacie : Zachęca się do kreowania sympatycznych postaci z wyraźnymi osobowościami.
-
Specyficzne tagi : Używane są tagi takie jak
[titre]... [end_titre]i[resume]... [end_resume]do wyodrębniania tytułu i opisów wizualnych. -
Elementy fantastyczne : Model zapraszany jest do włączenia elementów magicznych lub fantastycznych, aby uczynić historię bardziej atrakcyjną.
-
Wartości edukacyjne : Historia powinna przekazywać ważne wartości.
Rola tagów Znaczniki odgrywają kluczową rolę w dalszym przetwarzaniu wygenerowanego tekstu.
-
[titre]… [end_titre] : Oznacza tytuł opowiadania. Umożliwia jego łatwe wyodrębnienie i odpowiednie wyświetlenie w interfejsie użytkownika.
-
[resume]… [end_resume] : Oznacza szczegółowe opisy wizualne kluczowych scen opowiadania. Te streszczenia będą używane jako prompty do generowania obrazów.
Przetwarzanie po wygenerowaniu
Gdy model AI wygeneruje opowiadanie zgodnie z tymi instrukcjami, kod wykonuje następujące kroki:
-
Korekta znaczników : Funkcja
correct_resume_tagsupewnia się, że wszystkie znaczniki są poprawnie sformatowane do ekstrakcji. -
Ekstrakcja streszczeń : Funkcja
extract_summarieswykorzystuje znaczniki[resume]i[end_resume]do wyodrębnienia opisów wizualnych. -
Generowanie obrazów : Każde streszczenie jest przekazywane do funkcji
generate_imagew celu stworzenia odpowiadającego obrazu. -
Tworzenie zawartości HTML : Tekst opowiadania i wygenerowane obrazy są łączone w celu stworzenia kompletnej strony HTML.
Wpływ na generowanie
Dostarczając te szczegółowe instrukcje, model jest prowadzony, aby:
-
Przestrzegać formatu : Używając określonych znaczników, model produkuje ustrukturyzowany tekst, co ułatwia automatyczne przetwarzanie.
-
Generować dopasowaną treść : Ograniczenia dotyczące języka, stylu i tematów gwarantują, że opowiadanie będzie odpowiednie dla docelowej publiczności.
-
Ułatwiać generowanie obrazów : Wyodrębniając precyzyjne opisy wizualne, otrzymuje się wysokiej jakości prompty do generowania obrazów.
Zarządzanie znacznikami przez model
Model jest wyraźnie poinstruowany, aby nie tłumaczyć ani nie modyfikować znaczników. Jest to istotne, aby znaczniki pozostały nienaruszone i mogły być użyte w post-processingu. Instrukcje podkreślają ten punkt, aby zapobiec sytuacji, w której model, próbując parafrazować lub tłumaczyć cały tekst, zmieni znaczniki.
Generowanie opowiadania
Gdy szczegółowe instrukcje wygenerowane przez funkcję generate_story_instructions są gotowe, kolejnym krokiem jest przekazanie tych instrukcji do modelu AI, aby stworzył opowiadanie.
def generate_story(prompt, model_type, model_id, language, api_key=None, region_name="us-east-1"):
instruction = generate_story_instructions(prompt, language)
if model_type == "openai":
client = OpenAI(api_key=api_key)
try:
response = client.chat.completions.create(
model=model_id,
messages=[
{
"role": "system",
"content": "Vous êtes un assistant AI expert des histoires pour enfant.",
},
{"role": "user", "content": instruction},
],
)
first_choice_message = response.choices[0].message
return first_choice_message.content
except Exception as e:
return f"Une erreur est survenue : {e}"
# Gestion des autres modèles (Mistral, Anthropic, Meta) via Amazon Bedrock
Interakcja z modelem OpenAI
-
Klient OpenAI : Inicjuję klienta OpenAI używając wcześniej pobranego klucza API.
-
Prompting : Model otrzymuje serię wiadomości:
- Wiadomość systemowa informująca, że asystent jest ekspertem w tworzeniu opowiadań dla dzieci.
- Wiadomość użytkownika zawierająca wygenerowane szczegółowe instrukcje.
-
Odpowiedź modelu : Model generuje opowiadanie na podstawie dostarczonych instrukcji.
Obsługa błędów
Jeśli wystąpi wyjątek podczas wywołania API OpenAI, zostanie on przechwycony, a zwrócony zostanie komunikat o błędzie.
Ekstrakcja streszczeń i znaczników
Po wygenerowaniu opowiadania, następnym krokiem jest wyodrębnienie opisów wizualnych przy użyciu określonych znaczników.
def correct_resume_tags(text):
# Corrige les balises 'résumé', 'resume', 'titre' et leurs variantes en 'resume' et 'titre' respectivement dans le texte généré.
def extract_summaries(text):
pattern = r"\[resume\](.*?)\[end_resume\]"
summaries = re.findall(pattern, text, re.DOTALL)
return summaries
Korekta znaczników
Model czasami może nieznacznie zmienić znaczniki (na przykład dodać akcenty). Funkcja correct_resume_tags dba o to, aby wszystkie znaczniki były jednolite i poprawnie sformatowane.
Ekstrakcja streszczeń
Funkcja extract_summaries wykorzystuje wyrażenie regularne do znalezienia wszystkich wystąpień tekstu pomiędzy znacznikami [resume] i [end_resume]. Te streszczenia są szczegółowymi opisami wizualnymi, które będą używane do generowania obrazów.
Generowanie obrazów
Po wyodrębnieniu streszczeń, każde z nich jest używane do wygenerowania odpowiadającego obrazu.
def generate_image_for_each_summary(summaries, model, bucket_name, seed, style, size, quality, language):
images_urls = []
for summary in summaries:
image_data = generate_image(summary, model, seed, style, size, quality, language)
if image_data is not None:
image_url = upload_to_s3(image_data, bucket_name)
images_urls.append(image_url)
else:
images_urls.append("")
return images_urls
Funkcja generate_image
Funkcja generate_image wywołuje API modelu generowania obrazów (na przykład OpenAI DALL·E) w celu stworzenia obrazu na podstawie streszczenia.
def generate_image(prompt, model, seed, style, size, quality, language):
width, height = extract_dimensions(size)
if model == "openai":
client = OpenAI(api_key=parameter["Parameter"]["Value"])
adjusted_prompt = generate_image_instructions(prompt, style, language)
try:
response = client.images.generate(
prompt=adjusted_prompt,
model=os.environ.get("OPENAI_IMAGE_MODEL"),
n=1,
size=size,
response_format="b64_json",
quality=quality,
user="user_id",
)
image_data = response.data[0].b64_json
return image_data
except Exception as e:
logger.error(f"Error generating image with OpenAI: {str(e)}", exc_info=True)
return None
# Gestion des autres modèles (Titan, Stable Diffusion) via Amazon Bedrock
Generowanie instrukcji dla obrazów
Funkcja generate_image_instructions adaptuje streszczenie, aby stworzyć odpowiedni prompt do generowania obrazów.
def generate_image_instructions(prompt, style, language):
language_description = get_language_description(language)
return f"""
Génère un dessin pour enfant dans le style "{style}" basé sur cette description en langue "{language_description}" : {prompt}.
La scène doit être purement visuelle, sans aucun texte, et conçue pour éveiller l'émerveillement chez les jeunes spectateurs.
"""
-
Styl : Styl określony przez użytkownika (np. “akwarela”, “kreskówka”) jest uwzględniany w promptcie, aby wpłynąć na render obrazu.
-
Język : Opis jest dostosowywany do wybranego języka, co może pomóc modelowi zrozumieć niuanse kulturowe.
-
Jasne instrukcje : Precyzując, że scena ma być wyłącznie wizualna, unika się sytuacji, w której model doda tekst lub niepożądane elementy na obrazie.
Interakcja z API OpenAI w celu generowania obrazów
-
Wywołanie API : Funkcja
client.images.generatejest używana do wygenerowania obrazu. -
Ważne parametry :
- Prompt : Dostosowany prompt jest przekazywany do API.
- Model : Wskazany model generowania obrazów.
- Rozmiar : Rozmiar obrazu (np. “1024x1024”).
- Jakość : Jakość obrazu (standard, HD).
- Format odpowiedzi : Obrazy są zwracane w base64, aby ułatwić przechowywanie i manipulację.
Obsługa błędów
Błędy podczas generowania obrazów są przechwytywane i logowane, co pozwala na diagnozowanie problemów.
Tworzenie zawartości HTML
Po wygenerowaniu obrazów odpowiadających wyodrębnionym streszczeniom, następnym krokiem jest złożenie tekstu opowiadania i obrazów w format prezentowalny dla użytkownika. Odbywa się to przez stworzenie strukturyzowanej zawartości HTML, która będzie wyświetlana na stronie.
def create_html_with_images(text_data, images_urls, generate_images=True):
"""
Crée un contenu HTML en intégrant le texte et les images générées.
"""
# Extraction du titre
title_match = re.search(r"\[titre\](.*?)\[end_titre\]", text_data)
if title_match is not None:
title = title_match.group(1)
text_data = text_data.replace(title_match.group(0), "")
else:
title = "Histoire Générée par l'IA"
# Initialisation du contenu HTML
html_content = """
<html>
<head>
<title>Histoire générée par l'IA</title>
<meta charset='UTF-8'>
<style>
/* Styles CSS pour une présentation agréable */
body { font-family: Arial, sans-serif; margin: 20px; }
.title { text-align: center; font-size: 2em; margin-bottom: 20px; }
.center { text-align: center; }
img { max-width: 100%; height: auto; margin: 20px 0; }
p { text-align: justify; line-height: 1.6; }
</style>
</head>
<body>
"""
html_content += f'<div class="title">{title}</div>\n'
# Séparation du texte en segments basés sur les résumés
summaries = extract_summaries(text_data)
segments = re.split(r"\[resume\].*?\[end_resume\]", text_data, flags=re.DOTALL)
# Assemblage du texte et des images
for i, segment in enumerate(segments):
formatted_segment = segment.strip().replace("\n", "<br>")
html_content += f"<p>{formatted_segment}</p>\n"
if generate_images and i < len(images_urls) and images_urls[i]:
image_url = images_urls[i]
html_content += f'<div class="center"><img src="{image_url}" alt="Image générée"></div>\n'
html_content += "</body></html>"
return html_content
Szczegółowe wyjaśnienie
-
Ekstrakcja tytułu:
- Używa wyrażenia regularnego, aby znaleźć tekst pomiędzy znacznikami
[titre]i[end_titre]. - Usuwa znaczniki z głównego tekstu po ekstrakcji.
- Jeśli nie znaleziono tytułu, używany jest tytuł domyślny.
- Używa wyrażenia regularnego, aby znaleźć tekst pomiędzy znacznikami
-
Inicjalizacja HTML:
- Zawartość HTML zaczyna się od znaczników
<html>,<head>, oraz<body>. - Dołączone są style CSS, aby poprawić prezentację (typografia, marginesy, wyrównania).
- Zawartość HTML zaczyna się od znaczników
-
Podział tekstu:
- Tekst dzielony jest na segmenty przy użyciu znaczników
[resume]i[end_resume]. - Segmenty reprezentują części opowiadania bez streszczeń.
- Tekst dzielony jest na segmenty przy użyciu znaczników
-
Składanie:
- Każdy segment tekstu jest wstawiany do akapitu
<p>. - Jeśli generowanie obrazów jest włączone i istnieje odpowiadający obraz, obraz jest wstawiany po akapicie.
- Obrazy są wyśrodkowane i dostosowywane do rozmiaru ekranu dla lepszej wygody użytkownika.
- Każdy segment tekstu jest wstawiany do akapitu
-
Finalizacja:
- Dodawane są znaczniki zamykające
</body>i</html>, aby zakończyć dokument HTML.
- Dodawane są znaczniki zamykające
Dlaczego takie podejście?
-
Dopasowanie tekstu i obrazów : Wstawiając obrazy po odpowiadających segmentach tekstu, opowiadanie zyskuje warstwę wizualną, co jest szczególnie ważne dla dzieci.
-
Elastyczność : Jeśli użytkownik wybierze brak generowania obrazów, kod obsłuży ten przypadek, wstawiając tylko tekst.
-
Dostępność : Używając semantycznych znaczników i odpowiednich styli, zawartość jest dostępna na różnych urządzeniach (komputery, tablety, smartfony).
Upload na S3 i aktualizacja statusu
Po wygenerowaniu zawartości HTML, konieczne jest udostępnienie jej użytkownikowi. Odbywa się to przez przesłanie pliku do bucketu S3 skonfigurowanego do hostingu statycznych stron internetowych.
def upload_to_s3(content, bucket_name, content_type="image/jpeg"):
"""
Télécharge le contenu sur S3 et retourne l'URL publique.
"""
s3_client = boto3.client("s3")
timestamp = datetime.now().strftime("%Y%m%d%H%M%S")
if content_type == "image/jpeg":
file_name = f"generated_images/{timestamp}.jpg"
content_to_upload = base64.b64decode(content)
else:
file_name = f"generated_content/{timestamp}.html"
content_to_upload = content.encode("utf-8")
content_type = "text/html; charset=utf-8"
try:
s3_client.put_object(
Bucket=bucket_name,
Key=file_name,
Body=content_to_upload,
ContentType=content_type,
ACL='public-read'
)
return f"https://{os.environ['CLOUDFRONT_DOMAIN']}/{file_name}"
except Exception as e:
logger.error(f"Error uploading content to S3: {e}", exc_info=True)
raise
Szczegóły techniczne
-
Nazewnictwo plików:
- Pliki są nazywane z użyciem znaczników czasu, aby zapewnić unikalność.
- Obrazy są przechowywane w folderze
generated_images/, a pliki HTML wgenerated_content/.
-
Upload na S3:
- Użycie klienta S3 z
boto3do interakcji z usługą. - Zawartość jest kodowana lub dekodowana w zależności od typu (obraz lub tekst).
- Parametr
ACL='public-read'sprawia, że plik jest publicznie dostępny.
- Użycie klienta S3 z
-
Budowa URL:
- Publiczny URL jest konstruowany z użyciem skonfigurowanej domeny CloudFront, co pozwala na szybką i bezpieczną dystrybucję zawartości.
-
Obsługa wyjątków:
- W przypadku błędu podczas uploadu, wyjątek jest logowany i rzucany, aby mógł być obsłużony przez
lambda_handler.
- W przypadku błędu podczas uploadu, wyjątek jest logowany i rzucany, aby mógł być obsłużony przez
Funkcja główna lambda_handler
Funkcja lambda_handler jest punktem wejścia funkcji Lambda. Orkiestruje wszystkie wcześniej opisane kroki.
def lambda_handler(event, context):
"""
Point d'entrée de la fonction Lambda.
"""
try:
# Récupération des données de la requête
request_id = event.get("requestId")
body = json.loads(event.get("body", "{}"))
prompt = body.get("text", "Texte par défaut")
# Récupération des autres paramètres (modèles, langue, etc.)
# Mise à jour du statut dans DynamoDB
update_dynamodb(request_id, "Processing")
# Génération de l'histoire
text_data = generate_story(prompt, story_generation_model, model_id, language, api_key)
# Correction des balises et extraction des résumés
text_data = correct_resume_tags(text_data)
summaries = extract_summaries(text_data)
# Génération des images
images_urls = []
if generate_images and summaries:
images_urls = generate_image_for_each_summary(
summaries, image_generation_model, bucket_name, seed, style_with_spaces, size, quality, language
)
# Création du contenu HTML
html_content = create_html_with_images(text_data, images_urls, generate_images)
# Upload du contenu sur S3
result_url = upload_to_s3(html_content, bucket_name, content_type="text/html")
# Mise à jour du statut avec le lien du résultat
update_dynamodb(request_id, "link", result_url)
# Retour de la réponse HTTP
return {
"isBase64Encoded": False,
"statusCode": 200,
"headers": {"Content-Type": "application/json"},
"body": json.dumps({"requestId": request_id, "resultUrl": result_url}),
}
except Exception as e:
logger.error(f"Erreur lors de l'exécution de la fonction lambda: {str(e)}", exc_info=True)
update_dynamodb(request_id, "Failed")
return {
"statusCode": 500,
"body": json.dumps({"message": "Internal server error"}),
"headers": {"Content-Type": "application/json"},
}
Wyjaśnienie
-
Przetwarzanie żądania:
- Pobiera niezbędne informacje z otrzymanego zdarzenia (event).
- Parametry żądania obejmują prompt, wybrane modele, język itp.
-
Aktualizacja statusu:
- Przed rozpoczęciem przetwarzania, status jest ustawiany na “Processing” w DynamoDB.
-
Generowanie opowiadania:
- Wywołanie
generate_storyz odpowiednimi parametrami.
- Wywołanie
-
Ekstrakcja i przetwarzanie:
- Znaczniki są korygowane, a streszczenia wyodrębniane do generowania obrazów.
-
Generowanie obrazów:
- Jeśli generowanie obrazów jest włączone, obrazy są tworzone, a ich URL-e zbierane.
-
Tworzenie zawartości HTML:
- Tekst i obrazy są łączone w finalną zawartość HTML.
-
Upload na S3:
- Zawartość HTML jest uploadowana na S3, a URL wyniku jest pozyskiwany.
-
Aktualizacja finalnego statusu:
- Status jest aktualizowany na “link” z URL-em wyniku w DynamoDB.
-
Zwrócenie odpowiedzi:
- Odpowiedź zawiera
requestIdoraz URL wyniku, umożliwiając klientowi sprawdzenie statusu lub bezpośredni dostęp do zawartości.
- Odpowiedź zawiera
-
Obsługa wyjątków:
- W przypadku błędu, status jest ustawiany na “Failed” i zwracany jest kod HTTP 500.
Funkcja Lambda status_checker.py
Ogólny przegląd
Funkcja status_checker.py pozwala użytkownikom sprawdzić status ich żądania generowania opowiadania. Zapytuje DynamoDB, aby pobrać aktualny status i, jeśli dostępny, URL wyniku.
Analiza kodu
import boto3
import json
from botocore.exceptions import ClientError
def lambda_handler(event, context):
"""
Fonction Lambda pour vérifier le statut d'une demande.
"""
# Initialisation de DynamoDB
dynamodb = boto3.resource("dynamodb")
table = dynamodb.Table("TaskStatus")
# Définition des en-têtes HTTP
headers = {
"Content-Type": "application/json",
"Access-Control-Allow-Origin": "*",
"Access-Control-Allow-Methods": "GET,OPTIONS",
"Access-Control-Allow-Headers": "Content-Type,X-Amz-Date,Authorization,X-Api-Key,X-Amz-Security-Token",
}
# Récupération du requestId depuis les paramètres de la requête
query_params = event.get("queryStringParameters")
if not query_params or "requestId" not in query_params:
return {
"statusCode": 400,
"body": json.dumps({"message": "Missing requestId"}),
"headers": headers,
}
request_id = query_params["requestId"]
try:
# Récupération de l'élément dans DynamoDB
response = table.get_item(Key={"requestId": request_id})
if "Item" in response:
item = response["Item"]
return {
"statusCode": 200,
"body": json.dumps(
{
"status": item.get("status", "Unknown"),
"resultUrl": item.get("resultUrl", ""),
}
),
"headers": headers,
}
else:
return {
"statusCode": 404,
"body": json.dumps({"message": "Request ID not found"}),
"headers": headers,
}
except ClientError as e:
return {
"statusCode": 500,
"body": json.dumps({"message": str(e)}),
"headers": headers,
}
Szczegóły
-
Pobranie
requestId:requestIdjest niezbędny, aby zidentyfikować konkretne żądanie użytkownika.
-
Zapytanie do DynamoDB:
- Funkcja próbuje pobrać element odpowiadający
requestId. - Jeśli element istnieje, wyciągane są status i
resultUrl.
- Funkcja próbuje pobrać element odpowiadający
-
Budowa odpowiedzi:
- Jeśli status jest dostępny, jest zwracany wraz z URL-em wyniku.
- Jeśli element nie zostanie znaleziony, zwracany jest błąd 404.
- W przypadku błędu podczas zapytania do bazy danych, zwracany jest błąd 500 z odpowiednim komunikatem.
-
Nagłówki HTTP:
- Nagłówki są ustawiane tak, aby umożliwić zapytania CORS ze strony internetowej.
Integracja z API Gateway
Konfiguracja endpointów
API Gateway udostępnia dwa główne endpointy do interakcji z funkcjami Lambda:
-
/generate-image:- Metoda:
POST - Opis: Pozwala użytkownikom uruchomić generowanie opowiadania i opcjonalnie powiązanych obrazów.
- Integracja: Połączony z funkcją Lambda
StoryPixAI.py.
- Metoda:
-
/check-status:- Metoda:
GET - Opis: Pozwala użytkownikom sprawdzić status ich żądania, podając
requestId. - Integracja: Połączony z funkcją Lambda
status_checker.py.
- Metoda:
Uwierzytelnianie za pomocą Cognito
Aby zabezpieczyć API i kontrolować dostęp do zasobów, zintegrowałem Amazon Cognito.
-
User Pool:
- Zarządza poświadczeniami użytkowników.
- Umożliwia rejestrację, logowanie i zarządzanie użytkownikami.
-
Authorizer:
- Skonfigurowany w API Gateway do weryfikacji tokenów JWT wydawanych przez Cognito.
- Zapewnia, że tylko uwierzytelnione żądania mają dostęp do chronionych endpointów.
-
Integracja w API Gateway:
- Endpointy
/generate-imagei/check-statussą chronione przez authorizer Cognito. - Klienci muszą dołączać token uwierzytelniający w nagłówkach swoich żądań (
Authorization).
- Endpointy
Strona statyczna na S3 i interakcja z API
Struktura strony
Statyczna strona internetowa służy jako interfejs użytkownika dla aplikacji.
-
index.html:- Zawiera formularz pozwalający użytkownikom wpisać prompt, wybrać opcje generowania i wysłać żądanie.
- Zawiera skrypty niezbędne do interakcji z API i zarządzania uwierzytelnianiem.
-
storypixai.js:- Zawiera kod JavaScript do obsługi interakcji z API.
- Zarządza uwierzytelnianiem z Cognito, wysyłaniem formularza, śledzeniem statusu i wyświetlaniem wyników.
Przebieg pracy użytkownika
-
Logowanie:
- Użytkownik loguje się za pomocą wbudowanego formularza logowania.
- Dane są weryfikowane przez Cognito.
-
Wysłanie żądania:
- Użytkownik wypełnia formularz promptem i wybranymi opcjami.
- Przy wysyłce wysyłane jest żądanie
POSTdo endpointu/generate-imagez danymi.
-
Przetwarzanie asynchroniczne:
- API natychmiast zwraca
requestId. - Generowanie odbywa się w tle.
- API natychmiast zwraca
-
Sprawdzanie statusu:
- Strona okresowo odpytywa endpoint
/check-statusdostarczającrequestId. - Gdy otrzymany zostanie status “link”, URL wyniku jest wyświetlany użytkownikowi.
- Strona okresowo odpytywa endpoint
-
Wyświetlenie wyniku:
- Użytkownik może kliknąć link, aby uzyskać dostęp do wygenerowanego opowiadania z obrazami.
Obsługa żądań i odpowiedzi
-
Żądania uwierzytelnione:
- Wszystkie żądania do API zawierają token uwierzytelniający.
- Token jest zarządzany przez SDK Cognito dołączony do strony.
-
Zarządzanie statusami:
- Możliwe statusy to “Processing”, “link”, “Failed”.
- Strona dostosowuje swój interfejs w zależności od otrzymanego statusu (np. wyświetlenie spinnera, komunikatu o błędzie, linku do wyniku).
Powiązania między komponentami
Oto jak różne komponenty wchodzą w interakcję:
-
Strona WWW ↔️ API Gateway:
- Strona wysyła żądania do endpointów udostępnionych przez API Gateway.
- Tokeny uwierzytelniające są dołączane, aby zabezpieczyć żądania.
-
API Gateway ↔️ Funkcje Lambda:
- API Gateway wywołuje odpowiednie funkcje Lambda w zależności od otrzymanych żądań.
-
Funkcje Lambda ↔️ DynamoDB:
- Funkcje Lambda
StoryPixAI.pyistatus_checker.pykomunikują się z DynamoDB, aby aktualizować i pobierać status żądań.
- Funkcje Lambda
-
Funkcja Lambda ↔️ S3:
- Funkcja
StoryPixAI.pyuploaduje wygenerowane obrazy i zawartość HTML na S3.
- Funkcja
-
CloudFront ↔️ S3:
- CloudFront jest używany do szybkiego i bezpiecznego dystrybuowania zawartości przechowywanej na S3.
- URL-e dostarczane użytkownikom wskazują na domenę CloudFront.
-
Użytkownik ↔️ Strona WWW:
- Użytkownik wchodzi w interakcję ze stroną, aby wysyłać żądania i przeglądać wyniki.
Przykład wyniku w logach CLoudwatch po wywołaniu żądania
Oto przykład wyniku logów po wywołaniu żądania, aby pokazać surowy format wygenerowanych danych:
[INFO] 2024-07-22T19:13:49.764Z 4ec7d759-2fd2-49ca-b929-4f4d12629c73 Texte généré par l'ia : [titre]Tom et Zoé à l'aventure ![end_titre]
Une belle matinée de printemps, Tom et Zoé se retrouvent chez leur grand-mère pour les vacances. Tom a des cheveux bruns et ébouriffés, des yeux verts pétillants et une tache de rousseur sur le nez. Zoé, elle, a de longs cheveux blonds tressés, des yeux bleus comme le ciel et toujours un sourire aux lèvres.
Ce jour-là, alors qu'ils jouent dans le jardin, ils découvrent quelque chose d'étrange près du vieux puits. "Regarde, Zoé, cette lumière étrange !", s'exclame Tom.
"On dirait un passage secret...", murmure Zoé avec fascination. Ils se regardent, surexcités par la perspective d'une aventure. Ils s'approchent prudemment et tombent sur un escalier en colimaçon menant sous terre. Sans hésiter, ils commencent à descendre.
L'escalier les mène à une forêt lumineuse où les arbres sont couverts de feuilles dorées et où des fleurs scintillent de toutes les couleurs de l'arc-en-ciel. Le sol est tapissé de mousse douce et le chant mélodieux des oiseaux résonne autour d'eux.
[resume]Un arbre gigantesque au centre de la clairière, avec des racines enchevêtrées formant des arches naturelles. Ses feuilles changent de couleur au gré du vent, passant du vert émeraude au violet profond. Autour de ses branches, des lucioles dansent et éclairent l'atmosphère d'une lumière douce et féerique.[end_resume]
Alors qu'ils explorent les environs émerveillés, un petit renard roux avec une touffe blanche sur la queue surgit devant eux. "Bonjour, je m'appelle Félix. Êtes-vous perdus ?"
"Non, pas vraiment. Nous cherchons simplement à explorer !" répondent-ils en chœur.
"Alors, vous êtes au bon endroit. Mais attention, quelque chose de précieux est en danger ici. Un méga escargot vole toutes les salades du jardin magique et il faut l'arrêter ! Voulez-vous m'aider ?" demande Félix.
Tom et Zoé, enthousiastes devant cette mission, acceptent sans hésiter.
Félix les guide à travers des sentiers sinueux, où les branches des arbres semblent former des arches protectrices au-dessus de leurs têtes. La route devient de plus en plus difficile à mesure qu'ils s'enfoncent dans la forêt.
[resume]Une rivière cristalline aux eaux claires comme le verre, dans laquelle nagent des poissons multicolores. Les rives sont bordées de galets ronds et lisses, et des nénuphars aux fleurs roses flottent doucement à la surface.[end_resume]
"
Regardez là-bas, derrière ce buisson," chuchote Félix, en pointant une direction. Derrière les plantes, ils aperçoivent une trace de bave visqueuse brillamment éclairée.
"Ça doit être l'escargot," murmure Tom.
Ils suivent la piste de bave jusqu'à une clairière où ils tombent face à face avec le méga escargot. Il est énorme, avec une coquille noire et luisante et des yeux perçants qui semblent voir à travers tout.
"Je suis le protecteur de ces salades !" s'exclame l'escargot d'une voix grondante. "Elles m'appartiennent toutes !"
[resume]Le méga escargot est si grand que sa coquille ressemble à une petite montagne arrondie. Elle est noire avec des motifs argentés en spirale qui brillent sous le soleil. Ses antennes sont longues et frémissent à chaque mouvement. Il laisse derrière lui une traînée de bave qui scintille comme des cristaux de glace.[end_resume]
"Mais ces salades nourrissent tout le monde ici," réplique Zoé courageusement. "Il faut partager !"
L'escargot se met à rire et glisse vers eux lentement mais de manière menaçante. Tom et Zoé échangent un regard, ils savent qu'ils doivent utiliser leur intelligence et leur courage pour résoudre ce problème.
"Il y a sans doute un moyen de convaincre l'escargot !" dit Félix. "Utilisons la magie de cette forêt pour lui montrer une meilleure voie."
Zoé, qui découvre soudain qu'elle possède un pouvoir magique, ferme les yeux et se concentre. Elle sent une énergie chaude circuler en elle. Elle lève la main et des lianes lumineuses surgissent du sol, s'enroulant doucement autour de l'escargot sans lui faire de mal.
"Je vais créer un jardin immense juste pour toi," annonce Zoé, "mais tu devras promettre de partager avec tout le monde ici."
L'escargot, touché par la bonté de Zoé, hésite puis accepte. "Je ne savais pas que j'avais blessé autant de monde. Merci de me montrer un autre chemin."
Les lianes lumineuses dessinent alors un magnifique jardin rempli de salades et d'autres délices pour l'escargot. Cependant, le jardin ne s’ouvre que s’il appelle les autres créatures pour partager.
[resume]Un jardin magnifique avec des salades immenses, leurs feuilles vert tendre et croquantes. Des carottes orange vif et des courgettes vertes s'y mêlent, baignant dans une lumière dorée. Des papillons aux ailes irisées volent autour, ajoutant une touche de magie à ce lieu merveilleux.[end_resume]
En voyant cela, l'escargot laisse échapper une larme de reconnaissance et appelle instantanément les animaux de la forêt pour voir le miracle. Les habitants de la forêt acclament Tom et Zoé. Un énorme festin est organisé en leur honneur.
"Merci d'avoir sauvé notre jardin et notre amitié !" s'exclame Félix avec émotion.
Puis, ils se disent au revoir et, guidés par Félix, Tom et Zoé retrouvent le chemin de la maison. Au moment de passer le portail magique, ils se retournent une dernière fois pour admirer le spectacle enchanteur.
[resume]Un pont arc-en-ciel scintillant traverse le ciel, connectant la forêt magique à leur monde. Les couleurs brisées de l'arc iridescent se mélangent sous leurs regards émerveillés, illuminant la verdure environnante sous une lumière douce et chaleureuse. Chaque pas sur le pont résonne d'une mélodie cristalline.[end_resume]
Ils reprennent leur place dans le jardin de leur grand-mère, main dans la main, renforcés par cette aventure. "Tom, tu penses qu'on reverra Félix ?" demande Zoé rêveusement.
"J'espère bien ! Et qui sait quelle nouvelle aventure nous attend !" répond Tom en souriant.
La journée se termine sous le ciel étoilé, et leur amitié est plus forte que jamais, une étoile brillante dans l'univers de leurs rêves et de leurs aventures.
Les défis et les épreuves leur ont appris des valeurs précieuses : l'amitié, le partage, la persévérance, et surtout, la gentillesse.
Et c'est ainsi que Tom et Zoé grandissent, un peu plus chaque jour, devenant eux-mêmes des héros dans leurs cœurs d'enfants.
[resume]Des étoiles filantes traversent un ciel de velours noir, chaque trainée lumineuse ajoutant une touche de mystère à la nuit. Sur le chemin du retour, chaque pas dans le sable semble faire briller les grains comme des diamants sous la douce lumière de la lune. Une douce brise apporte l'odeur salée de la mer, ponctuée par le murmure des vagues au loin.[end_resume]
Fin.
Ciągła integracja z GitLab CI/CD
Aby zapewnić płynny rozwój i wdrożenie StoryPixAI, skonfigurowałem pipeline CI/CD w GitLab CI/CD. Ta konfiguracja automatyzuje procesy budowania i wdrażania, gwarantując jakość i niezawodność kodu przy każdej zmianie.
Konfiguracja pipeline
Pipeline jest zdefiniowany w pliku .gitlab-ci.yml w katalogu głównym projektu. Oto przegląd jego struktury:
stages:
- Pré-requis optionel
- Vérifications
- Déploiements
- Management
- Suppressions
variables:
TERRAFORM_VERSION: '1.5.7-*'
TF_VAR_region: $AWS_DEFAULT_REGION
``` Ta konfiguracja definiuje różne etapy pipeline'u oraz globalne zmienne używane w procesie CI/CD.
### Główne zadania
Pipeline obejmuje kilka kluczowych zadań:
1. **Weryfikacja Terraform** :
```yaml
Vérification Terraform:
stage: Vérifications
when: manual
script:
- /bin/bash -c "source export.sh && terraform_plan"
To zadanie uruchamia terraform plan, aby sprawdzić planowane zmiany w infrastrukturze bez ich zastosowania.
- Wdrażanie Terraform :
Déploiement Terraform:
stage: Déploiements
when: manual
dependencies:
- Vérification Terraform
script:
- /bin/bash -c "source export.sh && terraform_apply"
Po weryfikacji to zadanie stosuje zmiany infrastruktury, uruchamiając terraform apply.
- Usuwanie Terraform :
Suppression Terraform:
stage: Suppressions
when: manual
script:
- /bin/bash -c "source export.sh && terraform_destroy"
To zadanie pozwala na usunięcie infrastruktury w razie potrzeby, uruchamiając terraform destroy.
- Zarządzanie kluczami OpenAI :
Clé OpenAI - Ajout:
stage: Pré-requis optionel
when: manual
script:
- |
KEYS_FOUND=false
if [ -n "$OPENAI_KEY" ]; then
/bin/bash -c "source export.sh && manage_openai_key put $OPENAI_KEY"
KEYS_FOUND=true
fi
if [ "$KEYS_FOUND" = false ]; then
echo "Aucune clé trouvée."
exit 1
fi
Clé OpenAI - Supression:
stage: Suppressions
when: manual
script:
- /bin/bash -c "source export.sh && manage_openai_key delete"
Te zadania zarządzają bezpiecznym dodawaniem i usuwaniem kluczy API OpenAI w AWS Parameter Store.
Środowisko wykonawcze
Każde zadanie uruchamia się w kontenerze Docker opartym na Ubuntu 22.04, z zainstalowanym Terraform i AWS CLI :
.terraform_template: &terraform_template
image:
name: ubuntu:22.04
before_script:
- apt-get update
- apt-get install -y gnupg software-properties-common curl
- curl -fsSL https://apt.releases.hashicorp.com/gpg | gpg --dearmor -o /usr/share/keyrings/hashicorp-archive-keyring.gpg
- echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/hashicorp-archive-keyring.gpg] https://apt.releases.hashicorp.com $(grep 'VERSION_CODENAME' /etc/os-release | cut -d'=' -f2) main" | tee /etc/apt/sources.list.d/hashicorp.list
- apt-get update
- apt-get install -y terraform=${TERRAFORM_VERSION} python3-pip bash jq zip
- pip3 install awscli >> /dev/null
Zalety tego podejścia CI/CD
-
Automatyzacja: Każda zmiana w kodzie automatycznie wyzwala pipeline, zapewniając spójne weryfikacje i wdrożenia.
-
Ręczna kontrola: Krytyczne etapy, takie jak wdrożenie i usuwanie, są skonfigurowane jako ręczne (
when: manual), co daje dodatkową kontrolę przed wykonaniem. -
Bezpieczne zarządzanie sekretami: Integracja z AWS Parameter Store w celu zarządzania kluczami API zapewnia bezpieczną obsługę poufnych informacji.
-
Elastyczność: Struktura etapów pozwala na uporządkowane i logiczne wykonywanie poszczególnych kroków pipeline’u.
-
Powtarzalność: Użycie ustandaryzowanego środowiska Docker gwarantuje, że buildy i testy są powtarzalne na różnych systemach.
Ta konfiguracja CI/CD pozwala nie tylko zautomatyzować wdrożenie StoryPixAI, ale także utrzymać wysoki poziom jakości i niezawodności przez cały cykl rozwoju.
Podsumowanie
StoryPixAI był o wiele więcej niż zwykłym projektem technicznym. Była to prawdziwa przygoda w świecie generatywnej AI, która pozwoliła mi połączyć moją pasję do technologii z pragnieniem tworzenia magicznych opowieści dla moich dzieci.
Ten projekt dał mi możliwość eksploracji różnych aspektów AI, od projektowania intuicyjnego interfejsu użytkownika po opanowanie promptingu, a także wdrożenie solidnej infrastruktury chmurowej z AWS i Terraform. Każdy etap był źródłem nauki, stawiał przede mną stymulujące wyzwania techniczne i zmuszał mnie do poszerzania moich umiejętności w zakresie programowania full-stack i DevOps.
Mam nadzieję, że ten wpis na blogu dał wam wgląd za kulisy tej ekscytującej przygody.
Kluczowe punkty
-
Szczegółowe instrukcje :
- Jasne i uporządkowane prompty pozwalają uzyskać spójne i wysokiej jakości wyniki od modeli AI.
-
Architektura modułowa :
- Każdy komponent (strona internetowa, API Gateway, Lambda, DynamoDB, S3, Cognito) pełni określoną rolę, ułatwiając utrzymanie i rozwój systemu.
-
Bezpieczeństwo i skalowalność :
- Korzystanie z zarządzanych usług AWS zapewnia solidne bezpieczeństwo i zdolność do dostosowania się do rosnącego zapotrzebowania.
Link do projektu: StoryPixAI
Niniejszy dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5-mini. Aby uzyskać więcej informacji na temat procesu tłumaczenia, zobacz https://gitlab.com/jls42/ai-powered-markdown-translator