Demo-Projekt: Stable Diffusion Text-zu-Bild / Bild-zu-Bild


🎯 Projekt & Kompetenzen
Dieses 4-Wochen-Projekt ist ein kleines Demo um meine zentralen Kompetenzen als AI-Engineer – sowohl in der technischen Umsetzung
als auch in der strukturierten Entwicklung komplexer Workflows zu präsentieren. Es bildet grundlegende Stable-Diffusion-Prozesse ab, während ich in anderen
GPU-basierten Umgebungen erweitered Text-to-Image und Image-to-Image-Pipelines mit präzisem Inpainting über ControlNet realisiere. Durch den Einsatz von
multi-modalen Modellen mit höherer Parameteranzahl wird eine deutlich detailliertere und kontrolliertere Bildgenerierung ermöglicht.

📊 Professionelle-Architektur & Roadmap
Zudem fĂĽhrt der Link Roadmap zu einer durchdachten, skalierbaren, professionellen Code-Architektur fĂĽr Text-to-Image- und Image-to-Image-Entwicklung
die die gesamte Komplexität einer professionellen Umsetzung verdeutlicht.

Die hiermit gezeigten Fähigkeiten meinerseits sind sicherlich auf andere Projekte übertragbar.

⚠️ Wichtiger Hinweis
Die Anwendung läuft derzeit auf CPU ist jedoch vollständig GPU-fähig . Deshalb muss bei jeder Generierung eine längere Wartezeit eingeplant werden.
Bei Verbindungsabbrüchen -insbesondere bei CPU-Nutzung- wird die aktuelle Generierung zunächst serverseitig vollständig abgeschlossen,
bevor neue Anfragen bearbeitet werden. Das generierte Bild wird in diesem Fall nicht angezeigt. Die Meldung Connection re-established signalisiert, dass
die Verbindung wiederhergestellt wurde, die laufende Verarbeitung jedoch priorisiert wird. In der Konsequenz werden neue
Generierungsanfragen in eine Warteschlange gestellt und erst nach vollständigem Abschluss der aktuellen serverseitigen Berechnung verarbeitet.

đź”§ Technischer Hintergrund
Die Anwendung nutzt Gradio auf Hugging Face Spaces - eine Technologie, die keine temporäre Speicherung generierter Bilder vorsieht. Jede Verbindung
wird als unabhängige Sitzung behandelt. Dies wird besonders bei CPU-Nutzung relevant, da längere Transformationszeiten die Wahrscheinlichkeit für
Timeouts und Seiten-Neuladungen erhöhen. Obwohl die Bildgenerierung serverseitig vollständig abgeschlossen wird, kann das Ergebnis bei
Verbindungsunterbrechungen nicht an die neu geladene Seite ĂĽbermittelt werden.


🔄 Anwendungsbereich & Workflow
Die Bild-zu-Bild-Transformation ermöglicht die gezielte Modifikation bestehender Bildelemente - beispielsweise die Umwandlung einer Laterne
in eine Fackel, einer Katze in einen Hund, oder die Versetzung einer Person vom BĂĽro an einen tropischen Strand bei Beibehaltung des Gesichts.
Es können keine neuen Objekte generiert, sondern ausschließlich vorhandene Elemente transformiert werden.

Der Tab unterstĂĽtzt zwei operative Modi:
  • Umgebungstransformation: Veränderung der Umgebung bei Beibehaltung eines markierten Bildbereichs (z.B. Gesicht)
  • Fokustransformation: Veränderung eines markierten Bereichs (z.B. Objekt) bei Beibehaltung der Umgebung

Es können sowohl selbst generierte Bilder als auch externe Bilder bis 4096×4096 Pixel hochgeladen und transformiert werden.
Achtung: Der Hintergrundwechsel klappt am besten, wenn die Maske maximal die Hälfte des Bildes ausmacht.
Je höher die Auflösung des hochgeladenen Bildes ist, desto länger dauert das Auswählen des zu bearbeitenden Bildbereiches.
Alle transformierten Ausgaben werden automatisch auf 512Ă—512 Pixel skaliert.

Optimale Workflow-Empfehlung:
Zur Gewährleistung optimaler Ergebnisse werden Bilder im Format 512×512 Pixel verarbeitet. Ein effizienter Workflow umfasst:
  1. Generierung von Basis-Bildern über Text-zu-Bild
  2. Gezielte Transformation über Bild-zu-Bild
  3. Optionale Textintegration auf generierten oder originalen Basis-Bildern

Audio-UnterstĂĽtzung:
Im Arbeitsbereich Text-zu-Bild steht eine Hintergrundmusik-Funktion zur VerfĂĽgung, die die Generierungszeit ĂĽberbrĂĽckt. Der integrierte Audio-Player
wird beim Tab-Wechsel unterbrochen.

Die Textintegration ist verfĂĽgbar fĂĽr generierte Bilder in beiden Arbeitsbereichen sowie fĂĽr externe Bildquellen im Arbeitsbereich Bild zu Bild.
Es werden alle gängigen Bildformate (JPG, PNG, WEBP, BMP, TIFF) unterstützt. Die maximale Dateigröße beträgt 15 MB.

📱💻🖥️ Plattformübergreifende Kompatibilität:
Die Anwendung ist vollständig optimiert für Desktop, Tablet und Smartphone - nutzbar mit Maus, Touchscreen oder kombinierter Bedienung.

📱 Mobile Nutzung Hinweis zur Anzeige: Beim Wechsel von der Startseite zur Anwendung kann es auf einigen Mobilgeräten vorkommen, dass der Inhalt zunächst im
unteren Bereich angezeigt wird. Bitte scrollen Sie gegebenenfalls nach oben, um die vollständige Oberfläche zu sehen. Dies ist eine
technische Einschränkung der Hugging Face Plattform.



đź’ˇ Empfehlungen & Best Practices
Für eine präzise Abstimmung der zentralen Parameter – Prompt, Negativ-Prompt, Veränderungsstärke (Strength), Inferenz-Schritte (Steps)
und Prompt-Stärke (Guidance) – liefern leistungsfähige Sprachmodelle wie GPT, Grok oder DeepSeek hochqualitative, kontextbezogene Vorschläge.
Prompt und Negativ-Prompt sollten auf Englisch eingegeben werden, da "Stable Diffusion" mit Bild-Text-Paaren auf Englisch trainiert
wurde und CLIP einen Tokenizer für ein englisches Vokabular nutzt. Der CLIP-Tokenizer hat außerdem ein Limit von 77 Token, wodurch längere
Prompteingaben automatisch abgeschnitten werden. Deutsche Wörter werden zwar übersetzt, führen aber zu Verzerrungen.


⏳ Hinweis zur ersten Nutzung
Beim allerersten Aufruf der Anwendung (oder nach längerer Inaktivität) kann das Laden der Stable-Diffusion-Modelle und aller benötigten Komponenten in den
Arbeitsspeicher 30–90 Sekunden dauern. Dies geschieht nur einmal pro Session bzw. nach Neustart des Spaces – danach sind alle Generierungen deutlich schneller.
Vielen Dank für Ihre Geduld – es lohnt sich! ✨