KI Bildergenerierung - Ein Vergleich

Moin,

ich habe mal denselben kurzen Prompt durch fuenf KI ImageGen Tools gejagt und jeweils mehrere Versionen gegenueber gestellt.

Ganz kurzweilig, potentiell fuer die ein oder andere Person interessant :slight_smile:

Nutzt du KI Gen. Tools (Text, Sprache, Bild etc)?
  • Noch nie
  • Sporadisch
  • Regelmaessig

0 Teilnehmende

6 „Gefällt mir“

Ich hatte mal für WASTED die Artikel-Idee, die Beschreibungen der ersten Bildschirme aus berühmten Textadventures von einer Text-zu-Bild KI interpretieren zu lassen. Leider konnte ich das aus Zeitgründe nicht umsetzen, aber vielleicht hat ja jemand Bock, bzw. wir können das zusammentragen…

Das hier ist zb das Einstiegsbild bei Zork:
„West of House You are standing in an open field west of a white house, with a boarded front door.“
There is a small mailbox here.

The Hitchhiker’s Guide to the Galaxy:
The bedroom is a mess
Is is a small bedroom with a faded capet and old wallpaper. There is a washbasin, a chair with a tatty dressing gown slung over it, and a window with the curtains dawn. Near the exit leading south is a phone. There is a flathead srewdriver here (outside the bed)
There is a toothbrush here (outside the bed)

The Hobbit:
You are in a comfortable tunnel like hall with a perfectly round green door like a porthole.

softporn-adventure:
„A dimly lit hallway. The paint is peeling off the walls and the floor hasn’t been cleaned in months. Cockroaches run across the floor- jumping as the loosely installed lightbulb crackles and flickers. An old desk sits pushed against the wall.“

6 „Gefällt mir“

waere ich dabei - wenn mir jemand jeweils den Textausschnitt und Spieletitel mitgibt :slight_smile:


Adobe Firefly

Photoshop Generative Fill

3 „Gefällt mir“

Man müsste mal schauen, welche Textadventures wirklich schöne Beschreibungen der jeweiligen Szenen mitbringen.

Jo, wenn sich jemand findet, der ein paar TextAdventure Texte zusammen sucht, bereite ich das gerne als kleinen Vergleich auf.

1 „Gefällt mir“

Der Schreibtisch ist ein bisschen klein, vielleicht ein spezielles Modell für die Kakerlake?

1 „Gefällt mir“

Ich werde die Tage eine neue Single veröffentlichen. Das Lied heißt „Sommer“ und ist eine Art Schlager mit bewusst überproportional verwendeten Sommer Cliches.
Ich suche gerade eine Coverbild für Youtube. Wäre das eine Aufgabe für die KI? Und kann ich dass dan als offizielles Cover verwenden?

Ja und ja.

1 „Gefällt mir“

Und wie starten wir das Ganze :sweat_smile:

Wie? Du denkst dir nen Prompt aus und knallst den in einen der Generatoren/Programme (firefly, dalle, diffusionbee etc).

1 „Gefällt mir“

Ich hab nur mit midjourney über discord Erfahrungen gemacht. Leider wurde das beendet.
Funktioniert eines der Programme als App am Smartphone?

Bis auf PS alle gratis. Firefly und dalle im Browser zb.

Der Prompt war:

flower meadow in the summer. A butterfly fliying around. Blue sky. A Lake in the backround.

Hier das Ergebnis mit Firefly:

Muss ich das Firefly Wasserzeichen unten drin lassen?

1 „Gefällt mir“

Waere schon besser, ja. Dall-e ist auch fuer conmercial use freigegeben.

1 „Gefällt mir“

Okay, dient eh nur als Cover zum Fotovideo augf YT.
So lange das Okay ist, bin ich fein mit dem Wasserzeichen.

1 „Gefällt mir“

Und schon wieder ein richtig gelungener Artikel. Danke.

Danke fuer das Lob!

Auf mich selbst wirkte der doch eher arg zusammengeklatscht - aber freut mich dann doch, dass er gut ankommt :slight_smile:

Cooler Artikel auf jeden Fall! Ich hab in letzter Zeit vor allem mit Stable Diffusion (NMKD GUI 1.9.1) rumgespiellt und damit versucht Harry Potter Charaktere im Stil von Rembrandt van Rijn zu generieren (fragt bitte nicht warum). Die Idee war, dass diese Bilder immer den gleichen Stil besitzen, demnach wiedererkennbar sind und sich nur das Motiv ansich unterscheidet. Leider hat das Ganze nur so mittelgut funktioniert und war gleichzeitig so zeitaufwendig, dass ich es am Ende gelassen habe. Der wesentliche Vorteil von SD, wie @lnhh ja bereits in seinem Artikel geschrieben hat, also das Generieren am eigenen Heimcomputer ist gleichzeitig auch ein wesentlicher Nachteil. Einerseits werden die Daten (meines Wissens) nicht auf irgendwelchen Servern gespeichert und ihr könnt theoretisch ohne jedwede Kosten beliebig viele Bilder generieren. Andererseits setzt das ganze System schon eine hohe Rechenleistung und/oder sehr viel Zeit vorraus, die wiederum die fehlende Power des eigenen PCs ersetzt. Gerade beim erstellen mehrerer Bilder mit entsprechend vielen Steps sind bei meiner okayen GPU (NVIDA Geforce GTX 1080Ti) pro Bild schon mal einige Minuten vergangen.

Mein Fazit der ganzen Sache: Mit einem KI-Bildgenerator zufriedenstellende Ergebnisse zu erzielen ist eine Kunst für sich. Gerade bei SD gibt es sooo viele Stellschrauben an denen gedreht werden kann (Prompts, negative Promts, mit oder ohne Input Data aka. Bildern als Vorlage, der verwendete Sampler, locked Seeds ja/nein, etc. etc.), dass für die passenden Einstellungen schon Stunden ins Land gehen können. Und selbst wenn du sehr viel Zeit investierst und versuchst die dahinter liegenden Logiken zu verstehen, weil ohne dieses Verständnis bist du dem Tool noch mehr ausgeliefert, bleiben die Ergebnisse am Ende doch immer (zu) unberechenbar. Für meinen - zugegeben sehr speziellen Anwendungsfall - waren die Bilder in der Masse daher eher unbrauchbar.

Einfach weil es mich interessiert hat, hab ich trotzdem mal den Prompt aus dem Artikel auf meine akutellen Einstellungen losgelassen und poste euch mal die Ergebnisse:



Einstellungen: Generation Steps 65, Prompt Guidance 12, Resolution 1280x1280, Sampler Heun, Generate Seamless Disabled.

Wie ihr seht sind die Ergebnisse bei SD ohne Locked Seed und weitere Spezifikationen sehr wild. Schön zzu sehen ist auch das SD ein Problem damit hat eine „realistische“ Katze darzustellen (gleiches gilt auch für Menschen). Ergänzt man den Prompt zum Beispiel um die Angaben „a masterpiece“ und „good lightning“ sowie die negativen Angaben „worst quality“ und „low quality“ (als „klassiche“ Bildverbesserer") bekommt ihr mit dem Seed aus dem dritten Bild (1724317073) folgendes Ergebnis:

Ich weiß ja nicht. Aber ich fange schon wieder an rumzuprobieren und das wollte ich eigentlich lassen…

5 „Gefällt mir“

Da ich eine AMD-Karte habe und mir schon nur das Durchlesen des entsprechenden Artikels in der c’t zu lokalem Verwenden von Stable Diffusion zu aufwendig war, habe ich es einfach sein lassen. :laughing:

Also Respekt @Lipardus für dein Durchhaltevermögen.
Ich haue jetzt bei Bedarf ganz stumpf meine Prompts bei Stable Diffusion XL rein und fühle mich so richtig als Prompt-Engineer³.

1 „Gefällt mir“

Auf der 4090 ging das Generieren echt verdammt schnell - aber waere auch bescheiden, wenn nicht :grimacing::poop:

1 „Gefällt mir“