Erzeugen von Testbildern mit Abobe Firefly Image Generation 3

Alles gemogelt …

Im Blogbeitrag KI – Künstliche Intelligenz in Fotografie und Journalismus erneut beschrieben, wohin der nicht mehr aufzuhaltende KI/AI ­– Künstliche Intelligenz, Artificial Intelligence – Zug geht, hat sich Christian Zahn mit der neuen Beta von Adobe Photoshop "ausgetobt" ;-)

Mein Kommentar vorweg: Mich erstaunt, dass es Adobe bis heute nicht hinbekommt, seine AI/KI so zu programmieren, dass menschliche Hände wie Hände und nicht wie die von Zombies ("Untoten") aussehen. Aktuell genügt ein Blick auf die Hände, um das "Foto" sofort als KI-generiert zu entlarven. Und dennoch, es gibt kein Zurück. Auch die Hände wird die KI spätestens in den nächsten zwei Jahren hinbekommen. Was schon jetzt so gut wie tot ist – so gennante Stockfotografie. Die unter anderem Symbolbilder liefert, die zur Ilustrierung belangloser bis hochwertiger Magazinbeiträge herangezogen werden/wurden. Oben drei Beispiele zu "Rosen im Asphalt" – ich musste da an den gleichlautenden Titel von Wolf Maahn denken – und die "Weiße Taube auf der Straße". Ich wollte nicht soweit gehen, ob Adobe auch eine "Tote weiße Taube auf der Straße mit Blut" generiert … Da wird in Zukunft kein Cent für Stockfotos mehr ausgegeben. Die werden mit jedem Monat/Jahr immer wertloser. Es genügt schon jetzt Photoshop! Und ein gewisses Vorstellungsgefühl für Proportionen, graphischen Bildaufbau.

Jetzt Christian Zahn

Im April 2024 stellte Adobe eine neue Version (die inzwischen dritte) ihrer KI-basierten Bilderzeugungs-Engine vor, ich probiere sie im Folgenden ein wenig aus.

Hinweis: um diese Bilderzeugung nutzen zu können ist ein Adobe-Konto zwingend erforderlich. Wer keine Adobe-Software gemietet hat, kann mit einem kostenlosen Account nur wenige Bilder pro Monat generieren lassen (im April 2024 sind es 20 Erzeugungen im Monat), Nutzer von Adobe-Abos bekommen wesentlich mehr „Generative Credits“, als Faustregel gilt: je höher die monatliche Zahlung, desto mehr Credits. Die verbrauchten Credits werden jeden Monat wieder aufgefüllt, ungenutzte verfallen am Monatsende, werden also nicht in den nächsten Monat „mitgenommen“.

Einige einleitende Erklärungen

Die Erzeugung der Firefly - Bilder basiert auf den lizenzfrei nutzbaren Adobe Stockfotos, mit der die KI angelernt wurde, somit dürfte es bei der Verwendung der Firefly-Bilder keine lizenzrechtlichen Probleme geben. In die linke untere Ecke ist ein Firefly-Logo fest eingestempelt, und die Auflösung ist zunächst auf 2000x2000 Pixel eingestellt, läßt sich aber vor der Erzeugung verändern. Je  Erzeugung erstellt die Engine vier verschiedenen Ergebnisse, diese können einzeln oder alle gleichzeitig heruntergeladen werden und verbrauchen zusammen einen Credit.

Als Eingabe dient eine Eingabezeile (der Prompt), in die eine englische oder deutsche Beschreibung des gewünschten Ergebnisses eingetippt wird. Auf Wunsch schlägt die KI auch nach dem Eingeben der ersten Wörter ergänzende Worte vor, die andere User bereits verwendet hatten. Das kann sinnvoll ein oder auch lustig oder unpassend, man muß die Vorschläge nicht übernehmen, sie sind optional.

Zum Namen: „Firefly“ = „Feuerfliege“ ist unser Glühwürmchen bzw. korrekt bezeichnet sind es die Leuchtkäfer. „KI“ ist wie „AI“ die Bezeichnung für Künstliche Intelligenz bzw. „artificial intelligence“.

Beispiele für Firefly

Um die vielen Beispiele zügig durchklickbar zu machen, habe ich eine andere Darstellung gewählt. Und die Texte erst nach Ende der opulenten Bildserie drangehängt. Die Zuordnung sollte nicht schwerfallen.

Bilderklärungen

Ganz oben im Intro: A mac mini on the desktop of a nerd with opened pizzabox and empty cola bottles on the floor

„Ein Mac mini auf dem Schreibtisch eines Computerfreaks mit geöffneten Pizzaschachteln und leeren Cocaflaschen auf dem Boden“ habe ich mit Generation 2 von Firefly erzeugt. Auch hier wieder deutliche Verformungen an den Händen und den Gesichtern sowie Füßen. Die Computerfreaks stellte ich mir anders vor, der Pizzakarton auf Bild 1 dürfte sich nicht zuklappen lassen und der in Bild 2 hat einen unpassenden Deckel. Und warum die spiegelnde Displayseite beim Notebook auf Bild 1 nach hinten zeigt, weiß nur die KI…

Airplane landing on an island with mount pilatus and cloudscape; beautiful panorama of lake lucernesee

„Ein auf einer Insel landendes Flugzeug mit dem Berg Pilatus (in der Schweiz) mit Wolkenhimmel, schönes Panorama vom Vierwaldstättersee in der Nähe von Luzern“ lautet der Prompt. Den See hat die KI hinbekommen, den Wolkenhimmel auch. Die Flugzeuge sehen teilweise merkwürdig fehlproportioniert aus, mal sind die Turbinen zu groß, mal hat der Rumpf einen komischen Buckel. Die schweizerische Fahne ist auf einem Bild „falsch“ und entspricht eher derjenigen des roten Kreuzes, die eine invertierte Schweizer Fahne ist.

Edward munch the scream from pulpit rock lookout, monument valley; red rocks at sunrise light with blue sky and moon above grand canyon national park

„Edward Munchs Der Schrei vom Pulpit Rock Aussichtspunkt, Monument Valley; Rote Felsen bei Sonnenaufgang mit blauem Himmel und Mond über dem Grand-Canyon-Nationalpark“ sollen erzeugt werden und diesmal nicht fotorealistisch, sondern als Kunstwerk. Die berühmte schreiende Person des Gemäldes fehlt auf allen Varianten, der Bildstil erscheint mir (als nur wenig kunstaffinem Menschen) gut getroffen (das mag ein Kunstkritiker anders sehen).

Eine alte Dame im Cafe einen Eisbecher essend

Nach Eingabe eines deutschen Prompts erzeugte die KI 4 Varianten, wobei Nr. 2 erhebliche Probleme mit den Händen hat, es fehlt ein Finger und der Löffel. Aber „Handprobleme“ sind bei KI-generierten Bildern momentan noch durchaus normal, das scheint noch ein grundsätzliches Problem zu sein. Die künstliche Hintergrundunschärfe erscheint ganz gut getroffen, der Unschärfeverlauf der Personen hingegen ist mir zu übertrieben, die Hände und der Eisbecher sind doch eigentlich das Hauptmotiv!

A lion sitting in the grass with a puppy jerking around

Der Prompt bedeutet auf Deutsch in etwa „Ein Löwe sitzt im Gras und ein Hundewelpe tollt herum“. Die KI hat das Bild recht gut umgesetzt, es gibt künstliche Hintergrundunschärfe und auf der Löwe hat jeweils einen mehr oder minder „echten“ Unschärfeverlauf. Allerdings „tollen“ die Welpen nicht herum, sondern sitzen nur neben dem Raubtier. Nr 2 gefällt mir am besten, der Löwe guckt den Betrachter an, leider wirkt das Hundegesicht etwas unnatürlich.

Luggage on the floor of a vintage hotel check-in counter with chairman

„Gepäck auf dem Boden einer alten Hotel-Anmeldung mit Vorstandsvorsitzendem“ ist relativ gut umgesetzt worden, jedoch: Bild 1 ist ein modernes Hotel und der Mann hat eine Finger zuviel und keinen Daumen. Der Mann auf Bild 2 hat ebenfalls Fingerprobleme und ob er seine andere Hand nun in die Tasche steckt oder hinterm Rücken hält, ist zweifelhaft. Bild 3 hat einen hübschen Unschärfeverlauf, aber einer der Kronleuchter an der Decke fehlt teilweise. Und der Mann auf Bild 4 hat eine enorm lange Hand.

Luggage on the floor of a vintage hotel check-in counter with people walking behind it; shot taken through glass window

Ein ähnlicher Prompt wie der letzte: „Gepäck auf dem Boden einer alten Hotel-Anmeldung mit Leute, die dahinter herumlaufen, Bild durch Fenster aufgenommen“ hat die KI etwas falsch verstanden, die Leute hinter dem Gepäck sind durch ein Fenster „aufgenommen“ und die Spiegelungen recht imposant umgesetzt, aber das Gepäck ist fast immer vor der Glasscheibe. Bild 2 und 3 zeigen wieder Handverzerrungen, auf Bild 3 ist der Arm der Frau zusätzlich merkwürdig. Bei Bild 4 könnte alles durch ein Fenster gezeigt sein, zumindest deuten das Spiegelungseffekte auf den Koffern an, aber das Fenster ist kaum bis gar nicht erkennbar.

Medium format camera and an videocamera together with an old fashioned desk and an ibm-computer

„Mittelformatkamera und Videokamera zusammen mit altem Schreibtisch und IBM-Computer“ sollte eigentlich einen 1980er IBM-Computer mit einer alten Videokamera und einer Mittelformatkamera auf einem altem Schreibtisch ergeben, so hatte ich mir erhofft. Herausgekommen ist jedoch etwas anders, Computer sind für die Firefly - KI fast immer MacBooks oder iMacs. Eine Videokamera ist auf keinem Bild zu erkennen, lediglich irgendwie verunstaltete alte Kleinbildkameras. Auch die Mittelformatkameras sehen mehr oder minder komisch aus, was soll das freiliegende Objektiv unten in Bild 1? Kann man den Lichtschacht in Bild 2 jemals zuklappen? Wozu dient der Hebel über dem Sucherobjektiv in Bild 3? Was macht das internationale GF-Rückteil an der Kameraseite in Bild 4? Wozu dienen die komischen Aufsätze auf beiden Kameras in Bild 1? Fragen über Fragen, auf die die KI keine Antwort geben kann. Immerhin sind die Spiegelungen in den Macbook-Displays in Bild 4 recht gut gelungen. Dafür sind die Tasten verformt. Nunja, als Illustration für ein Projekt im Digicammuseum kann ich wohl keins der vier Bilder nutzen…

Mehrere Personen am Strand sich lustig unterhaltend, während im Hintergrund ein Elefant trompetend vorbeiläuft

Auf Bild 1 gibt es wieder Handprobleme, in Bild 2 hat das Gesicht der Frau im Vordergrund deutliche Verformungen, in Bild 3 sind Vorder- und Hintergrundunschärfe etwas übertrieben, nur Bild 4 finde ich gelungen. Die beiden Personen interagieren mit dem Elefanten, allerdings lachen sie nicht wie gefordert und es gibt Handverzerrungen. Wirklich brauchbar ist eigentlich keine Version, durchgehen lassen könnte ich höchstens Bild 3, wenn manuelle Bildkorrekturen an den leicht fehlerhaften Handdetails vorgenommen werden.

Old computernerd hacking on an macintosh computer with acoustic coupler an old telephone in the background, laying pizza boxes around and empty cokedbottles on the floor

„Alter Computerfreak auf einen alten Macintosh-Computer einhackend mit Akustikkoppler, ein altes Telefon im Hintergrund, Pizzaschachteln liegen am Boden, leere Cocaflaschen auf dem Boden“ soll erzeugt werden. Ich wollte einen Würfelmac, die KI erzeugt in drei Varianten ein Macbook, einmal ein Windowsnotebook. Thema verfehlt! Drei Nerds sind weiblich, das war in den 1980ern und 1990ern nicht die Verteilung bei den Computerfreaks. Thema nochmal verfehlt! Der Mann Nr. 3 hat ein merkwürdig verformtes Gesicht, keine Daumen und an einer Hand nur drei Finger. Auf einem Bild sind die Pizzaschachteln vorhanden, die anderen drei zeigen eher Umzugskartons. Thema verfehlt! Auf einem Bild gibt es statt des ollen Telefons ein herumliegendes Handy. Somit: Der Prompt wurde nicht wunschgemäß umgesetzt.

Papageien im Käfig, während John Cleese und Michael Palin im Vordergrund lachen

Wieder eine deutsche Eingabe, wieder ein größtenteils falsch umgesetztes Ergebnis. Die Personen sind immer im Hintergrund statt vorne, die beiden gewünschten Personen (Mitglieder der Monty-Python-Truppe) wurden durch Stockfoto-Unbekannte ersetzt, in Bild 1 und 3 sogar mit einer Frau und einem Mann statt zwei männlichen Personen. Bei Bild 3 und 4 sitzt der Papagei auf dem Käfig und nicht drinnen. Der Mann, der auf Bild 2 den Käfig hochhält, hat verstümmelte Finger. Nein, davon kann ich keins der vier Bilder gelten lassen.

Restroom with white toilet bowl, wall-mounted mirrors and light switch; style of a retro bathroom for the elderly to use

„Toilette mit weißer Toilettenschüssel, Spiegel an den Wänden, Lichtschalter, im Stil eines alten Badezimmers, für Ältere nutzbar“ sollte umgesetzt werden. In Bild 1 ist die Rückwand etwas verbeult, in Bild 2 der Rand der Schüssel enorm vergrößert, Bild 3 fast fehlerfrei und Bild 4 zeigt eher ein Handwaschbecken, jedoch zu niedrig montiert.

Pointilistisches Portrait einer jungen Frau mit Tulpenvase in der Hand vor einem Bergsee

Diesen Prompt habe ich sowohl als Gemälde und fotorealitisch erzeugen lassen. Mir gefallen die Gemälde besser als die „Fotos“. Allerdings ist auf Bild 1 keine Junge Frau zu sehen, sondern eine ältere und auf Bild 3, 6 und 7 gar ein Mann. Und als „Pointillistisch“, also im Malstil, der nur Punkte statt Strichen oder Flächen verwendet, kann höchstens Bild 4 bezeichnet werden. Nr. 8 hat nur eine einzige traurige Tulpe in der Vase und das Bild ist auch nicht bei schönster Sonne, sondern an einem etwas trübem Tag „entstanden“. Bild 1 hat wieder Handprobleme, die Dame hat 6 Finger…

Spacelab and descending earth

„Weltraumlabor mit abnehmender Erde“ stellte ich mir vor wie das berühmte Bild der NASA, das eine Ansicht der Erde aus der Apollokapsel zeigt. Ich ließ das Bild sowohl als Gemälde /Zeichnung und fotorealistisch erzeugen. Auch diesmal finde ich die Zeichnungen besser als die „Fotos“. Allerdings ist auf keinem der 8 Bildern die „Descending Earth“ zu sehen, teilweise gar nicht, teilweise als runder Planet. Das Labor auf Bild 1 hat merkwürdig verformte Sonnensegel, bei dem auf Bild 2 wachsen irgendwelche grünen Pflanzen, der Erdhorizont von Bild 3 hat einen deutlichen Knick, der Berg in Bild 4 ist vollkommen fehl am Platz, in Nr.5 gibt es vier „Erden“, Rakete 6 ist komisch verbeult, auf Bild 7 gibt es eine dreifache Erde und der Raketenstrahl knickt ab, bei Bild 8 sind es zwei Erde-Darstellungen gleichzeitig und der Astronaut hat keine Füße.

Am besten gelungen finde ich Version 3, bei der ich den Knick per Photoshop geraderücken würde.

Traumhafter See mit düsterer Wolkenstimmung und heftigem Gewitter und Blitzen

Nochmals ein deutscher Prompt, diesmal viermal gut umgesetzt. See, teilweise mit Häusern am Ufer, düstere Wolkenstimmung und imposante Blitze. Lediglich auf Bild 3 sehen die Gebäude etwas komisch aus, die Dachgauben sind verformt und Perspektive von Haus und See passen nicht recht zusammen. Aber 1, 2 und 4 sind ansehnlich geraten.

Fazit

Ich finde die Ergebnisse teilweise noch recht „stümperhaft“, Menschen kann die KI meist nur mehr oder minder verzerrt / verunstaltet „einbauen“, insbesondere Hände sehen oft ziemlich übel aus. Außerdem scheint die KI auf „Gleichberechtigung“ getrimmt zu sein, will ich zwei Männer generieren lassen, sind teilweise Frauen dabei, umgekehrt werden Männer erzeugt, wenn es explizit eine junge Frau sein soll. Gegenstände kommen teilweise gut rüber, sind aber teilweise auch ziemlich verbeult (Computer, Kameras usw.). Teilweise stimmen Proportionen nicht. Reine Landschaften sehen besser aus als solche, in die die KI Häuser oder Gegenstände hineingerechnet hat. „Gezeichnete“ bzw. „gemalte“ Bilder sehen meist besser aus als fotorealistische.

Allerdings dürfte klar sein, wohin die Reise geht: Die KI wird besser werden und konkurrierende KI-Systeme anderer Hersteller sind Adobe möglicherweise schon „einen Schritt voraus“. Die Beispielbilder von z. B. „Midjourney“, die ich gesehen habe, erscheinen mir besser als alles, was Firefly mir erzeugt hat. In zwei, fünf oder zehn Jahren werden die KIs einen Stand erreicht haben, daß ihre „Aufnahmen“ von echten Fotos auch durch Fachleute nur noch schwer oder gar nicht zu unterscheiden sein werden. Vermutlich werden wir dann andere KI-basierte Programme brauchen, um Fakebilder von echten Fotos sicher zu trennen.

Christian Zahn

Ralf Jannke: Die Frage ist allenfals noch, ob diese "Fotos" Bild für Bild in Zukunft den Hinweis tragen (müssen): AI-/KI-generiert. Oder ob nur ein kleiner Hinweis versteckt in einen Impressum genügt. Und Fotos mit Personen? Persönlichkeitsrechte? Wie auch in Dokumentarfilmen: "Die Personen in diesem Film sind von unbekannten Schauspielern dargestellt oder eben jetzt: Die Personen auf diesem Foto sind von künstlicher Intelligenz erzeugt. Ähnlichkeiten mit lebenden Personen sind vollkommern zufälliger Natur …" Na dann. Was mir gefallen hat, das sind die Weltraum-Darstellungen. Da werden Perry Rhodan & Co Groschenheftchen und die liebevoll ohne jegliche Computerunterstützung gemalten Titel-Illustrationen lebendig ;-)

 

Kommentare (0)

Keine Kommentare gefunden!

Neuen Kommentar schreiben