ChatGPT-3 vs. Midjourney - eine Analyse
Liebe Leserinnen und Leser, erinnert ihr euch noch an unser „Kamingespräch: Toast to the Art in Artificial Intelligence“? Dieser Beitrag ist wie eine gepunktete Linie zwischen dem Damals und Heute. Ich habe mich von unseren vorherigen Gesprächen inspirieren lassen und eine freudvolle Route gewählt.
In letzter Zeit haben wir viele Beiträge und Nachrichten gesehen, egal welcher Art von Medien, die über ChatGPT-3 oder ähnliches sprachen. Aber wie ich fragen sich auch unsere Lesenden vielleicht, was ist das genau? GPT steht für Generative(What) Pre-trained(How) Transformer(Who), entwickelt von OpenAI. Mit mehr Worten:
- Generative: ChatGPT kann unabhängig neue Antworten generieren, anstatt nur aus bereits vorhandenen Optionen auszuwählen.
- Pre-trained: ChatGPT wird mit riesigen Mengen an Textdaten trainiert, wodurch es Muster und Strukturen in natürlicher Sprache lernt.
- Transformer: Dies ist der Name der spezifischen neuronalen Netzwerkarchitektur, auf der ChatGPT basiert.
Als Designer habe ich in den vergangenen Monaten regelmäßig mit meinen Kollegen diskutiert: Wie können wir diese Technologieflut nutzen? Wie können wir damit zusammenarbeiten?
Cadavre Exquis
Okay, als Designer und Programmierer brauche ich eine Metapher, um mein Denken zu erforschen und zu strukturieren. Kennen Sie „Cadavre Exquis“? Es ist ein kollaboratives Zeichenspiel, das in den 1920er Jahren von surrealistischen Künstlern wie André Breton, Yves Tanguy und Salvador Dalí erfunden wurde. Im Spiel zeichnete jeder Künstler einen Abschnitt eines Bildes, ohne die vorherigen Abschnitte zu sehen, was zu einem surrealen und oft bizarren Endbild führt.
Anstatt mit anderen Designern und Künstlern zusammenzuarbeiten, stellen wir uns vor, ein Bild zu erstellen, indem wir uns mit ChatGPT3 und einer andere generative KI unterhalten. Der kreative Input eines Designers würde immer noch integriert, aber ChatGPT3 und eine andere KI würden die detaillierte Eingabeaufforderung generieren. CLIP übersetzt dann das entstandene Bild in Schlüsselwörter, und der Prozess setzt sich fort, bis das gewünschte Bild erreicht ist.
CLIP – ChatGPT – Midjourney
What is CLIP?
CLIP (Contrastive Language-Image Pre-Training) ist ein von OpenAI entwickeltes künstliches Intelligenzmodell, das darauf trainiert ist, die Beziehung zwischen natürlicher Sprache und visuellen Inhalten zu verstehen. CLIP kann Beschreibungen von Bildern und Videos in natürlicher Sprache lesen und verstehen, und es kann auch Objekte und Szenen in visuellen Inhalten klassifizieren und erkennen. In diesem Artikel wurde CLIP Interrogator 2.3 von @pharmapsychotic verwendet.
In dieser Untersuchung wird CLIP verwendet, um Text aus einem Bild zu extrahieren, und dann modifiziert ChatGPT-3 den Text, um eine Eingabeaufforderung für die KI-Bildgenerierung zu erstellen. Dies ermöglicht die Erstellung interaktiver und iterativer KI-generierter Inhalte mit menschenähnlicher Kreativität. Dieser Ansatz kann Teil einer umfassenderen Pipeline wie der CLIP-VQGAN-Bildsynthesepipeline sein, die einzigartige und kreative Bilder basierend auf den modifizierten Eingabeaufforderungen generieren kann. Nachstehend die grobe Struktur des Prozesses:
Das CLIP-Modell kann Text aus Bildern identifizieren und extrahieren und in ChatGPT-3 verwendet werden, um diesen Text so zu ändern, dass eine neue Eingabeaufforderung erstellt wird. Diese Eingabeaufforderung kann als Eingabe für das generative KI-Bildmodell verwendet werden, um ein neues Bild zu erstellen, das dann erneut vom CLIP-Modell verarbeitet werden kann, um neuen Text zu extrahieren, und den Zyklus fortzusetzten.
Es ist wichtig zu beachten, dass dieser iterative Prozess nicht immer zu kohärenten oder aussagekräftigen Ergebnissen führen muss. Die Bilder müssen genau identifiziert werden. Andernfalls führt es ab der ersten Iteration zu Chaos. Sicherzustellen, dass die generierten Bilder den modifizierten Eingabeaufforderungen entsprechen und dass die Eingabeaufforderungen mit den Originalbildern übereinstimmen, kann eine Herausforderung darstellen. Das folgende Bild zeigt, was passiert, wenn das Gesichtsmassagegerät das Anfangsbild ist. Ich gehe davon aus, dass der Bildsatz von Gesichtsmassagegeräten kleiner ist als der Bildsatz eines Standardproduktes wie einer Kamera. Von der ersten Iteration an wird es chaotisch und das Design erzeugt ein anderes Objekt.
Invite your AI as a third person.
Es gibt viele Möglichkeiten, wie die oben genannten Tools verwendet werden können. Mittels Echtzeit-Feedback können sie beeindruckende Designs erstellen. Während eines Meetings könnten wir ein Produktbeispielbild verwenden, um es mit Schlüsselwörtern zu verquicken und aus den Eingaben des Kunden/der Kundin eine Aufforderung für generative Bilder zu erstellen. Oder wir erstellen zunächst ein Moodboard mit tatsächlichen Produktbildern. Die Verwendung von Echtzeit-Feedback kann ein leistungsstarkes Werkzeug für Zusammenarbeit und Kreativität sein. Durch die Zusammenarbeit in Echtzeit können Designer:innen und Kund:innen Ideen austauschen und ihre Vision verfeinern, was zu einem Endprodukt führt, das ihre gemeinsamen Ziele wirklich widerspiegelt.
Technologie ist ein faszinierender und sich ständig verändernder Aspekt unseres Lebens, aber sie kann auch entmutigend sein. Wenn wir uns jedoch einen Moment Zeit nehmen, um darüber nachzudenken, können wir sehen, wie neue Technologien unsere Welt und unsere Lebensweise geprägt haben. Denken wir nur daran, wann der Zug implementiert wurde (dies führte zu dem berühmten „Gedankenexperiment“ von Einstein – Relativität der Gleichzeitigkeit) oder als das iPhone auf den Markt kam – wir erhielten Zugang zu unglaublichen Optionen, die wir uns vorher nicht hätten vorstellen können. Einige Leute argumentieren, dass dieses schnelle Tempo des technologischen Fortschritts sowohl gut als auch schlecht ist. Aber wenn ein positiver Fluss oder ein starker Antrieb dahinter steckt, warum sollten wir dann Angst haben?
Ich persönlich bin weniger erschrocken als begeistert. Aus der Symbiose von künstlicher Intelligenz und menschlichem Bauchgefühl und erfahrungsbasierter, rationaler Entscheidungsfindung könnte Großes entstehen.
Zum Weiterlesen empfohlen
How do pre-trained models work? – https://towardsdatascience.com/how-do-pretrained-models-work-11fe2f64eaa2
Transformer, Google Blog – https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
A few stories to understand tomorrow in the AI era – https://www.youtube.com/watch?v=g9iWYxNfYpo
More of CADAVRE EXQUIS (in German) –https://www.kunstlinks.de/material/walch/galerie/cadavre_exquis/
Jeongwoo Jang
Data Analysis
AI Concepting
Prototyping & Testing