header banner
Default

ChatGPT ist jetzt verfügbar!


Angekündigt ist sie schon lange, nun ist sie für alle verfügbar: Die "Bilder verstehen"-Funktion des KI-Sprachmodells GPT-4. Das volle Potenzial zeigt sich allerdings erst in der Bezahlversion von ChatGPT, im kostenlosen Bing Chat arbeitet die Bilderkennung deutlich schlechter. c't 3003 hat "GPT-4 Vision" ausführlich getestet.

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, ich werfe ChatGPT oder Bing Chat einfach ein Foto von einem Teller Essen hin und frage nach dem Rezept. Zack, krieg ich das Rezept, Nudeln mit Karottensoße. Oder ich zeige ein Foto von einer kaputten Vorhangstange, wie kann ich das reparieren? Kriege ich 'ne ziemlich konkrete Antwort. Oder ich finde irgendwo ein komisches Objekt, von dem ich nicht weiß, was es ist? Einfach ChatGPT fragen! Oder einfach mal kurz die Algebra-Hausaufgaben abfotografieren: Hier ist das Ergebnis, inklusive Graph. Und jetzt das krasseste: Ich hab hier den Entwurf für eine Website auf einen Zettel gekritzelt und sage ChatGPT: Bau mir das mal bitte. Und dann kriege ich den Code in HTML und Javascript. Und der funktioniert sogar. Und sieht gut aus!

Wie ihr das auch benutzen könnt, zeige ich euch in diesem Video. Und auch, wo das noch hakt – denn wenn man sich die Beispiele von gerade nämlich genauer anguckt, findet man manchmal auch ziemlich offensichtliche Fehler. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei...

Ja, einige von euch erinnern sich vielleicht, als OpenAI im März das große Sprachmodell GPT-4 vorgestellt hat, haben sie sogenannte "multimodale Fähigkeiten" versprochen. Das klingt ziemlich hochtrabend, meint aber in diesem Fall, dass GPT4 eben nicht nur mit Text trainiert wurde, sondern auch mit Bildern. Das heißt, es kann Bilder verstehen. Diese "GPT-4V"-Funktion (V für "Vision) war aber nicht von Anfang an freigeschaltet. Ja, aber nun ist es soweit; und die Funktion ist zum Beispiel in der kostenpflichtigen Plus-Version von ChatGPT enthalten. Also zumindest in meinem Account und bei drei weiteren Leuten, die ich gefragt habe – aber ganz 100 Prozent sicher kann man sich leider nicht sein, denn leider läuft das Ausrollen neuer Funktionen bei ChatGPT ziemlich undurchsichtig, zum Beispiel kann ChatGPT in der Smartphone-App von meinem Kollegen Lukas in Sprachausgabe antworten, in meiner noch nicht, obwohl wir beide das gleiche Betriebssystem und die gleiche Version verwenden.

Aber zurück zu der Bilderkennung: Auch Microsofts Bing Chat, also das KI-System, was zum Beispiel im Windows-Copilot steckt, arbeitet ja mit GPT-4 und kann ebenfalls Bilder erfassen. Bing Chat ist im Unterschied zu ChatGPT Plus sogar kostenlos, also zumindest zurzeit noch. Aber: Die Bilderkennung funktioniert bei Bing Chat deutlich, deutlich schlechter als bei ChatGPT – viel, viel oberflächlicher. Deshalb konzentriere ich mich in diesem Video auf ChatGPT. Ein paar der Beispiele habe ich auch mit Bing Chat ausprobiert, da zeige ich euch dann, was Microsoft daraus macht.

Aber lasst uns mal direkt einsteigen mit sieben praktischen Dingen, die man mit der GPT-4-Bilderkennung machen kann.

Klar, man kann einfach in Textform beschreiben, was man programmiert haben will, das ging auch vorher schon. Aber gerade für Benutzeroberflächen ist es natürlich viel intuitiver, einfach aufzuzeichnen, wie das Ganze aussehen soll. Ich hab hier mal was auf ein Blatt Papier gekritzelt: Blubberblasengenerator, mit vier Kästchen da unten, wo Blubberblasen herauskommen sollen. Das hab ich ChatGPT gegeben und der erste Versuch war nur so halb gut, aber nach ein bisschen Hin und Her sah das dann so aus: So richtig mit Webfonts, animierten Buttons und so ausfadenden Blasen. Ziemlich gut, oder? Bei meinen Tests war die erste Variante, die ChatGPT ausgegeben, übrigens immer ziemlich rudimentär, aber wenn man dann sagt, dass das Ganze moderner und professioneller aussehen soll, und man noch die Anweisung, dass das aussehen soll, "so als hätten die besten Grafikdesigner der Welt die Webseite gestaltet", ja, dann bekommt man auch animierte Buttons.

Also das passiert mir jetzt nicht unbedingt jeden Tag, aber manchmal doch: Dass man irgendein Objekt in der Hand hat, das man nicht zuordnen kann. GPT4 kann da echt erstaunlich gut weiterhelfen. Hier, das ist ein Haarkrebs. Und ChatGPT macht mich sogar auf das schöne türkise Muster aufmerksam. Oder hier, das ist der Deckel von einem Mehrwegkaffeebecher. Bei diesem Ding hier, was ich mal gekauft habe, um einen Pfropf im Ohr zu entfernen, wird es jetzt interessanter: Da hat sich ChatGPT mehrfach geweigert, ein Ergebnis zu liefern. Da kam immer nur eine Fehlermeldung. Ich habe das zuerst nicht richtig verstanden, bis er dann irgendwann doch was ausgab: Offenbar dachte ChatGPT, dass das was ist, was man offenbar nicht nur fürs Ohr benutzen kann. "Das sieht aus wie ein Klistierball" "zur Verabreichung von Einläufen". Und als ich dann gefragt habe, wie Einläufe denn genau gemacht werden, kam nur: "Fehler".

Das Gleiche passiert übrigens auch, wenn ChatGPT vermutet, in politisch inkorrekte Gefilde zu kommen. Wenn ich ein Foto von Ru Paul in Drag hochlade und frage, welches Geschlecht die Person auf dem Foto hat, kommt eine Fehlermeldung. Wenn ich allerdings ein Foto von mir hochlade und das Gleiche frage, kommt als Antwort "männlich". Wenn ich allerdings beim Foto von mir frage, wie alt die Person auf dem Bild ist: Fehlermeldung. Ein Foto von Conchita Wurst will ChatGPT nicht einmal ganz sachlich beschreiben, also wenn ich frage: "Beschreibe das Bild", kommt direkt eine Fehlermeldung. Man merkt also deutlich, dass OpenAI sehr intensiv versucht hat, GPT-4 daran zu hindern, irgendwas auszuspucken, was als problematisch erachtet werden könnte. Womöglich ist das auch der Grund, warum die Veröffentlichung der Bilder-Funktion so lange gedauert hat. Einerseits ist das natürlich verständlich, weil OpenAI ChatGPT natürlich keine sexistischen, rassistischen oder in irgendeiner Form menschenfeindlichen Dinge sagen lassen will – aber andererseits kickt der Filter manchmal auch bei völlig harmlosen Interaktionen ein. Also wieso darf ich mir kein Bild beschreiben lassen, auf dem ein Mensch mit Lippenstift und Bart zu sehen ist? Und wieso sieht GPT-4 in meinem Ohr-Spül-Apparat irgendwas Problematisches? It's 2023! Na ja, ok, wird noch dran gearbeitet.

Humor ist ja was, das Computer bislang noch nicht so richtig draufhatten. Weil Humor sehr komplex ist. Aber, und das hat mich wirklich überrascht, GPT-4 versteht Humor erstaunlich oft. Guckt mal hier, das ist der berühmte Bildunterschriften-Wettbewerb der Zeitschrift New Yorker. Die fragen ihre Leserschaft seit Jahrzehnten nach lustigen Bildunterschrift für wortlose Cartoons. Hier zum Beispiel, ganz aktuell, ein Cartoon mit einem Fisch an einem Konferenztisch. Die Bildunterschrift eines New-Yorker-Lesers lautet zum Beispiel "Ja, Snacks, die aussehen wie kleine Menschen!" – also ihr versteht, weil es ja so kleine Knabberfische gibt. Ziemlich lustig. Aber kann das ChatGPT auch? Hab' ich ausprobiert und dabei kam zum Beispiel raus:

Gibts hier keinen Dresscode? Ich fühle mich etwas underdressed!

Ich brauch' eine Pause. Wer kommt mit zum Wasserspender?

Also es fehlt vielleicht der letzte Funken Cleverness, aber ich denke, man kann das schon als "lustig" anerkennen und ich könnte mir vorstellen, dass man das in der Praxis einsetzen könnte, wenn man mal irgendwas Lustiges schreiben muss und einem partout nix einfällt.

Man könnte ChatGPT aber auch benutzen, wenn man einen Cartoon nicht kapiert; und sich gerne den Witz erklären lassen würde. Hier zum Beispiel, ein sehr charmantes Bild von Nathan Pyle: Da sitzen so vermenschlichte Snacks am Lagerfeuer und der Cracker erzählt eine Horrorgeschichte; und leuchtet sich dabei so klassisch von unten die Taschenlampe ins Gesicht. Kurioserweise erkennt genau das GPT-4 nicht, also dass der Witz darin liegt, dass sich die Ingredenzien eines klassischen Lagerfeueressens am Lagerfeuer dieses Essen als Horrorgeschichte erzählen. ABER: ChatGPT versteht den Humor zumindest fast: "Der Witz entsteht durch die Ironie, dass die Charaktere selbst die Zutaten für S'mores sind und der Graham-Cracker offenbar vorhat seinen Freund, den Marshmallow zu rösten."

Diesen Cartoon hier hat GPT-4 komplett verstanden: "Das Lustige daran ist der unerwartete Wechsel von einer ernsthaften Präsentation zu einer kindlichen und verspielten Darstellung. Es zeigt humorvoll, wie das Hinzufügen einer einfachen und verspielten Wendung eine ansonsten trockene Situation aufheitern kann." Puh, aber hier merkt man aber auch, dass die Erklärung eines Witzes den Witz auch ganz schön kaputt macht. Also lassen wir das mal mit dem Humor. Ach so, ganz kurz noch das Bing-Chat-Ergebnis des Lagerfeuer-Cartoons: "Der Witz ist eine Art schwarzer Humor, der sich über die Situation des Schokoriegels lustig macht." Ja, nee.

Einfach im Restaurant Essen fotografieren, und GPT-4 spuckt euch das Rezept aus? Ja, das klappt zumindest grob und bei einfachen Sachen, wie hier diesem amerikanischen Frühstück hier. Aber leider fehlen in der Praxis oft Details: Hier zum Beispiel bei diesem von mir gekochten Gericht: Ja, das sind Nudeln mit Karottensoße, korrekt erkannt, und das sind auch Fusili, aber ganz wichtig bei diesem Essen sind die Grana-Padano-Splitter, die da oben deutlich zu sehen sind. Die hat ChatGPT nicht erkannt. Oder hier bei diesem fränkischen Wurstsalat von Lukas: Grob richtig, aber man benötigt hier laut Lukas dringend Weißwürste, und ChatGPT spricht von Fleischwurst oder Lyoner. Oder hier dieser Kirschkuchen: Da sagt ChatGPT, dass da "Beeren" drin sind, dabei kann man doch einigermaßen gut erkennen, dass das Kirschen sind. Und die Schokolade hat er auch nicht erkannt.

Ich hab mal einen befreundeten Lehrer gebeten, mir ein paar Schulaufgaben abzufotografieren. Ja, und die Fotos habe ich einfach auf ChatGPT geworfen. Hier zum Beispiel Latein. Die Antworten sind ziemlich gut und sehr konkret auf die Fragen bezogen. Zum Vergleich hier mal Bing Chat: Die Antworten sind nicht nur völlig falsch, sondern es sind auch gar nicht die Fragen, die da auf dem Foto standen. "Was ist der Zweck dieses Buches?" Hä? Davon war nirgendwo die Rede und mit Lehren und Geboten an Gläubigen hat das hier auch nix zu tun. Also Bing, 6, Thema verfehlt.

Jetzt mal wieder ChatGPT mit Algebra, 11. Klasse, Integralrechnung: Das "Standard-GPT-4" gibt hier nur Formeln aus, aber in der Aufgabenstellung war ja gefordert, einen Graphen zu zeichnen. Das geht auch, aber man muss dann hier oben von "Default" auf "Advanced Data Analysis" umschalten. In diesem Modus kann ChatGPT zwar nicht mehr den Inhalt von Bildern verstehen, aber ich kann einfach den Text aus dem anderen Modus copy-pasten und sagen, zeichne mir den Graphen. Und ja, den plottet ChatGPT dann in Python mit der Matplotlib-Bibliothek und zeigt das dann auch grafisch an.

Ich habe mal den Ingenieur-Mathematik-Professor und ehemaligen c't-Redakteur Jörn Loviscach gefragt, ob die Ergebnisse ok sind und er sagte mir: Ja, die Antwort von Standard-GPT-4 sind korrekt, aber im Advanced Data Analysis-Modus mit den Graphen schleichen sich dann Fehler ein – das lag aber wohl vor allem daran, dass ich das einfach schlampig copy-pasted habe; und die Formeln nicht korrekt in den Fragen standen. Jörn Loviscach hat in seinem Blog übrigens selbst einige Sachen mit der ChatGPT-Bildeingabe ausprobiert, zum Beispiel mit elektronischen Schaltungen, echt sehr interessant. Link ist in der Beschreibung.

Man könnte das Ganze jetzt natürlich total negativ sehen und sagen "Oh nein, ChatGPT zerstört die Schulbildung! Hausaufgaben bringen ja gar nix mehr, wenn man die so einfach vom Rechner machen lassen kann!" Aber: Was ich so mitbekomme, nutzen viele Schülerinnen und Schüler ChatGPT zum Lernen. Also die sagen: "Hey, ich habe das und das nicht verstanden, kannst du das nochmal in einfachen Worten erklären." Und dann sagen die: "Ok, ich würde gerne mal wissen, ob es jetzt kapiert habe, stelle mir bitte eine Aufgabe." Und so kann man ChatGPT tatsächlich nicht nur als stumpfen Ergebnisautomaten nutzen, sondern als Nachhilfelehrer mit unendlicher Geduld. Aber das führt jetzt vom Thema weg.

Irgendwas ist kaputt und ihr wisst nicht, wie man das repariert? Einfach fotografieren und ChatGPT fragen, das funktioniert ganz ok. Hier zum Beispiel eine herausgerissene Vorhangstange: Vorhanghalter entfernen, Loch mit Spachtelmasse auffüllen, neue Dübel verwenden, wieder anbringen.

Ihr möchtet ein Bild mit Midjouney, Stable Diffusion oder Dall-E3 nachbauen, wisst aber nicht, wie ihr das korrekt beschreiben sollt? Kann man jetzt auch ChatGPT fragen, einfach irgendein Bild draufwerfen und nach dem Prompt fragen? Hier zum Beispiel der berühmte Wanderer über dem Nebelmeer von Caspar David Friedrich, da kommt dann eine sehr ziemlich poetische Beschreibung heraus "Der Himmel ist bewölkt, aber es gibt Lichtstrahlen, die durch die Wolken brechen und die Szene in ein sanftes, diffuses Licht tauchen". Ja, und wenn man das dann zum Beispiel auf Dall-E3 wirft, das geht ja inzwischen auch direkt in ChatGPT, dann kommen da Bilder raus, die schon ziemlich in die Richtung des Originals gehen. Und dann kann man die natürlich auch remixen, in dem man dann zum Beispiel statt "Mann" einfach "Seekuh" einsetzt. Ja, super, da hab ich doch jetzt echte Kunst produziert, oder?

Also, ich finde die Bild-Funktionen von GPT-4 wirklich beeindruckend. Noch vor Kurzem hätte ich nicht geglaubt, dass Computer heute schon in der Lage sein würden, Bilder wirklich zu verstehen, also inklusive Humor, Kontext und Weltwissen. Dass Computer wirklich sehen können, statt nur zu schauen. Wenn ich mir vorstelle, dass so was irgendwann ohne Cloud und quasi in Echtzeit funktionieren könnte – dann ist der Weg zum Beispiel zu humanoiden Robotern, wie wir sie bislang nur als Science-Fiction kannten, jetzt definitiv kürzer geworden. Und auch für Menschen mit Behinderungen, also für Blinde zum Beispiel, hat die Technik Lebensverbesserungspotenzial. Ich bin sehr gespannt, was wir daraus machen, ich hoffe, nur Gutes. Tschüss.


c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(jkj)

Sources


Article information

Author: Cheryl Soto

Last Updated: 1703738161

Views: 883

Rating: 4 / 5 (41 voted)

Reviews: 84% of readers found this page helpful

Author information

Name: Cheryl Soto

Birthday: 2022-03-08

Address: 11267 Melissa Ways Apt. 105, Kathymouth, NJ 65971

Phone: +4785600273595270

Job: Psychologist

Hobby: Archery, Skydiving, Sewing, Puzzle Solving, Origami, Card Games, DIY Electronics

Introduction: My name is Cheryl Soto, I am a tenacious, rare, audacious, lively, striking, treasured, radiant person who loves writing and wants to share my knowledge and understanding with you.