Mit Midjourney's Style Reference Feature, konnten wir den vorgegebener "Street Art"-Stil verlässlich reproduzieren. Aber in der Masse lag die Herausforderung: Über 480 Athletinnen und Athleten in 41 Sportarten mussten generiert werden. Während Midjourney bei den populärsten Sportarten wie Fußball oder Basketball sehr gute Ergebnisse lieferte, stieß es bei anderen Sportarten an seine Grenzen. So wurden aus unseren Hockeyspielerinnen und -spielern plötzlich Eishockey-Cracks, da dies anscheinend im englischsprachigem Trainingsraum von Midjourney die populärere Sportart ist. Ebenso verwechselte es die Schläger von Badminton, Tennis und Tischtennis und konnte die verschiedenen Radsportarten nicht korrekt auseinanderhalten. Auch sportartspezifische Bälle stellten ein nicht unerhebliches Problem dar. Midjourney ist eben nur so gut, wie die Bilder mit denen es trainiert wurde. Und für manche Sportarten gab es anscheinend nicht genug Trainingsmaterial.
Das Zwischenfazit nach 2 Tagen: Midjourney ist nicht die Lösung. Aber anstatt uns geschlagen zu geben, entschieden wir uns, das Problem als Chance zu sehen und suchten nach Alternativen die nicht nur bessere Ergebnisse liefern, sondern auch wesentlich effizienter sind.
RunDiffusion: Stable Diffusion + Automation = 🚀
Nach zwei verlorenen Tagen, musste das weitere Vorgehen und die Alternative maximal effizient sein. Wir entschieden uns für Stable Diffusion als automatisierbare Alternative. Gemeinsam mit Ed Kennedy von RunDiffusion entwickelten wir einen komplexen Workflow, der die neuesten Controlnets, IP-Adapter und Comfy UI für optimalen Style Transfer nutzte. Dieser Workflow ermöglichte es, die abgebildete Person im Bild zu erkennen, zu maskieren und sie in einer neuen Szene und individuellem Stil darzustellen.