Přejít k hlavnímu obsahu

Generování obrázků podle AI: omezení je více, než si možná myslíte

Pavel Trousil 19.04.2025
Stromy
info ikonka
Zdroj: Vygenerováno v Midjourney

V médiích se opakovaně objevují tvrzení, že generativní obrazová umělá inteligence brzy nahradí kreativce a fotografy. Toto tvrzení však přehlíží, čeho je umělá inteligence schopna – a především, co nedokáže.

Kapitoly článku

Umělá inteligence není dokonalá

Panuje představa, že stačí popsat motiv jen několika slovy a AI generátor obrázků okamžitě vytvoří úchvatný obrázek, který zastíní jakoukoliv skutečnou fotografii. Na první pohled vznikají opravdu působivé obrázky. Ale druhý pohled rychle odhalí, že tato díla často působí nahodile a jen zřídkakdy přesně odpovídají popsanému zadání a představám. Často procházím obrázky uživatelů AI generátoru Midjourney a jsem vždy ohromen, jak málo mají výsledné obrázky společného se zadáními.

Pro mnoho obecných účelů a jako náhrada za fotobanky to může stačit – nějaký libovolný les jako pozadí pro webovou stránku? Žádný problém. Ale když je potřeba zcela konkrétní obrázek nebo přesný požadavek klienta, AI velmi rychle narazí na své limity. Čím konkrétnější představa, tím obtížnější je její realizace.

Ruce
info ikonka
Zdroj: Vygenerováno v Midjourney
Na první pohled dobré - ale druhý pohled rychle odhalí, že výsledky často neodpovídají přesně výzvě a mají chyby. Není těch prstů nějak moc?

Přesné umístění nebo prostorové uspořádání motivů je prakticky nemožné. Také popis předmětu do nejmenších detailů je velkou výzvou. Do zadání mohu zahrnout základní tvar a barvu košile, stejně jako několik dalších informací o délce a stylu. Ale přesný tvar límce, přesné rozmístění knoflíků, popis různých košil pro více osob? Nemožné.

Mohlo by vás zajímat

Vylepšování obrázků

Pokud zadám prompt „modrá krátká business košile“, vznikne směs všech modrých krátkých košil do práce, na kterých byla umělá inteligence trénována. I s dodatečnými detaily zůstává výsledek většinou kompromisem. K tomu se přidává skutečnost, že obrazová AI se může naučit pouze to, jak motiv vypadá, ne čím je. Nemůže tedy posoudit, zda je prst v generované pozici realistický, protože zná pouze vzhled, nikoli funkci.

Chyby lze často opravit v několika iteracích pomocí takzvaného inpaintingu – při němž se znovu generují pouze označené oblasti obrázku – a k promptu mohu přidat vlastní fotografii jako vzor motivu. Ve Stable Diffusion mohu dokonce trénovat své vlastní modely. Ale to vše je velmi náročné a dosahuje sotva více než odhadem 70 až 80 % mé konkrétní představy, v detailech určitě ještě mnohem méně.

Mohlo by vás zajímat

Pro konkrétní nápady na obrázky se AI skvěle hodí k vytváření moodboardů (vizualizace toho, jak bude budoucí návrh vypadat) a diskutování základního směru a kompozice se zákazníkem. Ale i pro tyto moodboardy je potřeba hluboké porozumění AI programům i obrazové tvorbě.

Pár slovy to určitě nelze vyřešit. A pro dokonalou realizaci i speciálních přání je stále potřeba, alespoň částečně, fotografie. Málokterý zákazník se spokojí se 70 až 80 %. A než bude umělá inteligence skutečně schopna s přijatelným úsilím dosáhnout 100 %, uplyne ještě nějaký čas – pokud toho vůbec kdy dosáhne.

Zdroj: časopis Chip, prosinec 2024


Máte k článku připomínku? Napište nám

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme