DALL-E je generativní model umělé inteligence vyvinutý společností OpenAI. Byl představen v lednu 2021 a je konkrétně navržen pro generování obrazů a ilustrací na základě textových popisů (tzv. výzev). Jeho název je složen z kombinace jmen "DALI" (po španělském malíři Salvadoru Dalím) a "Wall-E" (podle animované postavy z filmu Wall-E).
DALL-E dokáže převádět textové popisy na vizuální obsah tím způsobem, že generuje obrázky, které odpovídají popisu. Například, když dostane textový popis jako "strakatý pes s čepicí na hlavě jede na skateboardu", dokáže vytvořit obrázek, který tuto popsanou scénu ilustruje. Model je schopen generovat širokou škálu různých obrázků v různých stylech na základě textových vstupů.
V roce 2022 byla vydána verze DALL-E 2 a OpenAI otevřela čekací listinu, aby mohla kontrolovat, kdo bude moci platformu používat. V září loňského roku čekací listinu zrušila a otevřela DALL-E 2 veřejnosti. Můžete si ji po registraci vyzkoušet.
Nyní OpenAI představila už třetí verzi DALL-E, která opět lépe kreslí. Ale co je pro některé uživatele asi zajímavější, zjednoduší se systém psaní výzev, tedy popisů na základě kterých pak umělá inteligence vygeneruje obrázek. V OpenAI totiž DALL-E spojili i s jejich chatbotem ChatGPT.
Snadné psaní výzev a vyšší bezpečnost
Model DALL-E 2 se v některých věcech mýlil a často ignoroval konkrétní znění zadání. Nejnovější verze podle vývojářů OpenAI pochopí kontext mnohem lépe. Novinkou verze 3 je totiž integrace s ChatGPT. Díky použití ChatGPT nemusí někdo vymýšlet vlastní podrobnou výzvu: stačí požádat ChatGPT, aby výzvu vymyslel, a chatbot napíše delší text, podle kterého bude DALL-E 3 pracovat -DALL-E přesněji pracuje na základě delšího popisu. ChatGPT tedy automaticky rozšíří zadání tak, aby generátor dostal podrobnější a ucelenější instrukce. Pokud to někomu nevyhovuje, může stále používat své vlastní výzvy.
Novinkou u Dall-E 3 je také to, že odstraňuje některé složitosti spojené s upřesňováním textu - což je známé jako "prompt engineering". Dovoluje uživatelům provádět upřesnění opět prostřednictvím konverzačního rozhraní ChatGPT.
OpenAI tvrdí, že se při vývoji DALL-E 3 soustředila i na vytvoření robustních bezpečnostních opatření, která mají zabránit vytváření oplzlých nebo potenciálně nenávistných obrázků. Spolupracovala při tom i s externisty. Jazykové modely určitá slova ignorují, aby se vyhnuly explicitním nebo násilným podnětům a AI tak nebude generovat obrázky, kde je násilí, obsah pro dospělé nebo nenávistný obsah. DALL-E 3 také nebude schopen reprodukovat obrázky veřejně známých osobností - za předpokladu, že ve výzvě bude výslovně uvedeno jejich jméno. DALL-E 3 byl také vycvičen tak, aby odmítal generovat obrazy ve stylu žijících umělců.
Zdroj: X/TwitterDALL·E 3🤝ChatGPT pic.twitter.com/90ITkUAln2
— OpenAI (@OpenAI) September 21, 2023