Mi az a DALL·E 2?

A DALL·E 2 egy mesterséges intelligencia program, amely szöveges leírásokból képeket hoz létre – mutatta be csütörtökön az OpenAI kutatócég.

A GPT-3 transzformátormodell 12 milliárdos paraméteres betanító változatát használja a természetes nyelvi bemenetek értelmezésére és a megfelelő képek előállítására. Például, ha a „fekete-fehér fotó egy kis kutyáról” mondattal látták el, akkor helyesen jeleníti meg a chihuahua fekete-fehér képét.

A rendszer nem tökéletes – néha nehezen értelmezhető, vagy teljesen elrugaszkodott képeket hoz létre. Például, amikor arra kérték, hogy készítsen egy képet „egy ember egykerekűvel egy kötélen egy vulkán felett”, akkor egy (szerintem gyönyörű), de teljesen független képet hozott létre egy víz feletti naplementéről, egy kis figurával az előtérben. .

Ennek ellenére az eredmények lenyűgözőek, és az OpenAI szerint a DALL·E 2 „az első mesterséges intelligencia modell, amely olyan szöveges leírásokból hoz létre képeket, amelyek vetekedhetnek a professzionális emberi művészek minőségével”.

A rendszert egy szöveg-kép párokból álló adatkészletre képezték ki, amely körülbelül 1,3 millió képből és az internetről származó feliratokból állt, amelyeket az OpenAI gyűjtött össze és állított össze. A betanítási adatokat ezután a GPT-3 modell finomhangolására használták fel, hogy az képes legyen képeket generálni szöveges leírásokból.

Az OpenAI szerint a rendszer „kiváló minőségű” képeket képes generálni a szöveges leírások széles skálájából, beleértve azokat is, amelyek absztrakt, konkrét vagy akár költőiek.

A Chihuahua példán kívül a DALL·E 2 által készített képek egyéb példái közé tartozik Adolf Hitler helyesen renderelt portréja, egy zöldségből készült sárkány képe, valamint egy pirítósból készült Mona Lisa képe.

A rendszer képes képeket generálni olyan dolgokról is, amelyek nem léteznek, mint például a „floof” (egy kitalált állat) vagy egy „tulpa” (gondolatforma).

Összességében az eredmények lenyűgözőek, és az OpenAI szerint a rendszer „új lehetőségeket nyit meg a szöveges leírásokból származó képek előállítására”.

E 2-től Ez CLIP-rendszer a szöveges információt vizuális információvá alakítja. Ez egy kódoló-dekódoló paradigma, ami azt jelenti, hogy a bemeneti szöveg megadásakor először gépi bemenetté alakítja, majd a rendszer feldolgozza, végül továbbítja a dekódolónak, amely a kódolt adatokat képpé alakítja.

Mi az a DALL E2

Mi az a DALL·E 2?

Ez a DALL·E legújabb generációja, egy generatív nyelvi modell, amely kifejezéseket használ teljesen új vizuális effektusok létrehozására. A DALL E 2 egy hatalmas 3,5 V-os modell, bár nem olyan masszív, mint a GPT-3. Érdekes módon könnyebb is, mint elődje (12B). A leírás igazítását és a fotorealizmust tekintve a DALL·E 2 nagyobb mérete ellenére 70%-kal jobb, mint a DALL·E 2.

DALL.E 2- magyarázat kezdőknek példákkal

Pontosabban, a DALL·E 2 egy hierarchikus feltételes szövegkép-szintézis modell, amely a természetes nyelvi feldolgozáshoz a mély tanulást kombinálja a képgeneráláshoz szükséges számítógépes látással. Célja két modell betanítása, az edzőkészlet pedig páros képekből és leírásokból áll. Az első egy a priori, amely írott cím mellett betanítható CLIP képbeágyazás létrehozására. Ezután van egy dekóderünk, amely egy CLIP-kép (és ha van felirat) beágyazásakor betanított képet generálhat.

A DALLE 2-t több százmillió, az internetről származó képaláírással ellátott fénykép felhasználásával képezték ki, és ezek közül néhányat eltávolítanak és újrakevernek, hogy megváltoztassák a modell tanulságait. Több képbeállítást kér le CLIP mellékletek majd használd dekóder menjen végig mindegyiken. Ezután a felhasználó által megadott információkból érdekes keveréket hoz létre.

Példa DALL IS 2

Játsszunk egy kis játékot a DALL·E megértéséhez. Bontsuk fel a következő három lépésre.

Képzeld el, hogy szivárványok, felhők és egyszarvúak repülnek a kék égen. Képzeld el, milyen lehet egy kép a képzeletedben. Az emberek állnak a legközelebb egy képbeágyazás tökéletes analógjához, és a kép, amely most jutott el a fejedben, tökéletes példa erre. Csak sejtheti a végterméket, de van egy jó elképzelése arról, hogy mit kell tartalmaznia. Az a priori modell az olvasót egy kifejezés szavaitól a képzeletében lévő jelenetig vezeti.
Most elkezdheti rajzolni. Amit az unCLIP tesz, az az, hogy a mentális képét valódi vázlattá alakítja. Most pontosan újra létrehozhat egy másik karaktert ugyanabból a leírásból, ugyanazokkal az alapvető statisztikákkal, de teljesen új vizuális stílussal. A DALL·E 2 egyedi képeket is tud generálni egy ilyen módon beágyazott meglévő képből.
Ügyeljen az elkészített vázlatra. Ez történik, amikor felvázolja a leírást: 'egyszarvú a felhők közepén, és szivárvány emelkedik az égre'. Most vizsgálja meg a képet és a szöveget, hogy megállapítsa, mi illusztrálja legjobban a másikat (nap, ház, fa stb.), és mi illusztrálja legjobban a témát, stílust, színeket stb. A CLIP jellemzők kódolása. szöveget és képeket.

Most, hogy tudjuk, mi az a DALL-E, térjünk át a következő szakaszra, és ismerjük meg a funkcióit.

Tipp: Hogyan készítsünk valósághű képeket a DALL-E-2 AI szolgáltatással

Jellemzők a DALL E2

Az alábbiakban a DALL·E 2 specifikációi találhatók.

Variációk
Színezés
Szövegbeli különbségek

Beszéljünk róluk részletesen.

hogyan készítsünk névjegykártyákat a Word 2010-ben

1] Változatok

A DALL·E 2 túlmutat egy mondat képpé fordításán. Az OpenAI kísérletezhet a generatív folyamattal, és a robusztus CLIP beágyazásoknak köszönhetően különböző eredményeket produkál egy adott aláírásra. Amit a CLIP „lát” az „elméjében”, azt a bemenetből fontosnak tartja (minden képnél ugyanaz marad), és mit lehet cserélni (ami változik a különböző képeknél). Amikor csak lehetséges, a DALL·E 2 megőrzi az „értelmes információkat...és esztétikai szempontokat”.

2] Színezés

A DALL·E 2 képes a meglévő fényképeket automatikus kitöltéssel módosítani. A következő példában a bal oldali kép az eredeti kép, a középső és jobb oldali képen pedig az elem különböző helyeken van megrajzolva. A DALL·E 2 egy további elemet illeszt a képstílushoz. A textúrákat és a tükröződéseket is frissíti, hogy tükrözze az új elemet.

Olvas : Mit tehet a ChatGPT-vel

3] Szövegbeli különbségek

A DALL·E 2 a képeket szövegeltérések segítségével alakítja át. A DALL·E 2 fejlett interpolációs képességekkel is rendelkezik, amelyek lehetővé teszik az objektumok módosítását. Az egyik Twitter-felhasználó képes volt 'feloldani' iPhone-ját. twitter.com hogy megnézzem.

Ha megtetszenek ezek a funkciók, akkor nem kell mást tennie, mint belépni openai.com majd regisztrálj. Létrehozhat új fiókot, vagy használhatja meglévő Microsoft- vagy Google-fiókját a regisztrációhoz. Ha ezt megtette, kap néhány ingyenes kreditet, ha többet szeretne, fizetnie kell érte.

Ez a DALL·E 2 néhány jellemzője, számos nagyszerű felhasználási esettel rendelkezik, azonban mindig ajánlott, hogy ne hagyatkozzon túlságosan az AI eszközökre. Hiszen ezek nem más, mint a munka elvégzéséhez használt eszközök, soha nem helyettesíthetik az ember érzelmi intelligenciáját.

Olvassa el még: A legjobb Deepfake alkalmazások, szoftverek és webhelyek.