Canggih! AI ini dapat Menciptakan Gambar hanya dari Deskripsi Teks
Berita Baru, Amerika Serikat – Peneliti sistem OpenAI telah menciptakan sistem baru AI yang dapat secara canggih menghasilkan gambar penuh, seperti seorang astronot yang menunggang kuda, hanya dari kalimat sederhana dalam bahasa Inggris.
Dilansir dari Dailymail.co.uk, pada 20 April, dikenal sebagai DALL·E 2, generasi kedua dari teks ke gambar AI mampu membuat gambar dan karya seni realistis pada resolusi yang lebih tinggi dari pendahulunya.
Kelompok riset kecerdasan buatan AI tersebut berencana tidak akan merilis sistem tersebut ke publik.
Versi baru ini mampu membuat gambar dari teks sederhana, menambahkan objek ke dalam gambar yang ada, atau bahkan memberikan sudut pandang yang berbeda pada gambar yang sudah ada.
Pengembang memberlakukan pembatasan pada ruang lingkup AI untuk memastikan itu tidak dapat menghasilkan gambar yang penuh kebencian, rasis, atau kekerasan, atau digunakan untuk menyebarkan informasi yang salah.
Versi asli dari AI tersebut, dinamai artis surealis Spanyol Salvador Dali, dan robot Pixar WALL-E, dirilis pada Januari 2021 sebagai tes terbatas cara AI dapat digunakan untuk melakukan uji AI tersebut.
Beberapa karya seni awal yang dibuat oleh AI termasuk manekin dengan kemeja flanel, ilustrasi lobak berjalan-jalan dengan seekor anjing, dan emoji bayi penguin.
Contoh frasa yang digunakan dalam rilis kedua, untuk menghasilkan gambar yang realistis termasuk “astronot menunggang kuda dengan gaya fotorealistik.”
Di situs web DALL-E 2, ini dapat disesuaikan, untuk menghasilkan gambar ‘on the fly’, termasuk mengganti astronot dengan boneka beruang, kuda dengan bermain bola basket dan menampilkannya sebagai gambar pensil atau sebagai lukisan ‘pop-art gaya Andy Warhol’
Memuaskan klien yang paling sulit sekalipun, dengan permintaan revisi yang tidak pernah berakhir, AI dapat memompa beberapa versi dari setiap gambar dari satu kalimat.
Salah satu fitur khusus DALL-E 2 memungkinkan untuk ‘inpainting’, yaitu di mana ia dapat mengambil gambar yang ada, dan menambahkan fitur lain seperti flamingo ke kolam.
Itu dapat secara otomatis mengisi detail, seperti bayangan, saat objek ditambahkan, atau bahkan mengubah latar belakang agar sesuai, jika objek dipindahkan atau dihapus.
“DALL·E 2 telah mempelajari hubungan antara gambar dan teks yang digunakan untuk menggambarkannya,” OpenAI menjelaskan.
“Ini menggunakan proses yang disebut “difusi,” yang dimulai dengan pola titik acak dan secara bertahap mengubah pola itu ke arah gambar ketika mengenali aspek tertentu dari gambar itu.”
DALL-E 2 dibangun di atas sistem visi komputer yang disebut CLIP, yang dikembangkan oleh OpenAI dan diumumkan tahun lalu.
“DALL-E 1 baru saja mengambil pendekatan GPT-3 kami dari bahasa dan menerapkannya untuk menghasilkan gambar: kami mengompresi gambar menjadi serangkaian kata dan kami baru belajar memprediksi apa yang akan terjadi selanjutnya,” ilmuwan peneliti OpenAI Prafulla Dhariwal, mengatakan kepada The Verge .
Sayangnya proses ini membatasi realisme gambar, karena tidak selalu menangkap kualitas yang paling dibutuhkan manusia.
CLIP melihat gambar dan meringkas isinya dengan cara yang sama seperti yang dilakukan manusia, dan mereka membalik sistim ini untuk DALL-E 2.
OpenAI melatih model menggunakan gambar, dan mereka menyingkirkan beberapa materi yang tidak pantas, membatasi kemampuannya untuk menghasilkan konten yang menyinggung.
Setiap gambar juga menyertakan tanda watermark, untuk menunjukkan dengan jelas bahwa itu diproduksi oleh AI, bukan oleh seseorang, atau bahwa itu adalah foto yang sebenarnya dalam rangka mengurangi risiko kesalahan informasi.
Itu juga tidak dapat membuat wajah yang dapat dikenali berdasarkan nama, bahkan yang hanya dapat dikenali dari karya seni seperti Mona Lisa untuk menciptakan variasi yang khas.
“Kami telah membatasi kemampuan DALL·E 2 untuk menghasilkan gambar kekerasan, kebencian, atau dewasa,” menurut peneliti OpenAI.
“Dengan menghapus konten paling eksplisit dari data pelatihan, kami meminimalkan keterpaparan DALL·E 2 terhadap konsep ini.”
“Kami juga menggunakan teknik canggih untuk mencegah generasi fotorealistik dari wajah individu nyata, termasuk wajah figur publik.”
Meskipun tidak akan tersedia untuk umum, beberapa peneliti akan diberikan akses, dan di masa depan dapat disematkan di aplikasi lain, sehingga memerlukan kebijakan konten yang ketat.
Ini tidak mengizinkan pengguna untuk membuat konten kekerasan, dewasa, atau politik, di antara kategori lainnya.
“Kami tidak akan menghasilkan gambar jika filter kami mengidentifikasi permintaan teks dan unggahan gambar yang mungkin melanggar kebijakan kami. Kami juga memiliki sistem pemantauan otomatis dan manusia untuk menjaga dari penyalahgunaan,” seorang juru bicara menjelaskan.
“Kami telah bekerja dengan pakar eksternal dan melakukan pratinjau DALL·E 2 kepada sejumlah pengguna tepercaya yang akan membantu kami mempelajari tentang kemampuan dan keterbatasan teknologi.”
“Kami berencana untuk mengundang lebih banyak orang untuk meninjau penelitian ini dari waktu ke waktu saat kami mempelajari dan secara berulang meningkatkan sistem keamanan kami.”