Google Ciptakan AI yang Mampu Bikin Lagu Hanya dari Sepotong Audio

Setelah meluncurkan AI (Aritificial Intelligence) percakapan LaMDA kali ini Google menambah lagi koleksi AI mereka. Kali ini AI yang diciptakan Google dapat menciptakan sebuah lagu penuh (berikut suara manusia) hanya bermodal cuplikan audio beberapa detik.

Diumumkan pada 6 Oktober 2022 melalui blog tepatnya setelah studinya dipublikasikan dalam membuat grup di LINE  jurnal non peer-reviewed ArXiv bulan lalu, Google menamakan AI ini AudioLM.

AudioLM mampu menghasilkan lagu hanya dengan modal beberapa detik audio. Hal ini mirip dengan AI generator teks seperti GPT-3 yang bisa menghasilkan paragraf atau artikel hanya dengan memasukan satu kalimat awal.

AudioLM bekerja secara langsung untuk membongkar audio sedikit demi sedikit daripada memerlukan proses transkripsi teks terlebih dahulu. Untuk menghasilkan audio yang sangat halus dan realistis, AudioLM tidak perlu membubuhi keterangan catatan seperti AI pencipta musik lainnya

Peneliti musik yang dihasilkan komputer di Carnegie Mellon University, Roger Dannenberg, mengatakan kepada MIT Technology Review bahwa AudioLM memiliki kualitas suara yang jauh lebih baik daripada program generasi musik sebelumnya.

Dannenberg menyebutkan AudioLM secara mengejutkan memiliki kualitas bagus dalam menciptkan kembali beberapa pola pengulangan yang melekat pada musik buatan manusia.

(Anda dapat mendengarkan semua contoh lagu yang dibuat oleh AudioLM di sini. )

“Itu sangat mengesankan, sebagian karena itu menunjukkan bahwa mereka mempelajari beberapa jenis struktur di berbagai tingkatan,” ucap Dannenberg kepada MIT Technology Review dikutip dari kumparanTech (10/10/2022).

AudioLM tidak hanya dilatih untuk membuat musik. Perpustakaan juga berisi suara manusia. Namun, meskipun AudioLM menghasilkan aksen dan ritme yang sesuai dengan prompt, AudioLM gagal menghasilkan kalimat yang terstruktur dan terarah, meskipun kalimatnya masih kacau.

AudioLM membeli barang di Shopee tidak memerlukan anotasi seperti not musik dalam data pelatihan saat menghasilkan audio. AudioLM mempelajari ini secara otomatis dan berkontribusi pada hasil yang realistis.

Tentu saja, ada pro dan kontra dan implikasi yang perlu dipertimbangkan. Rupal Patel, seorang peneliti informatika dan linguistik di Northeastern University, mengatakan kepada MIT Technology Review bahwa musisi yang membuat klip yang digunakan sebagai data pelatihan akan menerima kredit atau royalti dari produk akhir yang dikatakan penting.

Argumen ini juga terjadi pada kasus AI text-to-image sebelumnya. Kualitas audio akhir yang sangat realistis juga dapat dimanfaatkan. Meningkatkan tingkat kepalsuan yang mendalam melalui deep fake.

Dalam makalah penelitian yang diterbitkan 7 September di ArXiv, para peneliti menulis bahwa mereka telah mempertimbangkan dan menerapkan langkah-langkah untuk meminimalkan efek ini. Patel juga menyarankan untuk menambahkan watermark audio ke produk yang dihasilkan AI untuk membantu membedakannya dari audio alami.

Comments

Popular posts from this blog

Website Parafrase Bahasa Indonesia Terbaik

PT Unicon Precast Concrete Pagar Beton Jawa Tengah dengan Kolom Besar SNI

Persyaratan Apa Saja Jika Ekspedisi Jakarta ke Jayapura