Farih.co.id
Home Teknologi Apa Itu Kotak Suara? Meta’s Multilingual Speech-Generating AI

Apa Itu Kotak Suara? Meta’s Multilingual Speech-Generating AI

audio

Table of content:

[Hide] [Show]

Meta telah memperkenalkan model AI baru yang disebut Voicebox yang dapat menghasilkan ucapan dalam berbagai bahasa dan dialek, dan bertindak ‘seperti penghapus untuk mengedit audio‘ untuk membersihkan rekaman yang akan rusak oleh kebisingan latar belakang atau kesalahan bicara. Perusahaan telah menuangkan segalanya ke dalam AI, dengan rencana untuk dilaporkan mengintegrasikan teknologi di seluruh ekosistem aplikasi sosialnya. Pada bulan Mei, Meta membagikan demonstrasi model AI yang disebut ImageBind yang dapat menghasilkan hasil menggunakan beberapa jenis data sekaligus, seperti audio, gambar, dan teks.

.GULIR UNTUK LANJUTKAN DENGAN KONTEN

Kotak suara adalah model AI generatif untuk ucapan. Di sebuah posting blog, Meta menunjukkan cara mengubah petunjuk teks menjadi audio lisan dalam berbagai suara dan gaya bicara. Menurut perusahaan, itu dapat diberi sampel audio pendek dan cocok dengan suara itu dalam hasilnya. Saat ini mampu membaca teks dalam enam bahasa — Inggris, Prancis, Jerman, Spanyol, Polandia, dan Portugis — dan dapat mengambil petunjuk dari satu bahasa dan mengucapkannya dengan lantang dalam bahasa lain. Kotak suara masih dalam tahap penelitian, tetapi CEO Meta Mark Zuckerberg sudah mengatakan itu “mungkin model generatif ucapan paling serbaguna di luar sana.”

Terkait: Meta’s New Open Source AI Dapat Menerjemahkan 200 Bahasa


Apa Voicebox AI Bisa Digunakan Untuk

Diagram yang menampilkan input teks dan lima klip audio yang dihasilkan AI

Dalam salah satu contoh kemampuan pengeditan audionya, Meta menggunakan Voicebox untuk mengedit suara gonggongan anjing dari sampel ucapan yang direkam. Alat tersebut tidak hanya menghilangkan kebisingan latar belakang, tetapi dapat membuat ulang komponen lisan yang terpengaruh untuk hasil yang mulus. Jika seseorang tersandung pada kata-katanya dalam rekaman, Voicebox dapat digunakan untuk bertukar dalam versi yang dikoreksi tanpa benar-benar mengharuskan ucapan direkam ulang. Meta mengatakan alat tersebut dapat meniru gaya berbicara seseorang hanya dengan menggunakan audio referensi dua detik.

Jenis teknologi ini dapat digunakan di masa mendatang untuk membantu pembuat konten mengedit trek audio dengan mudah, memungkinkan orang tunanetra mendengar pesan tertulis dari teman dengan suara mereka sendiri, dan memungkinkan orang berbicara bahasa asing apa pun dengan suara mereka sendiri., ”catatan posting blog. Meta juga mengatakan Voicebox dapat digunakan untuk meningkatkan suara asisten virtual dan NPC videogame (karakter non-pemain), membantu mereka terdengar lebih realistis. Dengan kemampuan terjemahannya, itu juga dapat membantu orang berkomunikasi di sekitar hambatan bahasa.

Ada kekhawatiran yang jelas datang dengan model AI yang berpotensi meniru suara berbicara seseorang. Jadi, meskipun Meta sering membuat proyek riset AI-nya menjadi open-source, Meta tidak merilis kode untuk Voicebox secara publik. Sebaliknya, kita hanya harus menunggu dan melihat apa Meta memiliki di toko untuk itu.

Sumber: Meta 1, 2

Comment
Share:

Leave a Reply

Your email address will not be published. Required fields are marked *

Ad