OpenAI ha creato uno strumento in grado di imitare l'audio basato su un segmento di quindici secondi. L'azienda ha rilasciato campioni del Voice Engine, ma non vuole rilasciare subito l'intero modello.
OpenAI, la società di intelligenza artificiale che realizza anche ChatGPT, Descrive lo strumento in un post sul blog. Il modello si chiama Voice Engine e può leggere i testi che l'utente fornisce come input di testo. Basandosi su un campione vocale, OpenAI afferma che l'IA può imitare perfettamente la voce, compreso il tono e l'emozione. L'azienda afferma che un segmento del genere deve durare solo quindici secondi.
L'azienda non fornisce alcun dato sullo strumento e non è disponibile alcun white paper o altra descrizione tecnica. Quindi non è chiaro, ad esempio, su quali clip audio sia stato addestrato Voice Engine. dice OpenAI A TechCrunch Si riferiscono a un mix di dati concessi in licenza e disponibili al pubblico. Secondo l'azienda, Voice Engine non è addestrato sui dati degli utenti. Vengono eliminati anche i campioni creati dagli utenti in seguito.
Secondo TechCrunch, in futuro lo strumento dovrebbe costare denaro, anche se OpenAI non ne parla pubblicamente. Secondo i documenti, la società addebiterà 15 dollari per milione di caratteri, ovvero circa 160.000 parole pronunciabili.
Voice Engine non è ancora disponibile per gli utenti, come spesso accade oggigiorno con servizi simili. L'anno scorso Meta ha dimostrato che Voicebox può anche generare testo parlato basato su brevi file audio, ma l'azienda non rende disponibile neanche questo strumento. OpenAI afferma che ora si sta comportando con cautela anche a causa delle conseguenze. Lo strumento può essere rapidamente abusato. OpenAI si riferisce nello specifico agli Stati Uniti, dove alla fine di quest’anno si terranno le elezioni presidenziali e la battaglia elettorale è ormai iniziata.
L'azienda ha pubblicato una serie di esempi su un blog che mostrano cosa può fare lo strumento. Inoltre, OpenAI sta testando il Voice Engine con un numero limitato di tester. Hanno dovuto firmare in anticipo una dichiarazione in cui affermavano che non avrebbero creato testi senza il permesso della persona interessata. Lo strumento avrà anche una filigrana che mostra che è stato creato l'audio e OpenAI afferma che sta “monitorando in modo proattivo” il modo in cui viene utilizzato il sistema. Quando lo strumento verrà rilasciato in futuro, OpenAI vuole anche creare un elenco di suoni che non dovrebbero essere clonati.