AI Bulgaria

Voicebox от Meta AI: Новата ера в генеративния AI за реч

Voicebox

Voicebox, продукт на компанията Meta (позната ни с Facebook), представлява иновация в областта на генеративните модели за изкуствен интелект (AI). Той се отличава с уникалната си способност да създава реч с изключителна точност, без да се изисква предварително специализирано обучение. Вместо това, моделът се обучава директно от необработени аудио данни и прилежащите към тях транскрипции, което му позволява да модифицира всяка част от даден аудио пример, предоставяйки несравнима гъвкавост и разнообразие.

За разработката на Voicebox, екипът на Meta приложи новаторски метод, наречен „Flow Matching„. Благодарение на него, моделът може да генерира реч на шест различни езика: английски, френски, испански, немски, полски и португалски. Но това не е всичко – Voicebox не само създава аудио от висок клас и ефективно премахва нежелани шумове, но и може да редактира съществуващи аудио записи, като запазва оригиналния им стил и съдържание.

С обучение базирано на повече от 50 000 часа записана реч и транскрипции от аудиокниги на шестте езика, Voicebox демонстрира впечатляваща способност да предсказва конкретен сегмент от реч, когато е оборудван с контекстуална информация и транскрипция на съответния сегмент.

Характеристики на Voicebox

Voicebox може да изпълнява множество задачи, включително синтез на текст към реч в контекст, редактиране на реч и намаляване на шума, трансфер на стил между различни езици и разнообразно семплиране на реч.

  • Text-to-speech synthesis in context: Използвайки амо двусекундна аудио проба, Voicebox може да съответства на аудио стила и да го използва за генериране на текст към реч.
  • Speech editing and noise reduction: Voicebox може да пресъздаде част от речта, която е прекъсната от шум или да замени грешно изговорени думи, без да е необходимо да се презаписва цялата реч. Например, ако сегмент от речта е прекъснат от шум, можете да го изрежете и да инструктирате AI да го възстанови.
  • Style transfer across different languages: Моделът може да произвежда реч от текст на всеки от шестте поддържани езика, дори когато пробата на речта и текстът са на различни езици. Тази възможност би могла да се използва в бъдеще, за да помогне на хората да комуникират по естествен и автентичен начин, дори ако не говорят едни и същи езици.

Въпреки вълнуващите възможности, които Voicebox предоставя, Meta AI реши да не публикува модела или кода за обществено ползване, с цел да предотврати потенциалните рискове от злоупотреба.

Поради поверителността на данните, Meta AI се ангажира да се справи със свързаните с употребата на Voicebox потенциални рискове. Компанията е разработила високоефективен класификатор, който може да различава автентична реч от аудио, генерирано от AI, и по този начин гарантира отговорната употреба на тази технология.

Смятаме, че с Voicebox настъпва нова ера в генеративния AI за реч. Осъзнаваме, че, както всяка нова мощна технология, и тази носи потенциал за злоупотреба и непредвидени вреди. Затова сме посветени да бъдем отворени относно нашата работа, за да позволим на научната общност да я развива и да продължава важните дискусии относно отговорното развитие на AI

– Meta AI.

За повече инструменти, базирани на изкуствен интелект (AI), препоръчваме да прегледате нашата секция „Инструменти“.

Целта на AIBulgaria.com е да предоставя актуална и стойностна информация от света на изкуствения интелект (AI). Последвайте ни в социалните мрежи – Facebook, Twitter и LinkedIn. Също така, може да се присъедините към нашия Discord сървър!

Остави коментар


The reCAPTCHA verification period has expired. Please reload the page.

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: