Voicebox от Meta AI: Новата ера в генеративния AI за реч

Voicebox, продукт на компанията Meta (позната ни с Facebook), представлява иновация в областта на генеративните модели за изкуствен интелект (AI). Той се отличава с уникалната си способност да създава реч с изключителна точност, без да се изисква предварително специализирано обучение. Вместо това, моделът се обучава директно от необработени аудио данни и прилежащите към тях транскрипции, което му позволява да модифицира всяка част от даден аудио пример, предоставяйки несравнима гъвкавост и разнообразие.

За разработката на Voicebox, екипът на Meta приложи новаторски метод, наречен „Flow Matching„. Благодарение на него, моделът може да генерира реч на шест различни езика: английски, френски, испански, немски, полски и португалски. Но това не е всичко – Voicebox не само създава аудио от висок клас и ефективно премахва нежелани шумове, но и може да редактира съществуващи аудио записи, като запазва оригиналния им стил и съдържание.

С обучение базирано на повече от 50 000 часа записана реч и транскрипции от аудиокниги на шестте езика, Voicebox демонстрира впечатляваща способност да предсказва конкретен сегмент от реч, когато е оборудван с контекстуална информация и транскрипция на съответния сегмент.

Характеристики на Voicebox

Voicebox може да изпълнява множество задачи, включително синтез на текст към реч в контекст, редактиране на реч и намаляване на шума, трансфер на стил между различни езици и разнообразно семплиране на реч.

Text-to-speech synthesis in context: Използвайки амо двусекундна аудио проба, Voicebox може да съответства на аудио стила и да го използва за генериране на текст към реч.
Speech editing and noise reduction: Voicebox може да пресъздаде част от речта, която е прекъсната от шум или да замени грешно изговорени думи, без да е необходимо да се презаписва цялата реч. Например, ако сегмент от речта е прекъснат от шум, можете да го изрежете и да инструктирате AI да го възстанови.
Style transfer across different languages: Моделът може да произвежда реч от текст на всеки от шестте поддържани езика, дори когато пробата на речта и текстът са на различни езици. Тази възможност би могла да се използва в бъдеще, за да помогне на хората да комуникират по естествен и автентичен начин, дори ако не говорят едни и същи езици.

Въпреки вълнуващите възможности, които Voicebox предоставя, Meta AI реши да не публикува модела или кода за обществено ползване, с цел да предотврати потенциалните рискове от злоупотреба.

Поради поверителността на данните, Meta AI се ангажира да се справи със свързаните с употребата на Voicebox потенциални рискове. Компанията е разработила високоефективен класификатор, който може да различава автентична реч от аудио, генерирано от AI, и по този начин гарантира отговорната употреба на тази технология.

Смятаме, че с Voicebox настъпва нова ера в генеративния AI за реч. Осъзнаваме, че, както всяка нова мощна технология, и тази носи потенциал за злоупотреба и непредвидени вреди. Затова сме посветени да бъдем отворени относно нашата работа, за да позволим на научната общност да я развива и да продължава важните дискусии относно отговорното развитие на AI
– Meta AI.

За повече инструменти, базирани на изкуствен интелект (AI), препоръчваме да прегледате нашата секция „Инструменти“.

Целта на AIBulgaria.com е да предоставя актуална и стойностна информация от света на изкуствения интелект (AI). Последвайте ни в социалните мрежи – Facebook, Twitter и LinkedIn. Също така, може да се присъедините към нашия Discord сървър!

Остави коментар

Характеристики на Voicebox

Споделете:

Like this:

Luma AI представи Ray3 – „разсъждаващ“ видео

OpenAI с нова, по-мощна версия на GPT-5

ByteDance с нов генератор на изображения, конкуриращ

Replit с нов AI агент, който може

Абонирайте се за нашите седмични бюлетини