AI Bulgaria

ElevenLabs представи Scribe – AI модел за преобразуване на реч в текст

Image: Created with FLUX

Американският стартъп ElevenLabs, известен със своите технологии за синтез и клониране на глас, представи нов модел за преобразуване на реч в текст, наречен Scribe.

Системата разпознава 99 езика, включително български, като според компанията моделът постига по-ниски нива на грешки от конкурентни решения, предлагани от Google, OpenAI, AssemblyAI и Deepgram. Scribe също така разполага с набор от иновативни функции, включително разпознаване и сегментиране на до 32 различни говорители в един аудио файл, генериране на прецизни времеви маркери за професионално субтитриране, както и автоматично идентифициране на акустични елементи като смях, музика и фонов шум.

Системата дори успява да транскрибира най-бързо говорещите хора в света. Екипът на ElevenLabs сподели видео, в което Scribe обработва запис на Джон „Моторната уста“ Мошита, който през 1984 г. поставя рекорд на Гинес, говорейки със скорост от 586 думи в минута.

Източник: ElevenLabs

„Scribe не просто транскрибира – той разбира аудиото“, обяснява Флавио Шнайдер, водещ изследовател в ElevenLabs. По думите му системата разпознава невербални елементи като смях, звукови ефекти, музика и фонов шум, като същевременно анализира по-широк аудио контекст за прецизна идентификация на говорителите, дори при сложни акустични условия.

В момента системата работи само с предварително записано аудио или видео, но от компанията заявиха, че скоро ще пуснат и версия с по-ниска латентност за приложения в реално време.

Scribe е достъпен на уебсайта на ElevenLabs и чрез API, като транскрипцията на един час аудио струва $0,40 – цена, поставяща го в същия диапазон като Whisper на OpenAI. Компанията предлага 50-процентна отстъпка през следващите шест седмици.

Новият модел на ElevenLabs идва само месец след като компанията привлече финансиране в размер на 180 млн. долара, което увеличи оценката ѝ до 3,3 млрд. долара. През последните няколко месеца американският стартъп представи редица инструменти, включително приложения за генериране на звукови ефекти (Text to Sound Effects и Video to Sound Effects), Voice Isolator – инструмент за кристално чисто аудио, както и GenFM – платформа за създаване на AI-генерирани подкасти.

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Остави коментар


The reCAPTCHA verification period has expired. Please reload the page.

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: