Американският стартъп ElevenLabs, известен със своите технологии за синтез и клониране на глас, представи нов модел за преобразуване на реч в текст, наречен Scribe.
Системата разпознава 99 езика, включително български, като според компанията моделът постига по-ниски нива на грешки от конкурентни решения, предлагани от Google, OpenAI, AssemblyAI и Deepgram. Scribe също така разполага с набор от иновативни функции, включително разпознаване и сегментиране на до 32 различни говорители в един аудио файл, генериране на прецизни времеви маркери за професионално субтитриране, както и автоматично идентифициране на акустични елементи като смях, музика и фонов шум.
Introducing Scribe — the most accurate Speech to Text model.
— ElevenLabs (@elevenlabsio) February 26, 2025
It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.
It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL
Системата дори успява да транскрибира най-бързо говорещите хора в света. Екипът на ElevenLabs сподели видео, в което Scribe обработва запис на Джон „Моторната уста“ Мошита, който през 1984 г. поставя рекорд на Гинес, говорейки със скорост от 586 думи в минута.
„Scribe не просто транскрибира – той разбира аудиото“, обяснява Флавио Шнайдер, водещ изследовател в ElevenLabs. По думите му системата разпознава невербални елементи като смях, звукови ефекти, музика и фонов шум, като същевременно анализира по-широк аудио контекст за прецизна идентификация на говорителите, дори при сложни акустични условия.
В момента системата работи само с предварително записано аудио или видео, но от компанията заявиха, че скоро ще пуснат и версия с по-ниска латентност за приложения в реално време.
Scribe е достъпен на уебсайта на ElevenLabs и чрез API, като транскрипцията на един час аудио струва $0,40 – цена, поставяща го в същия диапазон като Whisper на OpenAI. Компанията предлага 50-процентна отстъпка през следващите шест седмици.
Новият модел на ElevenLabs идва само месец след като компанията привлече финансиране в размер на 180 млн. долара, което увеличи оценката ѝ до 3,3 млрд. долара. През последните няколко месеца американският стартъп представи редица инструменти, включително приложения за генериране на звукови ефекти (Text to Sound Effects и Video to Sound Effects), Voice Isolator – инструмент за кристално чисто аудио, както и GenFM – платформа за създаване на AI-генерирани подкасти.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!
Споделете: