Конкурент ElevenLabs: нейросеть HierSpeech++ будет моделировать голос бесплатно
5 декабря 2023 года стало известно о выходе новой нейросети HierSpeech++, которая может клонировать голос любого человека по короткому аудиофрагменту. Это стало серьезным вызовом для ElevenLabs, лидера в области синтеза речи на основе искусственного интеллекта.
HierSpeech++ – программа, которая может говорить как любой человек. Ей можно дать текст и запись голоса, и она скажет этот текст тем же голосом. Можно выбрать голос известного человека или своего друга, можно менять настроение и стиль голоса, создавать интересные и смешные аудио.
HierSpeech++ – это результат научной работы, опубликованной на сайте arXiv в ноябре 2023 года. Авторы работы – исследователи из Корейского университета, возглавляемые профессором Сан-Хуном Ли. Они предложили иерархическую модель вариационного автокодировщика, которая может синтезировать речь в любом языке и стиле, используя текст, F0 и голосовой промпт. Модель также может выполнять конвертацию голоса, то есть изменять голос одного человека на другой.
По словам профессора Ли, HierSpeech++ имеет ряд преимуществ перед существующими решениями, такими как ElevenLabs. Во-первых, HierSpeech++ работает в режиме нулевого выстрела, то есть не требует дополнительного обучения для новых голосов. Во-вторых, HierSpeech++ обладает высокой скоростью и качеством синтеза речи, превосходя по естественности и сходству с оригиналом модели на основе больших языковых моделей и диффузии. В-третьих, HierSpeech++ позволяет регулировать эмоциональность и стиль речи, а также улучшать качество звука с помощью суперразрешения.
Разработчики HierSpeech++ решили сделать свою нейросеть доступной для всех желающих бесплатно. На GitHub они опубликовали исходный код и демо-версию своего продукта. Пользователи могут загрузить свой текст и аудиофайл, а затем получить синтезированную речь в нужном голосе. Также можно выбрать один из предложенных голосов, включая знаменитостей, политиков и персонажей из фильмов и игр.
Новость о HierSpeech++ вызвала большой интерес в интернете. Многие пользователи оставили положительные отзывы о нейросети, отметив ее высокую точность и реалистичность. Некоторые даже сравнили HierSpeech++ с голосовым ассистентом Siri от Apple, но с более широкими возможностями. Однако не все были в восторге от нового продукта. Некоторые выразили свою обеспокоенность по поводу потенциальных рисков, связанных с клонированием голоса, таких как мошенничество, подделка и нарушение авторских прав.
ElevenLabs, компания, которая до сих пор считалась лидером в области синтеза речи, пока не прокомментировала появление своего конкурента. ElevenLabs предлагает своим клиентам создавать собственные голоса на основе искусственного интеллекта, используя их онлайн-платформу. Компания также имеет собственный API, который позволяет разработчикам интегрировать синтез и клонирование речи в свои приложения. Однако ElevenLabs берет плату за свои услуги, в отличие от HierSpeech++.
Эксперты полагают, что HierSpeech++ может стать серьезным соперником для ElevenLabs, если продолжит развивать свою технологию и расширять свою аудиторию. Однако они также отмечают, что ElevenLabs имеет свои преимущества, такие как опыт, репутация и поддержка крупных клиентов. Поэтому исход борьбы за лидерство в области синтеза речи пока остается неясным.