Екипът за изкуствен интелект на Soul App (Soul AI Lab) има SoulX-Podcast с официален отворен код, специфичен за подкаст модел за синтез на глас, оптимизиран за разговори с много говорители и няколко оборота. Пълното издание включва демонстрация на живо, технически доклад, изходен код и ресурси за Hugging Face, давайки възможност на разработчиците с поддръжка от край до край.

Проектиран за производство на подкасти, SoulX-Podcast се отличава с:

  • Плавност в дълга форма: Стабилно генериране на 60+ минутни диалози с точни преходи на говорителите и естествена прозодия.
  • Паралингвистичен реализъм: Включва смях, прочистване на гърлото и експресивни нюанси за потапящ звук.
  • Многоезична и диалектна поддръжка: Освен мандарин и английски, той генерира сечуански, хенански, кантонски и позволява кръстосано диалектно клониране с помощта на стандартни препратки на мандарин.
  • Гласово клониране с нулев изстрел: Възпроизвежда стила на високоговорителя от минимален звук, динамично регулирайки ритъма въз основа на контекста.

Ходът с отворен код е в съответствие със стратегията на Soul „AI + Social“. Известен с гласовите първи социални функции – като пълен дуплекс AI повиквания и виртуални хостове „Meng Zhishi“ и „Yuni“, които задвижиха 40-минутно парти в групов чат през септември – Soul идентифицира празнина в подкаст TTS с отворен код. С пускането на SoulX-Podcast екипът има за цел да си сътрудничи с общността на AIGC, за да усъвършенства гласовите технологии при създаването на съдържание и виртуалното взаимодействие.

Soul AI Lab обещава непрекъснати подобрения в разговорния синтез и човешко-подобното изразяване, задълбочавайки приноса с отворен код, за да предостави по-топли, по-ангажиращи социални изживявания с AI.

Ресурси
Демо страница:https://soul-ailab.github.io/soulx-podcast
Технически доклад:https://arxiv.org/pdf/2510.23541
Изходен код:https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace:https://huggingface.co/collections/Soul-AILab/soulx-podcast

Източник: Soul AI Lab

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Related Posts