23.01.2023, 14:35 379 0

В РФ развиваются технологии озвучивания книг через ИИ

Автор новости / ньюсмейкер редакция «Сегмент.ру» (segment.ru)

Но разметка человеком всё ещё нужна

Российские книжные сервисы и издательства начали активно внедрять технологии искусственного интеллекта (ИИ) для озвучивания аудиокниг.

Книжный сервис «Строки» в 2023 году планирует озвучить более 10 тыс. произведений с помощью разработки ИИ. На первом этапе машинной озвучки — уже 600 произведений.

Книги будут записывать с помощью платформы Audiogram, в основе которой используются нейронные сети, машинное обучение и технологии обработки естественного языка (NLP). Она позволяет синтезировать речь, расставлять ударения и паузы, воспроизводить вопросительные, побудительные и другие интонации, уточнили в МТС, которой принадлежит сервис «Строки».

Лидер рынка аудиокниг — Группа компний «ЛитРес», в которую входят сервисы «ЛитРес», MyBook, Livelib и дригие. ГК «ЛитРес» также развивает озвучивание аудиокниг с помощью ИИ, сообщил директор департамента по развитию контента группы Евгений Селиванов. Такую озвучку в «ЛитРес» запустили ещё осенью 2020 года, но активно использовать начали осенью 2022 года. Она основана на технологии распознавания и синтеза речи SpeechKit, на которой работает голосовой помощник «Алиса».

В «Яндексе» подтвердили растущий спрос на технологии ИИ в облаке для озвучивания самых разных текстов. С помощью технологии SpeechKit в 2022 году записали более 100 тыс. часов аудиокниг.

В 2022 году «ЛитРес» записал и выпустил около 6 тыс. книг, озвученных людьми, но «авточтецы» озвучили сразу 3 тыс. книг за два месяца. Себестоимость озвучки одной книги с помощью ИИ составляет 400–700 ₽.

Алгоритм позволяет производить в несколько раз больше книг за период, чем распределённая команда чтецов.

Евгений Селиванов, директор департамента по развитию контента ГК «ЛитРес»

В отличие от стандартной роботизированной озвучки, по его словам, ИИ запоминает паузы, отмеченные редактором, расставляя их самостоятельно, что позволяет избежать искажений.

Сейчас более 90% книг на российском рынке не имеют аудиоверсии, сообщили в МТС, а их трансформация в аудиоформат, по оценке компании, традиционным способом «заняла бы годы». На подготовку первоначальной версии аудиокниг с помощью ИИ уходит около 30–60 минут, тогда как студийная запись живым голосом занимает до нескольких дней с учётом технической обработки и монтажа.

С ИИ экспериментируют и издательства. Президент «Эксмо-АСТ» Олег Новиков говорит, что группа использует ИИ в том числе для прогнозирования тиража допечаток, анализа потенциала рукописи на основе данных о прошлых продажах.

Руководитель аудиопроектов Alpina Digital (группа «Альпина») Николай Боронин рассказал, что компания озвучила 86 книг из своего портфеля с помощью ИИ. Однако придирчивые слушатели могут избегать аудиокниг в исполнении ИИ из-за недостатка естественного интонирования, считает он.

Очевидно, что технология пока несовершенна: чтобы выйти на по-настоящему большие объёмы и отвечать за итоговое качество, необходимо дополнительно размечать текст, добавляя ударения сложным словам, а также помогая ИИ правильно интонировать книги, объяснил Евгений Селиванов.

Источник: www.kommersant.ru Фото: www.pexels.com