Скачать синтезатор речи с хорошим произношением. Ivona — отличный синтезатор. Синтезатор речи ReadingBar

На сегодняшний день называется технология, способная преобразовывать текстовую информацию в обычную речь. С развитием "умных машин" эта технология становится всё более актуальной, и с каждым днём требует всё большего совершенства. Собственно, на данный момент разработан целый ряд методов синтеза речи, о которых мы и будем говорить.

Синтезаторы речи могут применяться в абсолютно различных сферах, и используются для решения множества задач, начиная от "начитывания" книг, производства "говорящих" детских игрушек, объявления остановок в общественном транспорте или в системах сервисных служб, и заканчивая медициной (тут стоит вспомнить о Стивене Хокинге , пользующемся синтезатором речи для связи с миром).

Итак, рассмотрим подробнее технологию и методы синтеза речи. Как уже упоминалось, существует несколько методов синтеза речи. Таким образом, можно выделить несколько основных подходов:

  • параметрический синтез;
  • конкатенативный (компиляционный) синтез;
  • синтез по правилам (по печатному тексту);

Параметрический синтез позволяет записывать речь для любого языка, однако его нельзя применять для не заданных заранее текстов. Параметрический синтез речи применяют тогда, когда набор сообщений ограничен. Качество же такого метода синтеза может быть очень высоким.

По сути дела, параметрический синтез речи - это реализация принципа работы вокодера . В случае параметрического синтеза звуковой сигнал представлен определённым числом непрерывно изменяющихся параметров. Для формирования гласных звуков используется генератор тонального сигнала, для согласных - генератор шума. Но такой метод обычно применяют для записи голоса в музыкальных композициях, и чаще речь идет даже не о чистом синтезе голоса, а, скорее, о модуляции.

Метод компиляционного синтеза основывается на составлении текстов из заранее записанного "словаря" элементов. Размер элемента системы должен быть не менее слова. Обычно запас элементов ограничивается несколькими сотнями слов, а содержание синтезируемых текстов - объёмом словаря. Этот метод синтеза речи широко используется в повседневной жизни - как правило, в различных справочных службах и технике, требующей оснащения системами речевого ответа.

Полный синтез речи по правилам может воспроизводить речь по заранее неизвестному тексту. Этот метод не использует элементов человеческой речи, а базируется на запрограммированных лингвистических и акустических алгоритмах .

Тут также существует своё разделение - можно выделить два подхода к этому методу синтеза. Первый - это формантный синтез речи по правилам, а второй - артикуляторный синтез. Формантный синтез базируется на формантах - частотных резонансах речевой акустической системы. Алгоритм формантного синтеза моделирует работу речевого тракта человека, работающего как набор резонаторов. Сегодня, к сожалению, большинство синтезаторов , работающих исключительно на формантном синтезе, понять без подготовки сложно, но, несомненно, это универсальная и перспективная технология. Артикуляторный метод пытается доработать недостатки формантного путем добавления в модель фонетических особенностей произнесения отдельных звуков.

Также существует технология синтеза речи по правилам, которая использует записанные отрезки естественной речи. Поскольку всё-таки чаще всего применяются компиляционные методы, скажем о них пару слов подробнее.

В зависимости от того, насколько велики "отрывки" речи, используемые для синтеза, выделяют такие типы синтеза:

  • микросегментный (микроволновый);
  • аллофонический;
  • дифонный;
  • полуслоговой;
  • слоговой;
  • синтез из единиц произвольного размера.

Чаще всего используются аллофонический и дифонный методы. Для дифонного метода синтеза речи базовыми элементами являются всевозможные двучленные комбинации фонем, а для аллофонного - сочетания левого и правого контекста (аллофон - вариант фонемы, который обусловлен её конкретным фонетическим окружением). При этом различные типы контекстов объединяются в классы по степени акустической близости.

Преимущество таких систем состоит в том, что они дают возможность синтезировать текст по не заданному заранее тексту, а недостаток - в том, что качество синтезированной речи несопоставимо с качеством речи естественной (на границах сшивки элементов могут возникать искажения). Также весьма трудно управлять интонационными характеристиками речи, так как характеристики отдельных слов могут изменяться в зависимости от контекста или типа фразы.

Впрочем, это всё в теории. На практике, на современном этапе развития, несмотря на активное продвижение в этой области, разработчики технологии синтеза речи всё-таки испытывают некоторые трудности, в основном связанные с искусственностью синтезируемой речи, отсутствием в ней эмоциональной окраски и с низкой помехоустойчивостью.

Дело в том, что любая синтезированная речь, как правило, воспринимается человеком с трудом. Это связано с тем, что пробелы в синтезированном тексте заполняет человеческий мозг , который задействует для этого дополнительные ресурсы, и человек может нормально воспринимать синтезированную речь только около 20 минут.

На восприятие речи также влияет её эмоциональная окраска. В случае с синтезированной речью она отсутствует. Хотя стоит отметить, что некоторые алгоритмы всё же позволяют в некоторой степени имитировать эмоциональную окраску речи путём изменения длительности фонем, пауз и модуляции тембра, но пока их работа далека от идеала.

Что касается третьей названной проблемы - низкой помехоустойчивости, то эксперименты показывают, что восприятию синтезированного текста мешают любые, даже самые небольшие посторонние шумы. Это опять-таки связано с тем, что для обработки синтезированной речи человеческий мозг задействует дополнительные центры, которые не используются при восприятии речи естественной.

В конце этой статьи мне хотелось бы привести некоторые примеры существующих синтезаторов речи.

Всем известны так называемые "читалки " - программы для более удобного чтения текста с монитора. Многие из нах используют программы речевого синтеза для озвучивания текста, например, Balabolka и Govorilka .

Для того чтобы подобные программы озвучивали тексты, необходимо также установить библиотеку SAPI (Speech API) и голосовые движки. Наиболее распространение две версии Speech API: SAPI4 и SAPI5.Обе библиотеки могут работать на одном компьютере. В операционных системах Windows XP, Windows Vista и Windows 7 уже установлены библиотеки SAPI5.

Помимо читалок, распространены программы экранного доступа. Примерами таких программ являются:

VIRGO 4 . Программа была создана для комфортной работы слепых и слабовидящих пользователей с Windows. Она позволяет выбрать ту информацию, которая будет произноситься голосом и ту, которая будет показываться на брайлевском дисплее. Для слабовидящих пользователей предусмотрена системой увеличения экрана "Галилео".

Программа Кобра 9.1 также упрощает работу с Windows для слепых и слабовидящих пользователей. Эта программа может выводить выводит информацию с компьютерного монитора с помощью речи, брайлевского дисплея и имеет функцию увеличения экрана.

Absinthium

Рубрики:

Теги:

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

С технической точки зрения статья правильная. Но там где автор добавляет от себя начинаются проблемы. Понятно, что человеку, который об этом только слышал, и не пользуется постоянно сложно судить. Поэтому не сочтите за претензии, просто хочу кое-что прояснить.

На самом деле уровень синтезаторов речи достаточно приемлемый. Хотя конечно еще продолжают существовать и те, которые были разработаны 10 - 15 лет назад и, именно они попадаются в сети при поверхностном знакомстве с темой. Но есть и другие, более вменяемые. За 20 минут человек не устает от синтезатора - работаю с синтезаторами 15 часов в сутки. И таких как я много. но даже те люди, которые не такие, как я и мои коллеги, а такие как большинство, с удовольствием слушают например аудиокниги записанные из текстовый файлов с помощью синтезаторов речи. Зачастую актеры, начитывающие аудиокнигу, утомляют человека даже быстрее чем за 20 минут, поэтому синтезаторы с их машинной прямотой и бескомпромиссностью, скорее выигрывают, особенно если вы не эстет, а просто получаете информацию. И программы перечисленные в конце, особенно virgo и cobra, в наших широтах все-таки не так известны, даже в кругах тех, для кого они разработаны. Самой известной из программ экранного доступа является jaws for windows. Эта программа лидер среди других решений. Так же у нас пользуется популярностью и несомненно заслуживает внимания программа экранного доступа nvda. Она позволяет незрячим решать большинство повседневных задач и при этом является свободно распространяемой.

Современные технологии позволяют вам генерировать речь прямо из печатного текста. Только представьте, что вы можете набрать текст, который потом будет произнесен выбранным вами голосом, с выбранной вами интонацией и скоростью. И это не фантастика, это реальность.

Что такое синтезатор речи?

Синтезаторы речи Text to Speech (TTS) - специальные программы, позволяющие формировать речевой сигнал (речь, голос) по печатному тексту. Первое упоминание о синтезе речи относится к X веку. В конце XVIII века ученый Христиан Кратценштейн, создал модель речевого тракта человека, способную произносить пять гласных звуков (а, э, и, о, у).

Первые синтезаторы речи на базе вычислительной техники появились в конце 1950-х годов. Они звучали довольно примитивно, и разобрать такую речь можно было с большим трудом. Работы над улучшением качества синтезированной речи продолжаются. Уже сегодня речь, генерируемую современными системами синтеза реча, порой не отличить от реальной человеческой речи.

Зачем нужен синтезатор речи?

Синтезатор речи может вам пригодиться во многих случаях, например:
  • Во время путешествия - просто наберите любую фразу, и программа ее произнесет на нужном вам языке.
  • Чтобы читать электронные книги, тексты, документы - вы занимаетесь своим делом, а программа читает вам вслух.
  • Для изучения иностранных языков - отличная возможность бесплатно тренировать произношение и разговорные навыки.

Синтезатор речи A1 SpeechTRON

A1 SpeechTRON - синтезатор английской речи из текста. Может использоваться для чтения заметок, текстовых документов, электронных книг, и других текстовых материалов (форматы: текст, RTF, DOC). Речевой синтезатор (TTS) можно также использовать при изучении английского языка. Программа полностью поддерживает Microsoft TTS SAPI 4.0, имеет полностью настраиваемый интерфейс, высокое качество звука, настройки скорости чтения, запись в файл. Имеется поддержка пользовательских и дополнительных словарей.

Синтезатор речи ReadPlease

ReadPlease - синтезатор английской речи из текста. Может использоваться для чтения текстов, буфера обмена, текстовых документов, электронных книг, и других текстовых материалов (форматы: текст, RTF, DOC). Речевой синтезатор (TTS) можно также использовать при изучении английского языка. Программа после запуска размещается в трее и управляется горячими клавишами. Может пристыковываться к различным окнам или рабочему столу. В платной версии имеется поддержка дополнительных языков, стандарта AT&T Natural Voices, дополнительных возможностей. Программа существует в двух версиях: бесплатная и платная. Имеется поддержка пользовательских и дополнительных словарей.

Синтезатор речи ReadingBar

ReadingBar - синтезатор речи из любой web-страницы. Это панель для браузера Internet Explorer, которая после установки встраивается в браузер и позволяет читать любые web-страницы. Вы можете записать голос в wav или mp3 файл. Кроме произношения текста, ReadBar позволяет также подсвечивать слова, переводить их на 4 языка, выводить толкование слов из словаря. Будьте внимательны, ReadingBar не будет работать на операционной системе Vista и в браузере Internet Explorer 7.

Синтезатор речи FlameReader

FlameReader - многофункциональный синтезатор речи, который позволяет генерировать речь из любого текста или файла. Достаточно выделить текст в любой программе или в любом документе, и FlameReader сразу же произнесет его. Программа имеет множество возможностей: запись голоса в файл (wav и mp3), чтение e-mail, документов, web-страниц, озвучивание PowerPoint-презентаций, перевод текстов. Вы всегда можете настроить FlameReader удобным для вас образом, выбрав голосовой движок, скорость воспроизведения, и прочие параметры. FlameReader добавляет панель навигации в пакет программ Microsoft Office, упрощая работу с ней. В комплекте с программой поставляется удобный редактор звуковых файлов.

Синтезатор речи Alive Text to Speech

Alive Text to Speech - многофункциональный синтезатор речи, позволяющий не только произносить слова, тексты и файлы, но и записывать (конвертировать) их в звуковые файлы (MP3, WAV, OGG, VOX). В комплект входит панель для браузера Internet Explorer, позволяющая озвучивать любые web-страницы и конвертировать их в звуковые файлы.

Синтезатор речи YeoSoft Text to MP3 Speaker

YeoSoft Text to MP3 Speaker - многофункциональный синтезатор речи, позволяющий озвучивать тексты и создавать аудио-книги в различных звуковых форматах. Это эффективный инструмент для изучения иностранных языков. Поддержка технологий SAPI 4 и 5, файлов DOC и PDF, 10 языков, работы с несколькими файлами одновременно. Возможность добавления xml-тегов в текст для задания управления произношением. Настройки голоса: громкость, скорость, выбор голосового движка.

Синтезатор речи TextAloud

TextAloud - программа для генерации речи из текста и файлов. Генерируемую речь можно как слушать при помощи компьютера, так и записать в виде mp3 или wma файла. Синтезатор поддерживает следующие типы файлов: DOC, PDF, и HTML. В комплект с программой входит также Toolbar для Internet Explorer, Firefox, и Outlook.

Синтезатор речи Verbose

TextSound - конвертер текста в звуковые файлы (wav и mp3). Эта небольшая программа поможет вам быстро сконвертировать текст в речь и сохранить ее в виде звуковых файлов. Программа позволяет обрабатывать сразу несколько файлов и создавать список заданий.

Распозновать речь мы научились хоть и, пока, только английскую, не будем стоять на месте, едем дальше, точнее в противоположную сторону — займемся преобразованием текста в голосовую речь.

Наиболее популярные и свободные синтезаторы речи, которые мне известны и с которыми я имел практический опыт: Festival , eSpeak , OpenMary .
Рассмотрим все 3 по порядку.

Festival

ОС: Linux
Русский язык:
да (мужской голос)
Сайт: http://www.cstr.ed.ac.uk/projects/festival/

Довольно продвинутый синтезатор, поставляется со следующими языковыми пакетами: английский (в английском и американском произношении), валлийский и испанский. Также существуют и другие пакеты, такие, как кастильский испанский, чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу. Festival входит в поставку нескольких дистрибутивов Linux-а. Синтезатор довольно хорошо понимает русский язык, если поиграться с написанием слов, знаками препинания можно добиться вполне вменяемой речи.

Установка

В сети уже много материалов про установку фетиваля и прикрутке русского языка, поэтому особо расписывать не буду скажу лишь, что потребуется установить сам фестиваль (ставится из репозитория — festival) и русский языковой пакет, который также устанавливается из репозитория (festvox-ru), затем следует немного подправить конфиг. Хорошая статья по этому поводу есть .

Использование

В консоли:

Echo "Привет" | festival --tts --language russian

eSpeak

ОС: Linux, Windows, Mac OS X, RISC OS
Русский язык:
да (мужской голос)
Сайт:

Простой, компактный, программный синтезатор речи. Если верить информации, eSpeak используется в мобильных операционных системах Android, начиная с версии 1.6, и Maemo. Версии под Windows и Linux регулярно обновляются вместе с исходным кодом, с остальными платформами дела обстоят хуже. Поддерживается множество языков, в том числе русский, английский, французский, испанский и т.д. Если брать в сравнение русскую речь — eSpeak уступает Festival, английский, франзузский, немецкий — на уровне.

Установка

В некоторых дистрибутивах линукс еСпик уже установлен, если нет — ставится он также просто из консоли (espeak), либо качаем нужную версию с , например, в случае с Windows.

Использование

В консоли:

Espeak "Привет мир!" -vru -s 100

Где:
-v язык (ru, en, de)
-s скорость (80-450)

OpenMary

ОС: Linux, Windows, Mac OS X
Русский язык:
да (мужской голос)
Сайт:
http://mary.opendfki.de

Молодой и, пока еще, не очень популярный синтезатор, но в то же время очень функциональный и продвинутый. Написан на Java, что позволяет ему быть платформонезависимым. Работает по принципу клиент-сервер. Обладает продвинутыми речевыми надстройками, с помощью которых можно указывать интонацию, тембр, скорость для каждого слова. Поставляется с клиентом, написанным на той же яве, с графическим интерфейсом.

Установка

Установка достаточно легкая и не требует определенных усилий, качаем ява-установщик (не забываем, что требуется Java). Запускаем установщик и следуем инструкциям. В определеный этап установки предложат выбрать языковые пакеты, которыми мы будем пользоваться, для себя я выбрал русский и английский.

Использование

Переходим в директорию установки, заходим в папку bin и запускаем сервер — maryserver. Как только сервер будет запущен, запускаем клиент — maryclient.

Если все было сделано правильно, после нажатия кнопки «Play» должно быть слышно произношения написанного текста. В папке example, директорией выше, есть примеры реализации клиентов под разные языки.

Вывод

Festival: для средних домашних и корпоративных проектов (информирование о погоде, чтение писем, «язык» для ботов и т.п.).
eSpeak: для реализации малых задач (сообщение текущего времени, информирование о пробках, количестве писем в почтовом ящике, свободном месте на жестком диске и т.п.).
OpenMary: для крупных проектов (системы «умного дома», озвучка программ, чтение большого текста).

Все чаще в повседневной жизни стали использовать синтезаторы речи. Синтезаторы речи, как становится видно уже по одному названию, осуществляют синтез речи, то есть форматируют письменный текст в устный.

Благодаря этому можно учить новые иностранные слова с правильным произношением, читать книги не отвлекаясь от своих дел или, например, находясь в транспорте. Изначально разработкой таких программ занимались организации, специализирующиеся на технике для людей с проблемами зрения.

Сейчас же, любой пользователь может скачать одну из программ, установить ее на свой компьютер или телефон и синтезировать речь, в том числе и русскую.

Для этого было разработано множество различных программ, приложенный и даже целых систем. К сожалению, не все из них предназначены для русскоязычной аудитории.

1. Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена.
Женский голос появился значительно позднее мужского и является более усовершенствованным.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального сайта Acapela.

2. Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance.
Голос звучит очень естественно, речь чистая. Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно.
Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений. Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.

3. RHVoice

Код синтезатора открыт для всех, программы же абсолютно бесплатны.
RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA.
Все версии можно скачать с официального сайта разработчика.

4. ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

eSpeak можно установить под следующие операционные системы:

  • Microsoft Windows,
  • Mac OS X,
  • Linux,
  • RISC OS

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно.
А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

5. Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете.
Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.