Voder: первая в мире говорящая машина

Ваш GPS-навигатор, виртуальный помощник в смартфоне и автоматические ответы, которые вы получаете при наборе службы поддержки той или иной компании – всё это не настоящие голоса. Иными словами, не существует никакой большой базы произнесённых слов, которые компьютер подбирает и связывает вместе, чтобы построить предложение. Они генерируются компьютером на лету, но звучат настолько естественно, что чаще всего их нельзя отличить от голоса реального человека.

Человеческие голоса гораздо сложнее в акустическом плане, чем, предположим, собачий лай или звон цимбал. Разнообразие само по себе поражает. Как и в случае с человеческими лицами, не бывает двух одинаково звучащих голосов. Добавьте к этому различные интонации, эмоции, ударения на слогах и акценты. Воспроизвести все нюансы речи довольно непросто. То, что мы вообще способны синтезировать человеческий голос, причём с невероятной точностью, является большим достижением.

Одна из первых попыток создать синтетическую речь была предпринята более двух столетий назад, в 1779 году, немецким профессором Христианом Кратценштейном. Кратценштейн построил аппарат, состоявший из ряда вибрирующих тростниковых трубок, которые по звучанию напоминали человеческий голосовой тракт. Его устройство могло искусственно воспроизводить пять долгих гласных.

 

Реконструкция говорящей машины фон Кемпелена

Несколько лет спустя, в 1791 году, венский изобретатель Вольфганг фон Кемпелен сконструировал более детальную машину, смоделированную по образцу различных человеческих органов, которые делают речь возможной. Она имела пару мехов для имитации лёгких, вибрирующую тростниковую трубку вместо голосовых связок, кожаную трубку, служившую голосовым трактом, две ноздри, кожаные языки и губы. Манипулируя формой кожаной трубки и положением языков и губ, фон Кемпелену удавалось воспроизводить как согласные, так и гласные. Почти полвека спустя Чарльз Уитстон сконструировал усовершенствованную версию говорящей машины фон Кемпелена, которая могла произносить большинство согласных звуков и даже пару полноценных слов.

Первое устройство, которое считается настоящим синтезатором речи, называлось VODER (Voice Operating Demonstrator). Оно было разработано Гомером Дадли из Bell Labs в 1930-х годах. Это была довольно сложная машина с четырнадцатью клавишами, как у пианино, рычагом, управляемым запястьем, и ножной педалью, которой оператор мог манипулировать, заставляя машину говорить. Она звучала как робот или даже «инопланетянин, говорящий под водой», как описала его Лиза Гернси из New York Times.

 

Схема VODER

Фактически, «голос робота», который мы часто слышим в старых научно-фантастических фильмах и телевизионных драмах, возможно, принадлежал VODER. «Как только истинный голос машины входит в общественное сознание, его место и форма в вымышленном представлении больше никогда не будут прежними, – пишет автор Бен Фино-Радин. – После того дня в 1939 году мы точно знали, как должна звучать нечеловеческая речь».

На сайте whatisthevoder есть описание того, как работало устройство VODER: «Оператор выбирал один из двух основных звуков, используя рычаг для запястья: гудение или шипящий звук. Гудение было строительным блоком для гласных и носовых звуков. Шипящий звук был строительным блоком для тех звуков, которые ассоциировались с согласными.

Эти звуки затем проходили через ряд фильтров, которые выбирал пользователь путём нажатия соответствующих клавиш на клавиатуре. Эти звуки объединялись и передавались через громкоговоритель. В случае со звуками, для которых не были характерны гудение или шипение, таких как “p”, “d”, “j” и “ch”, предпочтение отдавалось дополнительным фильтрам.

Различные слова можно было объединять в предложения, основываясь на манипуляции клавишами и звуками. Вы даже могли добавить выразительность и тон (контролируемые ножной педалью), исходя из типа задаваемого вопроса.

Миссис Хелен Харпер, которая была главным оператором VODER во время его демонстрации на Всемирной выставке в Нью-Йорке в 1939 году, даёт нам представление о том, насколько трудно было им управлять.

«Например, – говорит миссис Хелен Харпер, – чтобы воспроизвести слово "concentration" на VODER, я должна сформировать тринадцать различных звуков подряд и сделать пять движений вверх и вниз запястьем, изменить положение ножной педали от трёх до пяти раз в зависимости от того, какую выразительность мне нужно придать. И, конечно, всё это должно быть выполнено с точностью и вовремя».

Харпер потребовался год постоянной практики, прежде чем она научилась управлять машиной с высокой точностью. Около трёхсот девушек прошли обучение, чтобы стать операторами, но менее тридцати из них получили правильные навыки.

Опытный оператор, такой как миссис Харпер, мог заставить VODER говорить на любом языке, мычать, как корова, или хрюкать, как свинья. Он даже мог заставить машину петь, как показано в видео ниже.

 

 

Клавиатура VODER

 

 

Демонстрация VODER Bell Labs на Всемирной выставке в Нью-Йорке 1939 года

источник

Поделиться в соц. сетях

Опубликовать в Google Buzz
Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники