Поскольку звуковые волны мгновенно реагируют на форму полостей, по которым они проходят, то коартикуляция сеет смуту среди звуков речи. Индивидуальная звуковая реализация той или иной фонемы «подкрашена» теми фонемами, которые идут перед ней и после нее, иногда до такой степени, что эта звуковая реализация не имеет ничего общего с фонемой благодаря компании других фонем. Вот почему невозможно отрезать кусок пленки с записью звучащего слова cat и надеяться найти в нем относящуюся к началу часть, которая содержала бы один звук k. Чем ближе и ближе к началу будут эти отрезки, их звучание будет варьироваться от чего-то, напоминающего ka, до чириканья или свиста. Такое «смазывание» фонем в речи могло бы в принципе иметь преимущество для оптимально сконструированного опознавателя речи. Согласные и гласные реализуются в речи синхронно, значительно увеличивая количество фонем, произносимых в секунду, как было замечено в начале этой главы, и существует много избыточных звуковых подсказок о том, что за фонема имеется в виду. Но этим преимуществом может воспользоваться только высоко технологичный распознаватель речи, тот, что имеет некоторое представление о принципах смешения звуков речевым аппаратом.
Конечно, человеческий мозг — это высоко технологичный распознаватель речи, однако, никто не знает, как ему удается быть таковым. Поэтому психологи, изучающие восприятие речи, и инженеры, конструирующие механизмы для распознавания речи, пристально наблюдают за работой друг друга. Возможно, распознавание речи — настолько сложный процесс, что существует всего несколько способов того, как оно в принципе может быть реализовано. Если так, то способ, которым пользуется мозг, может подсказать, как наилучшим образом сконструировать машину для распознавания речи, а способ, каким это удастся сделать машине, может предложить гипотезу о том, как это удается мозгу.
* * *
Уже на ранних этапах истории исследований речи стало ясно, что слушающие способны с выгодой для себя использовать свои представления о речевых намерениях говорящего. Последние сужают круг вариантов, возможных при акустическом анализе речевых сигналов. Мы уже заметили, что фонологические правила обеспечивают один вид избыточности, который можно использовать, но люди в состоянии пойти еще дальше. Психолог Джордж Миллер проиграл записи предложений, произносимых на фоне шума, и попросил людей в точности повторить, что они слышали. Некоторые предложения соответствовали правилам английского синтаксиса и имели смысл:
Furry wildcats fight furious battles ‘Пушистые дикие кошки ведут яростные бои’.
Respectable jewelers give accurate appraisals ‘Уважаемые ювелиры высказывают сдержанное одобрение’.
Lighted sigarrets create smoky fumes ‘Облегченные сигареты создают клубы дыма’.
Gallant gentlemen save distressed damsels ‘Галантные кавалеры спасают опечаленных дам’.
Soapy detergents dissolve greasy stains ‘Мыльные моющие средства растворяют жирные пятна’.
Другие предложения были получены «перемешиванием» слов из разных синтаксических групп, что дало бесцветно-зелено-мысленные предложения, грамматически правильные, но бессмысленные:
Furry jewelers create distressed stains ‘Пушистые ювелиры создают опечаленные пятна’.
Respectable cigaretts save greasy battles ‘Уважаемые сигареты спасают жирные бои’.
Lighted gentlemen dissolve furious appraisals ‘Облегченные кавалеры растворяют яростные одобрения’.
Gallant detergents fight accurate fumes ‘Галантные моющие средства ведут сдержанные клубы дыма’.
Soapy wildcats give smoky damsels ‘Мыльные дикие кошки спасают дымных дам’.
Третий вид предложений был получен «перемешиванием» непосредственно составляющих в структуре при сохранении в предложении одних и тех же слов:
Furry fight furious wildcat battles ‘Пушистые ведут яростные дикие кошки бои’.
Jewelers respectable appraisals accurate give ‘Ювелиры уважаемые одобрения сдержанно высказывают’.
И наконец, некоторые предложения были просто словесным винегретом, как например:
Furry create distressed jewelers stains ‘Пушистые создают опечаленные ювелиры пятна’.
Cigaretts respectable battles greasy save ‘Сигареты уважаемые бои жирные спасают’.
Люди лучше всего справились с имеющими смысл грамматически правильными предложениями, хуже — с грамматически правильной бессмыслицей и грамматически неправильным смыслом, а хуже всего — с грамматически неправильной бессмыслицей. Несколько лет спустя психолог Ричард Уоррен записал на пленку предложения типа: The state governors met with their respective legislatures convening in the capital city ‘Губернаторы штатов встретились с представителями соответствующих законодательных органов, заседающими в столице’, изъял s из слова legislatures и заменил его покашливанием. Слушающие сказали, что ни одного звука не было пропущено.
Вы можете подумать, что звуковая волна находится на нижнем уровне иерархии «звуки — фонемы — слова — синтаксические группы — значения предложений — знание вообще». Но то, что было продемонстрировано выше, явно подразумевает, что восприятие человеком речи осуществляется сверху вниз скорее, чем снизу вверх. Возможно, мы постоянно пытаемся догадаться, что собирается сказать говорящий, используя каждую находящуюся в нашем распоряжении крупицу осознанного и неосознанного знания, начиная со знания о том, как коартикуляция «смазывает» звуки, до знания правил английской фонологии, английского синтаксиса, знаний о производителях и объектах действия, и о том, что в данный момент на уме у собеседника. Если наши предположения достаточно точны, то акустический анализ может быть очень поверхностным: то, чего не достает звуковой волне, заполнит контекст. Например, если вы слушаете дискуссию о разрушении экологических сред обитания, вы можете заранее настроиться на слова, относящиеся к исчезающим животным и растениям, и тогда, когда вы слышите звуки, в которых невозможно разобрать фонемы, например: eesees [i:si:z], вы сможете правильно воспринять это слово как species [spɪːʃɪːz] ‘биологический вид’, если только вы не Эмили Лителла — тугой на ухо персонаж «Сэтердей найт лайв», яростно выступавшая против кампании по защите поставленных под угрозу feces [fiːsiːz] ‘каловые массы’. (И действительно, юмор, связанный с Гильдой Рэднер, которая также отчаянно боролась против спасения «советской бижутерии», «остановки скрипок» на улице и сохранения естественных «скаковых лошадей», вызван не проблемами на нижнем уровне обработки звука, но тупостью на верхнем уровне, там, где нужно было бы не допустить саму возможность таких интерпретаций)[91].
Теория восприятия речи «сверху вниз» производит на некоторых людей сильное эмоциональное впечатление. Она подтверждает философию релятивистов о том, что мы слышим то, что надеемся услышать, что наше знание определяет наше восприятие и, наконец, что мы не находимся в прямом контакте с объективной реальностью. В каком-то смысле восприятие, упрямо идущее сверху вниз, может стать едва управляемой галлюцинацией, в этом-то и проблема. Человек, воспринимающий речь и вынужденный полагаться на свои ожидания, находится в очень невыигрышном положении в том мире, который непредсказуем даже при самых благоприятных обстоятельствах. Есть основания полагать, что восприятие человеческой речи в сильной степени определяется на акустическом уровне. Если у вас есть готовый к сотрудничеству друг, вы можете проделать следующий эксперимент: выберите наугад из словаря десять слов, позвоните другу и четко произнесите эти слова. Весьма вероятно, что друг легко сможет их воспроизвести, полагаясь только на данные звуковой волны и на свое знание английского словаря и фонологии. Ваш друг не мог использовать никаких относящихся к высокому уровню предположений относительно структуры высказывания, контекста, или связанной с ним истории, поскольку у множества слов, выбранного наугад, их нет. Хотя при плохой слышимости или на фоне помех мы и можем сослаться на теоретическое знание, относящееся к высокому уровню (но даже и здесь не совсем ясно, действительно ли знание воздействует на восприятие, или оно позволяет нам сделать адекватную догадку постфактум), наш мозг кажется устроенным так, чтобы до последней капли выжимать фонетическую информацию из самой звуковой волны. Наше шестое чувство может воспринимать речь как язык, а не как просто звук, но это — чувство — то, что связывает нас с миром, а не просто форма внушаемости.
Другой пример того, что восприятие речи не есть точное воплощение наших ожиданий, дает нам иллюзия, которую журналист Джон Кэрролл назвал «мондегрин» после того, как неправильно воспринял строку из народной баллады «The Bonny Earl O’Moray»: