Пиши и продавай!
как написать статью, книгу, рекламный текст на сайте копирайтеров

 <<<     ΛΛΛ     >>>   

218

по машинному зрению, компьютерной графике и нейроинформатике. Пожалуй, наиболее известной в психологии и за ее пределами до сих пор остается возникшая свыше двух десятилетий назад в этом контексте вычислительная модель зрительного восприятия Дэвида Марра (Магг, 1982). Эта модель постулирует три этапа переработки зрительной информации. На первом этапе вычисляется грубое, но полное описание изменений яркости в локальных участках изображения (в вариантах модели используется также информация о движении и бинокулярной диспарат-ности). Описание строится в терминах алфавита типов изменения яркости: КРАЙ, ТЕНИ-КРАЙ, ЛИНИЯ, ПЯТНО и т.д., дополненных параметрами ПОЛОЖЕНИЕ, ОРИЕНТАЦИЯ, КОНТРАСТ, РАЗМЕР и РАЗМЫТОСТЬ. Марр назвал такое описание первичным наброском, поскольку оно выделяет контур и подчеркивает слабые изменения яркости, подобно тому как это мог бы сделать художник, делая набросок картины. По отношению к первичному наброску последовательно применяются операции группировки и различения, результатом чего является выделение фигуры (объектов) из фона.
Описание формы выделенных из фона объектов осуществляется лишь на более поздних этапах восприятия. Эти этапы были пояснены в работах Марра значительно менее подробно, чем первичная сенсорная обработка. Первоначально строится так называемая «двух-с-половиной-мер-ная» (2'/2D) репрезентация предметов. Речь идет о том, что предметы отчасти приобретают телесность, третье измерение, но при этом восприятие остается ограниченным определенным углом зрения, под которым мы их наблюдаем. Собственно трехмерная (3D) репрезентация предметов, не зависящая от специфической точки зрения, строится в последнюю очередь и связана с эффективной «упаковкой» информации в памяти. Характер такой упаковки позволяет понять предложенная Марром и Ни-шихарой гипотеза обобщенных цилиндров. Согласно этой гипотезе, универсальными элементами «ментального конструктора» служат обобщенные цилиндры — цилиндрические элементы разных пропорций, размеров и ориентации. Спецификация формы предметов примерно соответствует микрогенетическому принципу перехода рт глобальных к локальным системам отсчета. Примером служит репрезентация формы человеческого тела, показанная на рис. 3.16. Незначительная модификация параметров составляющих тело цилиндров позволяет описать общие очертания других похожих биологических существ и их движений (см. 3.1.2).
К этой же группе моделей примыкает теория американского психолога Ирвина Бидермана (Biederman, 1987), предположившего, что зрительная система располагает целым алфавитом таких базовых элементов, которые он называет геонами. Наряду с цилиндрами, этот алфавит включает еще несколько других простых форм, таких как конусы и параллелепипеды. Различные предметы могут составляться из разных элементов. Психофизиологическая реальность подобных элементов не вполне очевидна. Эксперименты с использованием так называемого прайминга (см. 5.1.3), при которых гипотетические элементы предмета предъявлялись в некотором иррелевантном контексте непосредственно перед опытами на его прямое опознание, не выявили в общем случае ожидавшегося ускорения опознания. Поэтому вопрос о возможности некоторой

человек


 

кисть


Рис. 3.16. Описание сложного объекта с помощью иерархии «обобщенных цилиндров» (по: Магг, 1982).
универсальной, основанной на геометрии декомпозиции предметов остается открытым. Скорее всего такая декомпозиция может быть только результатом развернутого во времени обучения, позволяющего постепенно выявить компоненты предмета, которые обладают наибольшей автономной вариабильностью и, таким образом, заслуживают статуса «частей».
С помощью компьютерной графики и других, например акустических и тактильных, средств предъявления новой информации и обратной связи о собственных движениях, у наблюдателя можно создать живую иллюзию взаимодействия с динамическим предметным окружением — виртуальную реальность {virtualreality, VR)25. Кроме таких полностью искусственных моделей среды и объектов на практике (в частности, в устройствах отображения информации) широко используется промежуточная форма представления среды, расширенная реальность {augmentedreality, AR). В этом случае восприятие реального окружения совмещается с элементами искусственного окружения, созданного средствами компьютерной графики, что дает возможность воспринимать скрытые характеристики объектов, такие как внутреннее устройство автомобильного двигателя, положение анатомических структур во время эндоскопической операции, детальный рельеф местности в тумане и т.д. (см. 9.2.3).

25 Значительный прогресс наблюдается сегодня в создании тактильных (гаптических) компонентов виртуальной реальности. С их помощью сапер может за сотни метров от эпицентра событий почувствовать сопротивление проржавевшего металла обезвреживаемой роботом мины, хирург — пластичность обрабатываемых на расстоянии тканей и т.д.

219

Последней разновидностью является так называемая расширенная виртуальность (augmentedvirtuality, AV), которая представляет собой искусственное окружение для реальных объектов и, например, используется для проведения VR-видеоконференций с обсуждением и проверкой реальных технических изделий (Величковский, 2003).

Все эти сенсорные технологии разрабатываются при участии психологов. Они начинают оказывать заметное влияние и на сами психологические исследования, прежде всего психологию восприятия. В частности, системы виртуальной реальности используются для создания условий экспериментов, которые, с одной стороны, экологически валидны, а с другой, позволяют контролировать независимые переменные (как, например, в исследованиях восприятия опасных ситуаций и реагирования на них при поездках по виртуальному городу — см. 3.4.2). Наряду с этим вкладом в методологию эксперимента, компьютерная графика может служить источником аналогий для теоретических представлений о восприятии. При создании виртуального окружения сначала строится схематическая (или «проволочная») модель среды, которая затем «облачается» участками различных текстур. Можно предположить, что восприятие решает обратную задачу, а именно задачу перехода от информационно богатого внешнего окружения к обедненной схематической модели среды. Понятно, что на ранних этапах микрогенеза важную рель должны играть не только контуры, но и в особенности текстуры.

Именно при обработке текстур, выделении границ объектов и контуров обнаруживается особая компетентность разрабатываемых в ней-роинформатике коннекционистских моделей (см. 2.3.3). На рис. 3.17 показаны примеры того, как самоорганизующаяся нейронная сеть справляется с соответствующими тестовыми заданиями. В первом случае (А) сеть различает участки достаточно похожих текстур. Во втором (Б) — выделяет и подчеркивает контурные компоненты сложного изображения. Методы параллельной обработки используются также при распознавании пластических трансформаций биологических объектов, таких как движения губ при речи и мимика эмоций. Значительный практический интерес представляет собой и обратная задача — продуцирование правдоподобной мимики и эмоционального выражения лица виртуальных персонажей (аватаров). Соответствующие технологии необходимы для создания антропоморфных интерфейсов, например, систем «видимой речи», позволяющих глухим людям пользоваться для общения обычным телефоном с соответствующей компьютерной приставкой (см. 7.4.3 и 9.4.2).
Методы нейроинформатики могут использоваться и в значительно более глобальном плане — для так называемого эволюционного моделирования механизмов восприятия. Для этого первоначально совершенно гомогенная нейронная сеть (то есть сеть с одинаковыми весовыми коэффициентами синаптических связей) начинает подвергаться много-220       кратному (десятки тысяч раз) воздействию разнообразных, возникаю-

 


Рис. 3.17. Примеры сенсорно-перцептивных задач, успешно решаемых нейронными сетями А. Дифференциация текстур; Б. Выделение контуров в составе сложного изображения

щих в различных участках «поля зрения» сети объектов. Успешность работы сети определяется ее способностью распознавать эти объекты. Такого рода идеализированные компьютерные эксперименты обычно демонстрируют любопытный эффект постепенной «модуляризации сети»: нейронная сеть начинает распадаться на две автономные подсистемы, одна из которых занимается преимущественно выделением параметров местоположения объектов, а другая — анализом их фигуративных характеристик, критических для собственно распознавания (Calabretta & Parisi, 2005).
Вырисовывающееся различение соответствует изложенным выше фактам об уровневой организации восприятия и прямо напоминает два гипотетических механизма построения движений, а именно уровни пространственного поля С и предметного действия D, описанные в 1947 году H.A. Бернштейном (см. 1.4.2). В современной нейропсихологии предположение о существовании в восприятии приматов и человека двух, филогенетически различных зрительных систем одним из пер-

221

вых высказал, в 1968 году, шотландский исследователь Колуин Тривар-зен (Trevarthen, 1968). Специализацией более древней системы, или так называемого «амбьентного зрения» (от фр. ambiance= окружение), по его мнению, является динамическая пространственная локализация. Вторая система, или «фокальное зрение», занимается идентификацией объектов. На основании экспериментов с перерезкой мозолистого тела (корпус коллозум), связывающего между собой полушария большого мозга, Триварзен и Сперри пришли к выводу, что первая система расположена преимущественно в субкортикальных структурах, тогда как вторая система находится в коре и поэтому зависит от сохранности межполушарных связей (Trevarthen & Sperry, 1973).
В последующем нейропсихологический поиск субстрата этих двух форм зрительной обработки надолго сместился в кору (отчасти потому, что процессы в коре проще наблюдать, чем в субкортикальных структурах). В этом контексте различают дорзальный (ведущий в заднетеменные зоны коры) и вентральный (нижние височные зоны) «потоки» зрительной информации, хотя постепенно накапливается все больше данных, подтверждающих мнение Бернштейна и Триварзена, что филогенетически более древний дорзальный поток {амбьентное зрение, или уровень С) включает и субкортикальные компоненты. Различие механизмов локализации и идентификации было установлено в последнее время также в слуховом восприятии (см. 4.1.2). Аналогичные взаимодействия выявляются и при выполнении мануальных движений: при схватывании предмета сначала задается общее направление и расстояние (локализация), и лишь затем осуществляется приспособление пальцев к его форме и размерам (идентификация). Мы более подробно остановимся на дискуссиях об уровневой организации восприятия в последнем разделе этой главы (см. 3.4.2) после рассмотрения взаимоотношений восприятия и семантики.
3.3.3 Роль предметности и семантический контекст
Недостаток большинства нейрофизиологических моделей распознавания состоит в том, что они односторонне подчеркивают геометрические признаки конфигурации, игнорируя предметный контекст. Предметность восприятия представляет собой не просто абстрактный философский или, например, идеологический принцип26, а фактор, оказываю-
26 По известному замечанию Курта Коффки, мы воспринимаем «предметы, а не промежутки между ними». Согласно Брентано и последующим феноменологическим направлениям философии и психологии, предметность и интенциональность (в смысле «интенцио-нальной направленности психических актов на предметы») лежат в основе феноменов сознания. В марксистской философии предметность восприятия («чувственного отражения») 222        выводилась из предметного характера внешней практической деятельности (см. 9.3.1).

щий влияние на результаты конкретных исследований. Эксперименты с классификаций и идентификацией различных сенсорно-перцептивных признаков показывают, что нам значительно проще определять разные признаки одного и того же предмета (цвет, размер и форму), чем один и тот же признак (например цвет) такого же числа разных предметов (см. 4.1.3). Особенно поучительным является эффект превосходства объекта, обнаруженный Науми Уайсстейн и Чарльзом Харрисом (Weisstein & Harris, 1974).
Эти авторы провели эксперименты, в которых испытуемые сначала должны были в тахистоскопических пробах с последующей маскировкой различать один из четырех возможных отрезков, типа показанных на рис. 3.18А, при их изолированном предъявлении. После того как в первой части эксперимента индивидуально определялось время экспозиции, позволяющее правильно узнавать отрезки в 75% случаев, эксперимент несколько усложнялся. Вместе с каждым отрезком и на то же самое время предъявлялся фигуративный контекст, представлявший собой два квадрата, которые были смещены таким образом, что каждый из тестовых отрезков связывал между собой их различные вершины (рис. 3.18Б). Во всех пробах второй части эксперимента этот контекст был идентичным — подобное избыточное дополнение, казалось бы, не должно было улучшать различение предъявляемых линий. Более того, присутствие дополнительной информации в условиях тахистоскопичес-кого эксперимента означает дополнительную нагрузку, поэтому во второй части эксперимента можно было ожидать некоторого снижения

 


Рис. 3.18. Эксперименты Уайсстейн и Харриса (Weisstein & Harris, 1974): А. Изолированное предъявление одной из четырех альтернатив; Б. Предъявление тех же отрезков в контексте, создающем впечатление различных трехмерных объектов; В. Контрольный эксперимент с непредметным контекстом.

223

уровня успешности узнаваний тестовых отрезков по сравнению с условиями его первой части.
Результаты показали, однако, что успешность ответов во второй части эксперимента возрастает, достигая 90%. Иными словами, отрезки линий воспринимаются быстрее и точнее внутри конфигураций, вызывающих впечатление предметности — присутствия различных объемных («телесных») объектов, чем при изолированном предъявлении. Если бы восприятие следовало порядку активации гипотетических детекторов признаков — от линий к углам и лишь затем к более сложным, образующим предметы конфигурациям, результаты должны были бы получиться обратными. Возможное возражение состоит в том, что квадраты могут выполнять роль удобных ориентиров, присутствие которых облегчает определение положения и ориентации тестовых линий. Поэтому в одном из контрольных экспериментов тестовые линии показывались на фоне фрагментов координатной сетки (рис. 3.18В). В этом случае вероятность правильного узнавания снижалась до 70%.
Эффекты контекста не менее выражены и в слуховом восприятии. Хорошо известно, прежде всего, что признаки фонем — наименьших смыслоразличительных единиц потока речи — меняются в зависимости от акустического контекста (см. 7.1.1). Интерес представляет влияние семантики речи на восприятие фонем. Так, в классических экспериментах Р. Уоррена (Warren, 1970) фонема /s/ в составе некоторого слова иногда просто заменялась шумовым сигналом. В нормальном речевом сообщении испытуемые этого не замечали, продолжая отчетливо слышать /s/. Более того, такие отсутствующие физически, но субъективно слышимые фонемы могут при их «повторении» даже приводить к адаптационным психофизиологическим эффектам, сдвигая пороги восприятия звуков со сходными признаками27. Вместе с тем, не следует переоценивать эффекты ожидания в восприятии. В частности, нужно принять во внимание, что белый шум, использовавшийся в экспериментах Уоррена, по своим характеристикам особенно похож на фонему /s/. Если шумовыми сигналами той же средней громкости заменяются другие фонемы, то это относительно легко замечается испытуемыми.
Что можно сказать о взаимоотношении восприятия фигуративных и семантических характеристик объектов? Анализируя влияние семантики на наше восприятие, Фодор и Пылишин (Fodor & Pylyshin, 1988) связывают его с переходом от «восприятия» к «восприятию как» («perception us»),
" Соответствующий зрительный эффект состоит в следующем. Адаптация к пространственной частоте синусоидальных решеток (известно, что в детекции такого рода стимулов участвуют специализированные нейроны — см. 3.1.1) зависит не только от физической стимуляции определенной части поля зрения, но и от перцептивной организации в целом. Если часть заполненного адаптационной решеткой поля зрения перекрывается, то адаптация в этой локальной части окружения определяется тем, воспринимаем ли мы перекрытие как фигуру (то есть как предмет, выступающий перед непрерывным, образо-224        ванным решеткой фоном) или же как отверстие в решетке.

иллюстрируя это теоретическое различение следующим примером. Потерпевший караблекрушение моряк может смотреть на некоторую звезду и, безусловно, видеть ее очень отчетливо, наряду с другими звездами, но может видеть ее и совсем иначе, например, «как Полярную звезду», позволяющую ему найти направление к берегу. Аналогично, по проницательному замечанию А.Н. Леонтьева, после высадки астронавтов на поверхность Луны изменилось само наше восприятие этого небесного тела. Экспериментально семантику восприятия впервые исследовал М.П. Никитин, работавший в лаборатории В.М. Бехтерева. В статье «К вопросу об образовании зрительных ощущений», опубликованной в 1905 году, он описал эксперименты по узнаванию изображений предметов, предъявлявшихся с индивидуально подобранной околопороговой длительностью экспозиции (она составила от 0,8 до 3 мс). После каждого предъявления испытуемый зарисовывал то, что видел, и давал словесный отчет. В целом результаты подтвердили закон перцепции Лан-ге, но с одним существенным добавлением. Оно состояло в том, что всякая новая идея о предмете «запускает» микрогенез восприятия сначала. «Некоторые лица, — пишет М.П. Никитин, — так описывают этот момент: "Помню, что некоторое время ясно осознавал общие очертания некоторых линий, но, как только блеснула идея о предмете, сразу забыл их"» (1905, с. 118). Та же закономерность проявилась и в динамике зарисовок: сразу после возникновения идеи, даже если она была правильной, увеличивалось количество ошибочно изображенных деталей! Испытуемый говорил «птица» и рисовал птицу другого вида, чем та, которая была на карточке. Насколько нам известно, подобные эффекты никогда не перепроверялись в последующие десятилетия и лишь совсем недавно — через 100 лет — стали предметом анализа в контексте исследований так называемого послевнимания (см. 4.2.3).
В когнитивной психологии долго доминировало представление, что осмысленность восприятия носит постперцептивный характер. «Прека-тегориальными» считаются иконическая и эхоическая память. Уже в первых экспериментах Дж. Сперлинга испытуемым предъявлялись матрицы, включавшие буквы и цифры. Инструкция отбирать символы одной из этих двух категорий не приводила к преимуществу частичного отчета. Позднее Дж. Сперлинг и сотрудники (Sperling et al., 1971) провели эксперименты по определению максимальной скорости распознавания. Испытуемым показывались матрицы из букв, в которых нужно было найти и идентифицировать спрятанную цифру. Задача решалась при фантастических условиях предъявления, когда в каждой матрице было от 9 до 16 букв и матрицы сменялись каждые 40—50 мс. Поскольку категоризация, по мнению авторов, может иметь место лишь после строго последовательного сканирования информации из иконической памяти в «буфер опознания» (подструктуру кратковременной памяти), ими был сделан вывод о том, что распознавание одного символа может осуществляться за время порядка 10 мс (80—120 символов в секунду).

225

С точки зрения сегодняшних представлений о временных характеристиках восприятия, к этому выводу следует отнестись с некоторым скептицизмом. Среди прочего, он не учитывает возможность очень эффективной семантической категоризации хорошо знакомой перцептивной информации. Так, например, в работах по зрительному поиску было неоднократно показано что искать букву (цифру) среди цифр (букв), оказывается легче, чем искать букву (цифру) в контексте других букв (цифр). Любопытно, что эти эффекты, по-видимому, не сводятся к выделению одних только сенсорных различительных признаков материала: в литературе сообщается о результатах, согласно которым искать «букву "О"» среди цифр проще, чем искать «цифру "О"» (то есть буквально тот же самый объект с точки зрения сенсорных признаков!) среди цифр (Jonides & Gleitman, 1972). Многочисленные перепроверки, проведенные за прошедшие со времени первой публикации 30 с лишним лет, в большинстве случаев подтверждали этот поразительный результат.
Данные говорят не о вторичных, а о непосредственных эффектах значения в восприятии. Например, когда на очень короткое время (скажем, 30 мс) нам предъявляются знакомые или незнакомые символы, то длительность предъявления первых кажется больше. Этот результат сохраняется даже тогда, когда вводится обратная маскировка и испытуемый не может сказать, что было показано в каждом конкретном случае. Перцептивное распознавание оказывается до определенной степени процессом уточнения не только фигуративных, но и семантических характеристик объектов. Если начальным этапом в первом случае является динамическая локализация в окружающем пространстве, то во втором — появление абстрактного представления о существовании объекта. Нами совместно с М.С. Капицей и У. Кемпфом (Величков-ский, 1982а; Velichkovsky, 1982) проведены эксперименты по зрительной маскировке, показавшие, что на промежуточных этапах микрогенеза (100—200 мс) особую роль играют общие очертания объектов28. На основе выделения общих очертаний, в частности, могут строиться быстрые положительные ответы в задачах сравнения конфигураций. По-видимому, этим промежуточным этапам микрогенеза соответствуют и критические моменты уточнения принадлежности объекта к той или иной общей семантической категории.
Некоторые другие данные также говорят о том, что перцептивные процессы могут быть, по крайней мере, столь же тесно связаны с абстрактной семантической информацией, как и речевые. Согласно ре-
28 Недавно (март 2004) нами совместно с Т.Г. Визель и Е.Г. Гришиной было проведено обследование пациентки О.Б. Ядерная магнитнорезонансная томо1рафия выявила у нее двустороннее поражение затылочно-височных областей коры (вентральный поток — см. 3.4.2), что объясняло прозопагнозию и дислексию. Одновременно О.Б. была способна узнавать (отчасти угадывать) отдельные предметы и буквы по их форме, но только на основе общих очертаний. Восприятие внутренней геометрии предметов было нарушено (см. 226        также Botez, 1975).

зультатам M. Поттер (например, Potter & Faulconer, 1975), при показе изображения молотка испытуемый гораздо быстрее называет более общую семантическую категорию «инструмент», чем при показе слова «молоток». Об этом же свидетельствуют результаты работы И. Хофф-манна (1987). Испытуемым давалось либо возможное название категории, либо возможное название объекта, изображение которого предъявлялось с переменной задержкой вслед за этим для скоростной бинарной классификации. При этом оказалось, что в положительных пробах ответ давался быстрее, если испытуемому вначале указывалась семантическая категория некоторой средней степени общности (о таких категориях промежуточного, или «базового», уровня абстрактности и их роли в когнитивном развитии — см. 6.2.2). Например, если на картинке была изображена роза, то ответ «да» давался быстрее при преднастройке «цветок», чем при преднастройке «роза». Преднастройка на «растение» не вела к такому относительному ускорению ответов.
В связи с этими данными возникают два принципиальных вопроса. Первый состоит в том, каким образом осуществляется выделение семантических признаков в восприятии. Суть второго вопроса в том, какие следствия такое выделение имеет для процессов обработки собственно фигуративных признаков.
В связи с первым вопросом мы уже отмечали, что речь идет о микрогенетическом процессе, причем опирающемся скорее на глобальные, чем на локальные характеристики объектов и сцен. Если учесть, что детальное предметное восприятие представляет собой относительно медленный процесс, требующий (как правило, после первоначальной пространственной локализации) участия фокального внимания, то «общий смысл», очевидно, может выделяться одновременно или даже раньше, чем большинство геометрических признаков. Имеется целый ряд работ, показывающих это с помощью методики, в которой испытуемым в высоком темпе последовательно предъявлялось значительное число осмысленных изображений (Potter, Staub & O'Connor, 2004)29, Выявляемое при этом время обработки (80—200 мс) соответствует промежуточным фазам микрогенеза восприятия. Иными словами, эти промежуточные фазы микрогенеза как бы отвечают на вопрос «На что это похоже?».
В последнее время появились самые первые модели обработки сложных реалистических изображений, показывающие, как, в принципе, может происходить столь быстрое выделение их общего семантического содержания (Oliva & Torralba, 2001). Оказывается, для этого достаточно использования нескольких относительно простых фильтров, работаю-
г9 В современной психологической литературе для обозначения подобного методи
ческого приема применяется буквосочетание RSVP (от англ. rapidserialvisualpresentation,
то есть «быстрое последовательное зрительное предъявление»). Эту английскую аббре
виатуру легко запомнить, если учесть, что она идентична стандартному международному
сокращению, означающему просьбу ответить — responde s'il vous plait.                                         227

 <<<     ΛΛΛ     >>>   

Наши представления об организации событий во времени времени развития
Язык ментальных ментальный nbsp намерения ментальных
Различные субкортикальные механизмы
С восприятием фонем наименьших смыслоразличительных единиц потока речевых звуков

сайт копирайтеров Евгений