Декодирование визуальной информации мозга MinD-Vis и последствия для психологии, как науки

Удивительно, как быстро за последние годы прогрессирует машинное обучение. Только за 2022-й год нейросети генерации изображений по тексту (MidJourney, Dall-E), комбинированию разных изображений (Lensa) и текста (ChatGTP) поразили результатами уже широкую публику (как никогда широкую). Кажется, что запускается экспоненциальная лавина производительности и эффективности подобный алгоритмов.

Но то, чего добилась сеть MinD-Vis, разработанная Стэндфордским, Гонконгским и Сингапурским университетами, представившими отчет в ноябре, может показаться на первый взгляд чем-то незначительным и бесперспективным, но я считаю, что именно с этой новости начнется революция в психологических науках. Далее я попытаюсь раскрыть свои мысли, появляющиеся на основании их достижений, в том числе применительно к психоаналитической психотерапии.

В чем суть визуализации психических процессов?

Если кратко, то на основе данных магнитно-резонансной томографии мозга нейросеть MinD-Vis показывает то, что видит человек.

Обучали комплекс нейросетей как и многие прочие на основании больших данных. То есть, сначала людям показывали конкретные изображения и фиксировали с помощью МРТ нейроактивность. Определенному изображению соответствует некая активность, которая, разумеется, в какой-то степени для каждого разного, но и имеющая нечто общее.

Нейросети, как известно, способны находить множественные и тонкие закономерности в больших объемах данных, то есть, они делают то, что недоступно человеческим когнитивным способностям, фигурально выражаясь, им не составляет труда находить иголку в стоге сена. Они легко выполняют множество рутинной работы - то есть, сравнить миллионы картинкок с миллионами изображений нейронов и найти связи, чего бы человек никогда не сделал.

Итак, после достаточного объема такого анализа, процесс можно инвентировать. Теперь на основании данных МРТ, то есть, рисунка нейроактивности человека ... нейросеть может показать что видит человек (!).

Вы понимаете насколько это удивительное и важное достижение? Это демонстрирует настолько тесную и прямую связь между нейрофизиологией и психикой, что аж неловко становится. И у этого огромное после последствий. Конечно, в далеком будущем, но начало положено.

Честно говоря, я не думал, что с помощью считывания активности нейронов можно узнать о ментальном содержании процессов, но, как показывает MinD-Vis - это возможно. И этому есть объяснение.

Конечно, никто не может знать об этих закономерностях и нейросеть не может нам их продемонстрировать. Да и, скорее всего, эти закономерности слишком сложные, чтобы мы смогли их воспринять и осознать, они как многостраничные формулы. Сейчас это не принципиально. Главное, что декодирование работает с удивительной точностью.

И ранее были попытки восстановления изображений по данным нейровизуализации, но алгоритмы машинного обучения показывали лишь размытое пятно, едва ли несущее какой-либо смысл. Затем четкость повышалась, но искажения были слишком сильными. Разработчики MinD-Vis сравнивают свои результаты с аналогичными программами:

Сравнение точности декодирования визуальной информации Mind-Vis с другими алгоритмами

MinD-Vis же добилась весьма высокой достоверности. Вы только посмотрите:

То есть, если человек видит лебедя, то нейросеть понимает, что человек видит (представляет) лебедя и может вывести эту информацию! Не точно такое же, разумеется, но в целом показывает вполне конкретного лебедя. Жираф, насекомое, пожарная машина, спортсмен, здание, ванная комната - суть сохраняется. Общее содержание идентично.

Уже это само по себе чудо и достойно множества научных исследований. Понятное дело, что пока (на столь раннем этапе) нейросеть распознает более простые и узнаваемые объекты. Но ведь постепенно точность декодирования будет расти и узнавать содержимое мыслеформ можно будет все с большей достоверностью. Да, здесь я уже использую понятие мыслеформы, т.к. если сейчас MinD-Vis и не распознает то, что пытается представить в уме человек (увидеть ментально) (я не знаю умеет ли это MinD-Vis или только пока может декодировать непосредственно воспринимаемое глазами), но уверен, что рано или поздно будет возможность визуализировать уже представляемые визуальные образы, а затем и не только визуальные, а позже и не только статичные и т.д.

Наверняка позже добавятся нейросети и по другим каналам восприятия и видам информации - слуховой, обонятельный, осязательный, вкусовой и вестибулярный. А затем их можно будет объединить, для создания передачи комплексного состояния и мыслеформ.

Да, для этого понадобится гораздо большие данные и чем более субъективные процессы мы захотим визуализировать, тем более сложное и тем более индивидуальное обучение должна будет пройти нейросеть. Но это уже детали.

Может ли быть предел точности расшифровки информации по активности мозга? Вопрос сложный. Ткань мозга очень сложная и сейчас декодировка происходит на основании лишь части активности. Насколько можно увеличить объем анализа данных и насколько это повысит точность - вопрос будущих исследований. Но даже сейчас корреляция поразительная.

Может в дальнейшем мы добьемся визуализации мыслеформ иными способами, не посредством анализа данных нейроактивности. Это тоже не суть. Главное, что рано или поздно это будет достигаться и ... это будет менять мир, нашу культуру, цивилизацию в самоей основе.

Почему расшифровка и цифровизация ментального столь важны?

Раскрою на основе нескольких тезисов.

1. Начну с речи. Речь - основа сознания. Язык - есть инструмент структуризации миро- и само-восприятия. Язык - это наш культурно разработанный способ кодирования-декодирования внутреннего во внешнее, межличностное. То, что человек может передать часть того, что у него происходит внутри посредством речи и языка - великое чудо, отличающее нас от прочих животных.

Одновременно с этим, язык - бутылочное горлышко для разума. Мы можем понимать друг друга в цивилизованном формате в основном только за счет сознательно вербализованных мыслей (дополнительная информация поступает от других органов чувств, но часть их мы также интуитивно для себя определяем в какие-либо смысловые формы, охватываемые также вербальными понятиями).

Данный способ коммуникации на основе языка очень древний и, хоть развивающийся, он очень узкий и медленный, малосодержательный и, как следствие, неточный. Если я скажу "Синий", то каждый человек представит свой синий. Если скажу "смешной", то каждый представит свой стиль и тип юмора. И это еще не очень абстрактные понятия. А если уходить в узкоспециализированные, то разрыв между общающимися увеличивается. Чем дальше углубляются науки, тем сложнее даже ученым понимать друг друга, а что уж говорить о не ученом. И всему порог именно язык. Ведь суть все та же, логика, причинно-следственные связи, смыслы, и их, по идее, может понять каждый. Но чтобы до них дойти, необходимо пройти долгий путь, выложенный посредством языка (и прочих символьных систем, как например, алгебраическая, геометрическая или химическая).

Конгруэнтность лексики ограничена семантическим барьером (опять же, насколько и как вы понимаете непосредственно это предложение?)

И речь однозначно нужна для нашего собственного декодирования любой информации внешней и внутренней. Но также мы могли бы делиться непосредственно визуальными образами. Ведь художнику проще нарисовать то, что он увидел во сне и показать. И это всегда точнее совокупности слов, которые он мог бы предложить вместо картины.

Инструмент Mind-Vis позволит ускорить и автоматизировать этот процесс.

Скорее всего технология будет развиваться по следующему направлению: уточнение - миниатюризация устройств считывания (маленькие томографы в виде шлема) - еще большая миниатюризация до возможности интеграции ... ну допустим в смартфоны, которые мы всегда носим при себе.

Достаточно будет приложить смартфон к голове, считать сигнал и показать то, о чем человек подумал, что вообразил, что видел и воссоздал в памяти, откуда и куда идет.

И это все еще на уровне статичных изображений. А это ведь тоже только начало. Можно продолжить линию развитию по направлению комплексности передаваемой информации: объединение с информацией других органов чувств - переход от статичной к анимированной картине - а затем и вовсе в динамическом формате, то есть, типа, как это называется, 5D-видео. Нечто подобное показывали в одной серии "Черного зеркала", где люди носили линзы, записывающие все происходящие и человек в любой момент пересмотреть воспоминание из собственных глаз. С учетом комплексной передачи информации это может быть буквальным переносом в сцену, как, например, в "Матрице".

Научные фантасты давно показывают технологии визуализации сновидений и даже проникновения в оные. MinD-Vis делает реальный шаг в сторону данных технологий.

В конечном итоге мы сможем прийти к способу коммуникации по типу того, что был прекрасно продемонстрирован Спилбергом в фильме "Искусственный разум", где инопланетные существа передавали друг другу комплексную информацию посредством касания и сами, будто, состояли из информации (на первой иллюстрации).

Но до этого, конечно, совсем далеко.

В общем, благодаря нейросетями возможно увеличить точность и объемность коммуникации, так сказать, трафик общения. Такую функцию, например, выполняют мемы - в одном изображении или фразе содержится комплекс информации. Мемы сгущают сложные интер- и интрасоциальные ситуации до емкой формы. Язык в целом постоянно развивается и как в глубину, так и вширь.

Что дает декодирование визуального мышления в ближайшем будущем?

Вернемся с ближайшему будущему распространения технологии Mind-Vis пока в формате предоставления визуальной информации из мозга.

Благодаря нейросети и индивидуальным миниатюризированным устройствам, которые обеспечат считывание нашей нейроактивности, мы сможем улучшить ввод и вывод информации. Я уже сам давно мечтаю о более продвинутом устройстве ввода текста (хотя бы текста), чем клавиатура.

Да, алгоритмы распознавания речи и перевода в текст уже очень точные и быстрые, но все же говорю я не так, как пишу. Поэтому тексты приходится редактировать, что порой занимает только еще больше времени. (хотя с этим может помогать еще одна удивляющая и нашумевшая нейросеть от Open AI - ChatGPT).

Но вот если бы мне возможно было просто представлять визуально слова, а они тут же выводились на экран, то скорость писания бы увеличилась в разы.

Далее. Нейроимпланты, например, от Neuralink, считывают мысли о движении вверх, вниз, влево, вправо. Также по нейроактивности. Но пока просто движения. И то за счет импланта. Mind-Vis распознает аж целый визуальный образ. Это революция с невероятными последствиями для цивилизации.

Коммуникация с устройствами и с людьми ускорится, упростится и усложнится одновременно. О многом можно будет просто подумать. По мере автоматизации, роботизации и когнификации технологий плечо от мысли до действия будет сокращаться до, например, "Подумал - заказал".

Как повлияют инструменты по типу MinD-Vis на психоаналитическую психотерапию?

Будем исходить из предположения, что в скором времени мы сможем использовать инструменты предосталяющие визуализацию (и, в дальнейшем, более непосредственную передачу опыта) мыслеобразов.

Разумеется более непосредственный доступ к процессам психики окажет мощное влияние на всю психологию, как, собственно, инструменты по нейровизуализации, вроде компьютерной, диффузной оптической, магнито-резонансной и прочей томографии мозга оказали на нейронауки в свое время (достижения которых использует MinD-Vis).

Что в отношении психоанализа? Данное направление, как наука о бессознательном и метод терапии, достаточно консервативное и ригидное. Я думаю, что интеграция новых технологий, дающих уникальный доступ к психике (в том числе бессознательной части) будет происходить медленно и через сопротивление. Здесь необходимо помнить, что психоанализ консервативный настолько, насколько консервативным хотим мы его сохранять. А развитие всегда происходит через боль изменений, утрат и шагов в неопределенность.

Сегодня важнейшим инструментом и предметом анализа практических аналитиков является речь. Потому, что это основной источник информации о сознательном и бессознательном в анализе и потому, что последнее структурировано, как речь. И за вербальной тканью останется приоритет. Технологии визуализации не отнимают данный приоритет, но дают возможность в речи, через речь и посредством речи коснуться бессознательного еще ближе.

Следовательно, в будущем психоаналитикам придется решать множество вопросов. Вот лишь некоторые из них.

Насколько полезным будет использование визуализации мыслеобразов в терапии? Как для целей пациента, так и для целей терапевта. (например, картинка из сновидения может служить опорным материалом для свободных ассоциаций).

А что если визуализатор мыслеобразов будет работать в режиме живой трансляции в кабинете? Должен ли только пациент видеть этот "стрим", только терапевт или оба одновременно с возможностью обсуждения (то есть принять это за аналог речи, которую слышат оба)?

Насколько будет влиять на пациента видение визуализации своей психики? Насколько много может быть в ней бессознательного? Насколько важно иногда иметь пациенту право не озвучивать свои бессознательные мысли? Ведь может быть так, что транслироваться будет сразу и всё и тогда пациент будет совсем "обнаженным", "без кожи", беззащитным. (и здесь вновь вопрос о том, что может будет лучше, если только терапевт будет видеть стрим, хотя это большое испытание для параноидных пациентов).

Далее очень интересный ряд вопрос о доли бессознательного в визуальном ряде.

Насколько понимание пациентом того, что его мыслеобразы транслируются и видны терапевту, будет влиять на содержание трансляции? Будут ли и смогут ли психические защиты цензурировать "стрим"? В какой степени? Понятное дело, что это, скорее всего, будет вопросом множества факторов: от возраста, вида и степени защит до текущего состояния физического и отношенческого. Это будет крайне интересно исследовать, как по мне.

Касательно сновидение. Сейчас запоминание и озвучивание сновидений на сессиях является неструктурированным, нерегламентированным и свободным для пациента. Он может рассказать сновидение в любой момент - и теория исследует, объясняет и адаптирует практику под это. А если у пациента появится устройство записывание визуальных образов во время сновидений, каких принципов придерживаться терапевтам? Сделать ли рассмотрение сновидений, как, напомню "королевской дороги в бессознательное" обязательным элементом каждой сессии? Или, несмотря на наличие этих записей, оставить за пациентом право их обнародовать? Оба варианта надо будет пробовать на практике и сравнивать эффективность и, при этом, не генерализованно, а с дифференциацией. Например, для пациентов психотической организации будет эффективнее установка требований записи сновидений, в то время как для невротической нет. Либо наоборот. Могут быть и другие дифференциации, и более сложные многофакторные.

Или, например, артефакты. Нейросети, осуществляющие декодирование психической информации, всегда будут иметь некую неточность, то есть, привносить артефакты в итоговый материал. Ведь они работают по принципу нашей психики, которая также никогда не достоверна. То есть, в психоаналитическом кабинете появляется 4-й (кроме первых троих - психоаналитика, анализанта и психоанализа). Отсюда вопрос: как относиться к этим искажениям? Как понять искажения ли это, но бессознательные самого пациента, либо это артефакты нейросети? Имеет ли смысл учитывать возможность артефактов или относиться к ним по принципу "перенос, как тотальная ситуация"?

Вопросов даже в плане практического психоанализа возникает очень много и все весьма интересные, на мой взгляд. И это ведь лишь начало и первое приближение. Лично у меня это вызывает чувство воодушевления.

Наглядное представление мыслеобразов, фантазий и даже сновидений - слишком ценный научный материал, чтобы его игнорировать. Более того, если живо то, что меняется, то отрицание технологий визуализации психических процессов становится преступлением против жизни психоанализа.

Нам следует критически относиться к футурофобии, остракизму, ретроградству и, чего хуже, неолуддизму, как реакций на новые технологии. Не психоанализ создал бессознательное, но бессознательное определило психоанализ. Следовательно, технологии представляющие материал бессознательного представляют интерес для психоанализа, как феноменологической и герменевтической дисциплины.

Возвращаясь к инопланетянам из фильма "Искусственный разум" хочется отметить, что вопреки реакционному ксенофобному механизму, они созданы Спилбергом существами не агрессивными и опасными, как зачастую бывает, но такими высоко осознанными, духовными, благодетельными самаритянами, для которых ценна именно исследование просторов Вселенной и ее истории. Они перемещаются, видимо, от одного мира к другому и собирают информацию о цивилизациях. Скорее всего они не вмешаиваются в естественные процессы и не нарушают уклады, хоть и имеют некие квази-гуманистические ценности (они воскрешают мать Дэвида на один день). Я нахожу близкую и приятную рифму с психоаналитическим исследованием здесь.

Поэтому, надеюсь, что мне и коллегам удастся нащупать баланс в будущем.

Эта статья была написана:

Skurtul Alexandr

Almaty, Kazakhstan

Александр Скуртул – психолог-психоаналитик, личный консультант. Образование: Восточно-Европейский институт психоанализа, Санкт-Петербург.

Посмотреть все статьи Skurtul Alexandr

Предыдущая статья

Мнение начистоту. "От" ("Огонь")

октябрь 22, 2022

Следующая статья

Сугубо персонализированный контент будущего

февраль 06, 2023