Переосмысление теста Тьюринга в эпоху генеративного искусственного интеллекта

В эпоху генеративного искусственного интеллекта все еще актуален тест Тьюринга?

Наступление информационного века поставило фундаментальный вопрос: могут ли машины думать? Алан Тьюринг, ученый-новатор в области информатики, предложил тест Тьюринга в 1950 году в качестве меры, позволяющей ответить на этот вопрос. Согласно тесту, если машина может убедить собеседника-человека в том, что она тоже человек, исключительно посредством разговора, то о ней можно сказать, что она «думает».

Другими словами, этот тест направлен на то, чтобы определить, может ли машина демонстрировать разумное поведение, неотличимое от человеческого. В частности, человек-дознаватель ведет разговор на естественном языке с машиной и человеком, не зная, что есть что. Если исследователь не может достоверно определить, что это за машина, то говорят, что машина прошла тест Тьюринга.

Учитывая недавние достижения в области генеративного искусственного интеллекта, некоторые задаются вопросом, остается ли тест Тьюринга действенным способом оценки искусственного интеллекта. Генеративные модели искусственного интеллекта, такие как DALL-E 2, GPT-3/GPT-4, Claude и другие, могут создавать удивительно похожие на человеческие результаты для изображений, текста и диалогов. Машина, оснащенная этими передовыми моделями, потенциально может обмануть следователя в тесте Тьюринга, но не благодаря истинному интеллекту, а просто за счет генерации ответов, все более похожих на человеческие. Настоящая имитирующая машина, использующая то, во что хочет верить человек-актер.

Итак, мы должны задаться вопросом: является ли тест Тьюринга по-прежнему действенным показателем машинного интеллекта?

Эволюция возможностей искусственного интеллекта

Генеративный искусственный интеллект прошел долгий путь: модели могут писать стихи, создавать музыку и даже имитировать человеческий разговор. На первый взгляд может показаться, что эти ИИ могут легко пройти тест Тьюринга. Они могут легко влиться в онлайн-дискуссии, заставляя многих задуматься, является ли человек, с которым они разговаривают, плотью и кровью или строками кода. Это подводит нас к важному различию: моделировать человеческое взаимодействие и понимать его — две разные вещи.

Глубина и поверхностное понимание

Генеративные модели ИИ работают, предсказывая следующее слово или последовательность слов на основе огромных объемов данных, на которых они обучались. Для прохождения теста Тьюринга требуется нечто большее, чем просто создание результатов, подобных человеческим. Машина должна продемонстрировать, что понимает контекст разговора, может следовать логическим цепочкам и обладает чем-то напоминающим здравый смысл. Они не совсем понимают контент, который создают; они просто прогнозируют закономерности на основе предыдущих данных. Напротив, люди общаются с пониманием, основанным на опыте, эмоциях и сознании. Хотя ИИ может создавать текст, который звучит по-человечески, ему не хватает глубины понимания и богатства опыта, которые люди привносят в разговор.

Это более очевидно на недавних примерах галлюцинаций. Текущим генеративным моделям не хватает более глубоких способностей к рассуждению, и они становятся хрупкими, если их исключить из обучающего распределения. Они склонны к бессмысленным ответам, которые сразу же выдадут недостаток человеческого интеллекта.

Переопределение теста Тьюринга

Оригинальный тест Тьюринга был продуктом своего времени. В эпоху, когда идея машины, имитирующей человеческий разговор, была новаторской, тест Тьюринга был революционной идеей. Сегодня ситуация изменилась. Поскольку модели генеративного искусственного интеллекта способны создавать убедительный человеческий текст, планку необходимо установить выше.

Возможно, новый тест должен включать не просто разговор, а ряд задач, требующих более глубокого понимания, творчества и даже сочувствия — областей, в которых машины все еще отстают. Хотя генеративные модели совершенствуются за счет внедрения мультимодальных входных данных, остается открытым вопрос, сможет ли какая-либо существующая система ИИ пройти длительный и строгий тест Тьюринга, ориентированный на содержательный диалог по открытым темам. Мультимодальные тесты будут включать не только текстовые, но и визуальные и слуховые сигналы, проверяя способность ИИ интегрировать информацию из разных источников. Благодаря дальнейшим достижениям в области искусственного интеллекта, позволяющим преодолеть этот пробел в рассуждениях, возможно, когда-нибудь машина сможет пройти тест Тьюринга и продемонстрировать интеллект, сравнимый с человеческим, в неограниченной разговорной обстановке.

Философские последствия

За техническими аспектами стоит более глубокий философский вопрос: что значит думать? Достаточно ли воспроизведения человеческого разговора или истинная мысль коренится в сознании, самосознании и опыте?

Если основной целью теста Тьюринга было определить, могут ли машины думать, то мы должны признать, что простого разговора может быть недостаточно. Истинное мышление многогранно, и хотя ИИ добился больших успехов в воспроизведении определенных аспектов, ему еще далеко до полного воспроизведения человеческого познания. Другими словами, тест Тьюринга — это неадекватная или неполная мера машинного интеллекта. Человеческий интеллект многогранен — он включает в себя здравый смысл, эмоциональный интеллект, юмор, этику и многое другое. Машине, проходящей тест Тьюринга, может все еще не хватать широты человеческого познания.

Тест Тьюринга фокусируется на человеческом сходстве, хотя нас больше интересуют различия в интеллекте и взаимодополняемость между людьми и машинами. Другие предложенные тесты машинного интеллекта, такие как персонализированные задачи, реальная робототехника и совместное решение проблем, могут лучше охватить значимые измерения, выходящие за рамки человеческой мимикрии.

Следующие шаги

Тест Тьюринга был новаторской концепцией, вызвавшей десятилетия дискуссий и исследований. В эпоху генеративного искусственного интеллекта он остается важным историческим инструментом, но его актуальность как окончательного испытания машинного интеллекта снижается. По мере того, как мы приближаемся к эпохе, когда ИИ становится все более интегрированным в нашу повседневную жизнь, крайне важно усовершенствовать наши показатели машинного интеллекта, гарантируя, что они отражают глубину и широту того, что на самом деле означает мышление. Кроме того, разговор, начатый Тьюрингом, остается актуальным, поскольку мы стремимся к созданию ИИ, соответствующего человеческим ценностям.

Итак, я думаю, нам нужна модифицированная версия теста Тьюринга для измерения неявного внутреннего понимания модели большого языка ИИ, когда она выдает следующее слово.