Когда искусственный интеллект начинает понимать язык
Языковые возможности современных систем искусственного интеллекта поражают наше воображение. Теперь мы можем вести естественный диалог с такими системами, как ChatGPT, Gemini и многими другими, с беглостью, почти сравнимой с человеческой. Однако мы все еще очень мало знаем о внутренних процессах, происходящих в этих нейронных сетях, которые приводят к таким замечательным результатам.
Новое исследование, опубликованное в журнале “Статистическая механика: теория и эксперимент” (Journal of Statistical Mechanics: Theory and Experiment (JSTAT)), приоткрывает завесу над этой тайной. Оказывается, при использовании небольших объемов данных для обучения нейронные сети изначально ориентируются на расположение слов в предложении. Однако, когда система получает некоторое достаточное количество данных, она переходит к новой стратегии и моделям, основанным на значении слов. Исследование показало, что этот переход происходит внезапно, как только превышается критический порог данных – во многом подобно фазовому переходу в физических системах. Полученные результаты дают гораздо более полное представление о работе этих моделей.
Точно так же, как ребёнок, обучающийся читать, нейронная сеть сначала понимает предложения, ориентируясь на расположение слов: в зависимости от того, как размещены слова в предложении, сеть может определять их взаимосвязи (подлежащее ли это, сказуемое или дополнение). Однако, по мере обучения — словно «продолжая ходить в школу» — происходит фазовый сдвиг: главным источником информации становится значение слов.
Учёные объясняют, что именно это и происходит в упрощенной модели механизма саморегуляции – ключевом компоненте языковых моделей, подобных тем, которые используются в ChatGPT, Gemini, Claude и т.д. Архитектура нейронной сети «трансформер» предназначена для обработки последовательностей данных, в том числе текста. Такие трансформеры нацелены на понимание взаимосвязей внутри последовательности слов в предложении и используют механизм самоконтроля, чтобы оценить важность каждого слова по сравнению с другими.
Чтобы оценить взаимосвязи между словами, сеть сначала анализирует их расположение относительно друг друга, но в определённый момент, начинает полагаться на смысловое содержание.
Один из авторов исследования сотрудник Гарвардского университета Хьюго Цуй именует это явление фазовым переходом, заимствуя определение из физики. Статистическая физика изучает системы, состоящие из огромного количества элементарных частиц, путем изучения их коллективного поведения и взаимодействия. Аналогичным образом в нейронных сетях, состоящих из большого количества узлов – нейронов, каждый связан со многими другими. Интеллект системы возникает в результате взаимодействия этих нейронов, и это явление, по мнению исследователей, можно описать статистическими методами.
Вот почему допустимо говорить о резком изменении поведения сети как о фазовом переходе, подобном тому, как вода при достижении определенных значений температуры и давления переходит из жидкого в газообразное состояние.
“С теоретической точки зрения, следует понимать, что смена стратегии в нейронной сети происходит именно таким образом”, – подчеркивает Хьюго Цуй. “Наши нейронные сети упрощены по сравнению с реальными моделями, с которыми люди взаимодействуют ежедневно. Но статистический анализ их поведения может дать подсказки для понимания возникновения условий, приводящих к стабилизации модели в той или иной стратегии. Мы надеемся, что наши результаты будут востребованы в будущем для того, чтобы сделать использование нейронных сетей более эффективным и безопасным”.
Источник: Scientists discover the moment AI truly understands language
Image for illustration only. Image source: Freepik.com