Искусственный интеллект плохо разбирается в истории?
Можно с уверенностью констатировать, что сегодня искусственный интеллект (ИИ) вполне прилично справляется с определёнными задачами. Например, он неплохо программирует несложные процедуры или даже генерирует подкасты, но при этом вряд ли сможет сдать серьёзный экзамен по истории, о чем свидетельствуют результаты исследования, проведённого австрийскими учёными.
Группа исследователей протестировала работу трёх самых популярных больших языковых моделей (Large Language Models, LLM) – GPT-4 от компании OpenAI, Llama, принадлежащей Meta (Meta признана экстремистской организацией и ее деятельность запрещена в России) и Gemini от Google. Этим моделям ставились вопросы на исторические темы, а их ответы проверялись по авторитетной базе данных Seshat Global History Databank.
Результаты оказались разочаровывающими. Даже «победитель конкурса» GPT-4 Turbo продемонстрировал лишь 46% точности ответов, что практически не отличается от результата человека, просто их угадывающего.
«Главным выводом этого исследования стало то, что LLM, хотя и выглядят впечатляюще, но всё ещё далеки от понимания истории как науки, необходимого для её глубокого изучения. Они прекрасно могут оперировать базовыми фактами, но, когда дело доходит до специфических запросов, характерных для более серьёзных исследований, большие языковые модели не справляются», – комментирует один из соавторов исследования.
В чём же причина «исторических» ошибок LLM? Исследователи считают, что большие языковые модели пытаются экстраполировать исторические данные, которые уже имеются в их базах данных вместо того, чтобы выполнить поиск в соответствии со сформулированным сложным запросом.
На вопрос, существовала ли в определённый исторический период в Древнем Египте профессиональная регулярная армия, GPT-4 ответил: «Да», – хотя правильный ответ – «Нет». Скорее всего, модель была обучена на множестве публикаций, в том числе о регулярных армиях в других древних империях вроде Персии, и просто распространила это знание на Египет.
«Если вы скажете «А» и «Б» по сто раз, а «В» – лишь единожды, то, когда вам зададут вопрос про «В», вы почти наверняка вспомните «А» и «Б» и попробуете экстраполировать ваши знания о них на «В», – считают учёные.
Также исследователи описали и другие недостатки в ответах LLM на вопросы по истории, включая то, что ИИ плохо ориентируются в знаниях об определённых регионах мира вроде стран Африки к югу от Сахары, что свидетельствует о больших пробелах в их наборах данных для обучения.
Словом, большие языковые модели пока хуже людей разбираются в некоторых сферах жизнедеятельности, констатируют учёные. Однако, есть надежда, что ИИ сможет в будущем стать помощником и для историков. Просто потребуется существенно обогатить наборы данных соответствующей информацией и научить нейросети решать более комплексные задачи.
Источник: TechCrunch