Блог

Реальные медицинские вопросы ставят чат-боты в тупик

Чат-боты с искусственным интеллектом могут казаться «суперкомпетентными», поскольку модели обучены на обширных медицинских знаниях, но результаты их работы существенно ухудшаются при взаимодействии с реальными людьми.

По данным исследования, опубликованного в Nature Medicine, в лабораторных условиях чат-боты с искусственным интеллектом смогли выявлять медицинские проблемы с точностью до 95%, а выдавать корректные рекомендации по таким действиям, как вызов врача или оказание неотложной помощи, — более чем в 56% случаев. При попытке обработки чат-ботом медицинских сценариев, представленных ему в форме обычной разговорной речи, ситуация изменилась в худшую сторону. Точность диагностики состояния предполагаемого пациента снизилась до менее чем 35 процентов, а точность рекомендации правильного действия — до 44 процентов.

Снижение эффективности чат-ботов при переходе от лабораторных условий к реальной жизни говорит о важной проблеме: «ИИ обладает медицинскими знаниями, но людям трудно получить от него действительно полезный совет», — замечает один из авторов исследования.

Чтобы проверить, насколько точно боты ставят диагнозы в лаборатории, учёные предложили большим языковым моделям – GPT-4o, Command R+ и Llama 3 сценарии с описанием десяти заболеваний. Ученые отслеживали, насколько правильно чат-боты определяют проблему и какие рекомендации дают.

Затем почти 1300 добровольцев случайным образом были распределены на разные группы: одни должны были использовать те же сценарии и консультироваться с чат-ботами, другие – принимать решения любым удобным способом. Участников также попросили объяснить, почему они пришли к своим выводам и какой диагноз считают наиболее вероятным. Большинство тех, кто не пользовался ботами, просто вводили симптомы в Google или другие поисковые системы. Результаты оказались неожиданными. Люди, использовавшие чат-боты, справлялись не только хуже самих ботов (в лабораторных условиях), но и хуже тех, кто пользовался обычным поиском. «Доктор Google» помогал поставить правильный диагноз более чем в 40% случаев, тогда как у пользователей чат-ботов этот показатель составил в среднем около 35%. В науке это считается статистически значимой разницей.

При этом сами чат-боты на момент исследования (конец 2024 года) уже представляли собой передовой уровень технологий, и существенно улучшить их медицинские компетенции было бы сложно. Основная проблема заключалась в том, как сам человек взаимодействует с ними.

Иногда боты действительно давали неверную, неполную или вводящую в заблуждение информацию. Но чаще всего трудности возникали из-за поведения пользователей. Человек обычно сообщает симптомы заболевания по частям, вместо того чтобы попытаться описать общую картину своего состояния. В таких случаях чат-боты начинают ошибаться на неполных или нерелевантных данных. Кроме того, участники эксперимента порой игнорировали рекомендации бота даже тогда, когда они были правильными.

Всего лишь небольшие изменения в формулировках сильно влияли на ответы бота. Например, два участника описывали одно и то же состояние – субарахноидальное кровоизлияние (опасный тип инсульта, при котором кровь попадает в пространство вокруг мозга). Оба упомянули головную боль, чувствительность к свету и ригидность шеи. Но один человек сказал, что у него «внезапно началась самая сильная головная боль в жизни» – и GPT-4o правильно посоветовал срочно обратиться за медицинской помощью. А другой описал свою боль как «ужасную». В этом случае GPT-4o предположил мигрень и рекомендовал просто отдохнуть в тёмной тихой комнате – совет, который в подобной ситуации может стоить человеку жизни.

Почему такие незначительные различия в формулировках приводят к столь разным ответам, учёные объяснить пока не могут. Это часть так называемой «проблемы чёрного ящика» ИИ, когда даже его создатели не могут точно определить ход рассуждений модели. Вывод исследования однозначен: «ни одна из протестированных языковых моделей пока не готова к использованию в непосредственной медицинской практике».

К такому же выводу приходят и другие исследовательские группы. В отчёте международной некоммерческой организации по безопасности пациентов ECRI, использование медицинских чат-ботов, как пациентами, так и врачами, — названо самой серьёзной технологической угрозой для здравоохранения в 2026 году. Отмечается, что чат-боты могут уверенно предлагать ошибочные диагнозы, «выдумывать» части тела, рекомендовать потенциально опасные процедуры или препараты, назначать ненужные обследования и усиливать предвзятость и стереотипы, усугубляя неравенство в медицине. Исследования также показывают, что в роли «терапевтов» такие системы могут допускать серьёзные этические ошибки.

Тем не менее, большинство врачей так или иначе используют чат-боты, например, для расшифровки медицинских записей или просмотра результатов анализов, OpenAI анонсировала ChatGPT для здравоохранения, а Anthropic запустила Claude для здравоохранения. В ChatGPT уже ежедневно задается более 40 миллионов вопросов о здравоохранении.

Неудивительно, что люди обращаются к чат-ботам за медицинской помощью. Ведь они оперируют огромным количеством наборов данных и способны представлять их в удобоваримом и правдоподобном формате. Кажется, что они могут дать точный и достоверный ответ именно по заданному вопросу. Однако исследователи предупреждают, что коммерческие модели машинного обучения (LLM) не готовы к практическому использованию в клинической практике. Пока полагаться исключительно на результаты работы LLM небезопасно. Но есть надежда, что со временем и модели искусственного интеллекта, и уровень подготовленности пользователей достигнут более высокого уровня и преодолеют существующий разрыв в коммуникациях.

По мнению авторов, проведённое исследование подтверждает опасения по поводу безопасности и надежности LLM во врачебной практике, которые давно обсуждаются сообществом машинного обучения. Полученные результаты продемонстрировали слабость ИИ в реальных медицинских условиях.

Тем не менее, в статье предлагаются возможные шаги по улучшению обучения и тестирования, а также внедрению моделей искусственного интеллекта, которые смогут сделать их более надежными в различных медицинских контекстах. Планируется провести дополнительные исследования взаимодействия с ИИ на других языках и в различных временных интервалах. Ожидается, что будущие результаты смогут помочь разработчикам ИИ разработать более эффективные модели, благодаря которым люди смогут получать релевантные ответы.

«Следующий важный этап – это разобраться с самой системой оценки», — говорят авторы исследования. «До сих пор измерялось совсем не то, что действительно актуально, — а именно то, как ИИ взаимодействует с реальными людьми».

Источник: ScienceNews

Изображение для иллюстрации. Автор: xb100. Источник: Magnific.com

Приветствуем! 👋
Приятно познакомиться.

Подпишитесь, чтобы получать наш контент.

Мы не спамим! Прочтите нашу политику конфиденциальности, чтобы узнать больше.