Ограниченные данные о пациентах делают ИИ опасным
для использования в медицине
Универсальные чат-боты с искусственным интеллектом (ИИ) пока скорее
зло для пациентов, чем благо. В 80% случаев они могут выдавать ложные
диагнозы или, что еще хуже, диагностировать у пользователя выдуманную
болезнь. Эксперты прямо называют такую диагностику от чат-ботов
галлюцинациями. Свои проблемы есть и в использовании специализированного
ИИ в медицине. Так, при снижении качества снимков точность диагностики
нейросетей кратно снижается.
Универсальность популярных чат-ботов с точки зрения поиска необходимой
информации не делает их пригодными для постановки точных медицинских
диагнозов при ограниченном наборе данных, говорится в исследовании,
опубликованном в Jama Network Open.
В нем, в частности, указывается, что для проверки постановки диагнозов
было использовано 29 описаний клинических случаев из справочной
медицинской литературы для проверки качества определения диагноза
популярными чат-ботами. Однако при передаче чат-боту ограниченной
информации о симптомах большие языковые модели затрудняются с выбором
возможных диагнозов и чаще всего сводят все к единственному варианту,
на который в действительности нельзя полагаться в дальнейшем лечении.
Подчеркивается, что медицинские данные передавались чат-ботам поэтапно,
включая историю болезни, результаты осмотров и лабораторных анализов.
В выборку проверяемых ИИ-моделей попали два десятка популярных чат-ботов,
включая разработанные OpenAI, Anthropic, Google, xAI и DeepSeek.
При отсутствии полной информации о состоянии пациента более чем
в 80% все они были склонны ставить ошибочный диагноз. Однако чем
точнее была информация о пациенте, тем точнее были и результаты.
В лучших случаях точность превышала 90%, в среднем варианте ошибочные
диагнозы ставились менее чем в 40% случаев.
Даже специализированные медицинские ИИ вроде разработанной Google
AMIE хотя и показывают в целом неплохие результаты, но полагаться
на них в полной мере нельзя, считают медики.
Популярные чат-боты на основе ИИ в 50% случаев выдают медицинские
советы сомнительного качества, говорится в совместной статье группы
ученых, опубликованной в медицинском журнале BMJ Open. Исследователи
изучили работу пяти популярных чат-ботов, среди которых ChatGPT,
Grok, Gemini, DeepSeek. Каждому чат-боту было задано по 10 открытых
вопросов по пяти темам из области медицины и здоровья.
В результате почти половина ответов были "проблематичными":
30% - сомнительными, а свыше 19% - крайне проблематичными. Кроме
того, пишут авторы, чат-боты выдавали ответы "уверенно и без
сомнений". В общей сложности было задано 250 вопросов, и лишь
на 2 из них ученые не получили ответа.
Качество получаемой от ИИ справочной информации было низким. "Галлюцинации
чат-бота и сфабрикованные цитаты не позволили ни одному чат-боту
составить точный список литературы", - продолжают авторы, отмечая,
что ответы ИИ соответствуют "уровню студентов второго-четвертого
курсов".
Проверенные чат-боты показали низкую эффективность при ответе на
вопросы в областях здравоохранения и медицины, где часто встречается
дезинформация, а дальнейшее их использование без просвещения населения
только усилит дезинформацию, резюмируют исследователи.
Опасения ученых более чем оправданны. В журнале Nature приводится
расследование о том, как ученые из Гетеборгского университета выдумали
заболевание глаз и опубликовали по нему две убедительные статьи.
Уже через несколько недель популярные ИИ-модели начали ставить по
выдуманному заболеванию диагнозы. Несмотря на то что в самих публикациях
было множество маркеров фиктивности, чат-боты восприняли их как
достоверные. Уже после на "новое интригующее заболевание"
стали ссылаться и медицинские институты.
Расследователи сделали такой вывод: чем профессиональнее выглядит
текст - тем выше вероятность, что ИИ-модель не только воспроизведет
его содержание, но и дополнит собственными галлюцинациями. Академическая
статья воспринимается ИИ как сигнал достоверности, вне зависимости
от того, что именно в этой статье сказано.
Необходимо разделять два принципиально разных сценария использования
ИИ в медицине: диагностические системы поддержки принятия решений
и публичные чат-боты общего назначения, подчеркивают эксперты.
"Когда речь идет о специализированных медицинских системах
(анализ рентгеновских снимков, КТ, МРТ, выявление патологий на основе
медицинских изображений), здесь ИИ показывает высокую эффективность
и в России, и за рубежом. Такие модели обучены на размеченных датасетах
конкретных заболеваний, валидированы на клинических данных и работают
как вспомогательный инструмент для врача, а не как замена. В российской
практике подобные решения внедрены в ряде регионов для скрининга
онкологии, анализа флюорографии, оценки кардиологических рисков
- и там результаты вполне сопоставимы с экспертной оценкой",
- говорит ведущий инженер-аналитик лаборатории технологий ИИ аналитического
центра кибербезопасности компании "Газинформсервис" Ирина
Меженева.
Проблема, по ее словам, возникает, когда пользователи обращаются
к универсальным чат-ботам с медицинскими вопросами. "Эти системы
не предназначены для постановки диагнозов: они обучены на общедоступных
текстах, а не на клинических протоколах и генерируют ответ на основе
вероятностных паттернов, а не медицинской логики. Когда такая модель
"додумывает" симптомы или рекомендует лечение - это и
есть галлюцинация в чистом виде: правдоподобный текст без фактической
основы", - сообщает эксперт.
"ИИ чат-боты - это не инструмент медицинской диагностики, это
пользовательский сервис основанный на языковой модели. У него нет
цели диагностирования, его цель ответить на запрос на основе предоставленных
данных - когда человек вводит набор симптомов, языковая модель находит
по всем публично доступным ресурсам с описанием таких симптомов
наиболее часто встречающиеся описания болезней. Поэтому естественно,
80% ответов ИИ будут ошибаться с диагнозом, без того набора данных,
которые бы запросил квалифицированный врач при работе с тем же пациентом",
- поясняет научный сотрудник лаборатории анализа лучших международных
практик Института Гайдара Ольга Магомедова.
Мировой рынок классических чат-ботов оценивается в 8-11 млрд долл.,
а к 2035 году может превысить 70 млрд долл. Российский рынок голосовых
и чат-ботов в разы меньше и, по оценкам, не превышает 11 млрд руб.
Глобальный рынок ИИ в медицине оценивается в 39 млрд долл. В Fortune
Business Insights ожидают, что к 2033-2034 годам он составит 500-600
млрд долл. А значительная доля этого рынка будет принадлежать США.
По другим оценкам, рынок глобального ИИ в медицине может приблизиться
к 2 трлн долл.
Российский рынок ИИ в медицине скромнее. По одним оценкам, он уже
достигает 12 млрд руб., а к 2030 году может вырасти до 78 млрд руб.
Компания "Цифровая медицина", фонд "Сколково"
и ассоциация "Национальная база медицинских знаний" совокупный
оборот российского рынка ИИ для здравоохранения по итогам 2025 года
оценивали в 1,5 млрд руб., с прогнозом, что к 2030 году он увеличится
до 85 млрд руб.
При этом и специализированный ИИ допускает ошибки. В опубликованном
в Digital Medicine исследовании говорилось, что при ухудшении качества
медицинских снимков резко снижается качество ответов ИИ. Так, на
изображениях без нарушений точность ведущих ИИ-моделей составляла
от 60 до 65%. При добавлении слабых дефектов показатели падают.
А на изображениях с выраженными дефектами точность могла падать
почти на 30%. Кроме того, в большинстве случае модели отказывались
давать ответ при плохом качестве снимков.
ИИ в медицине активно используется и в России. "Появление ИИ
сегодня в медицине нашей страны распространяется с неимоверной скоростью",
- рассказывал в 2025 году глава Минздрава Михаил Мурашко. По его
словам, практически каждый регион использует как минимум 3-4 таких
программных продукта, а количество зарегистрированных медицинских
изделий "растет ежемесячно с огромной скоростью". В ноябре
он сообщал, что Росздравнадзором зарегистрировано уже 48 программ
с технологией ИИ. При этом такие программы уже не являются узкоспециализированными.
Сейчас создаются более широкие модели, которые направлены на анализ
больших данных и использование ИИ в поддержке принятия врачебных
решений.
ИИ хорошо умеет анализировать изображения и видеопоток, поэтому
самое массовое применение в российской медицине получили технологии
интерпретации радиологических изображений: рентгеновских снимков,
компьютерных томографий, фотографий родинок, цифровых ЭКГ, колоноскопий
и эндоУЗИ, рассказывал замминистра здравоохранения Вадим Ваньков.
ИИ применяют почти во всех российских регионах, а с его помощью
ежемесячно обрабатывают больше миллиона изображений.
Как считают эксперты, основная проблема в России - отсутствие четкого
разграничения между сертифицированными медицинскими ИИ-системами
и развлекательными чат-ботами в восприятии самих пользователей.
"Зарубежный опыт показывает те же риски, но там активнее идет
регулирование: Управление по контролю качества пищевых продуктов
и лекарственных средств в США вводит обязательную сертификацию для
ИИ, используемого в диагностике, а в ЕС принят AI Act с отдельными
требованиями для медицинских систем", - рассказывает Ирина
Меженева.
В России регуляторная база только формируется. "Пока нет единых
стандартов для валидации медицинских ИИ-решений, нет обязательной
маркировки систем по уровню доверия, нет ответственности разработчиков
за медицинские рекомендации чат-ботов общего назначения. И пока
этого нет, статистика про 80% неверных диагнозов будет актуальна
и у нас", - продолжает она.
"В РФ основным ограничением внедрения ИИ является недостаточная
интеграция ИИ-решений в существующую медицинскую информационную
инфраструктуру. Кроме того, существует проблема качества и доступности
медданных для обучения алгоритмов", - подчеркивает гендиректор
"КосмосСтар" Павел Пушкарев.
Массивы медицинских данных и методики, на которых обучаются большие
языковые модели (LLM), могут отличаться от региона к региону, говорит
исполнительный директор "1С ПРО Консалтинг" Николай Мокрецов.
"К примеру, зарубежные генеративные нейросети обучались на
данных и методиках своих стран, тогда как в России используется
своя методическая база диагностики и лечения. В связи с этим необходимо
четко понимать, какая именно используется и на каких данных ее обучали",
- поясняет он.
По словам ректора Высшей школы организации и управления здравоохранением
Гузель Улумбековой, модели, которые внедрены в медицинских организациях,
занимаются распознаванием визуальных снимков, отличая норму от патологии,
и они действительно повышают эффективность оказания медпомощи. Основная
сложность, по ее словам, - это потребность в значительных инвестициях
в закупку оборудования, обучение персонала, контроль за развитием
и использованием ИИ-моделей.
Замдиректора ВШГУ Президентской академии Давид Мелик-Гусейнов напоминает,
что значительная часть существующих ИИ-моделей создавалась в так
называемых "лабораторных", относительно контролируемых
условиях. "Реальная клиническая практика значительно сложнее.
Каждый пациент уникален - с точки зрения физиологических, психологических
и других особенностей. Особенно это проявляется, когда у человека
одновременно присутствует несколько заболеваний. Даже для врача
такие ситуации представляют серьезную профессиональную задачу. А
для ИИ это зачастую "серая зона" - область, где недостаточно
данных или опыта применения. Редкие заболевания, нестандартные сочетания
диагнозов, индивидуальные реакции организма - все это может не быть
полноценно отражено в обучающих выборках", - поясняет он.
В России медицинские устройства с ИИ признаются высокорисковыми
(3 класс), если имеют высокий индивидуальный риск и/или высокий
риск для общественного здоровья. Росздравнадзор проводит пострегистрационный
мониторинг безопасности и клинической эффективности медицинских
изделий с ИИ. Кроме того, в России проводится экспериментальный
правовой режим для медицинской деятельности с применением технологий
сбора и обработки сведений о состоянии здоровья и диагнозов граждан",
- напоминает научный сотрудник лаборатории анализа лучших международных
практик Института Гайдара Мария Гирич.
Ольга СОЛОВЬЕВА. Независимая газета, 15 апреля
2026 года