Популярні чат-боти ШІ поширюють медичну дезінформацію? Чи є альтернатива?

21 квітня 2026 о 15:00
259

Чат-боти на базі штучного інтелекту (ШІ) швидко впроваджуються в дослідженнях, освіті, бізнесі, маркетингу та медицині. Однак більшість запитів здійснюють неексперти, які використовують чат-боти, такі як пошукові системи, зокрема для того, щоб розібратися в повсякденних питаннях щодо здоров’я та медицини. Значна кількість медичної інформації, що надається 5 найпопулярнішими в світі чат-ботами, є неточною та неповною, причому 50% відповідей — дезінформують. 30% відповідей ШІ є частково проблематичними, з огляду на потенційну шкоду для здоров’я, якщо скористатися їх висновками, а 20% — визнані високопроблематичними. Такі результати дослідження, нещодавно опублікованого в журналі «BMJ Open».

5 найпоширеніших чат-ботів відповідали на запити

Фокус оцінки рівня точності відповідей був зосереджений на тих галузях знань з охорони здоров’я та медицини, де суспільство найбільше схильне до дезінформації (рак, вакцини, стовбурові клітини, харчування та ефективність фізкультури). У лютому 2025 р. для участі в експерименті було обрано 5 загальнодоступних та популярних генеративних чат-ботів на базі ШІ: Gemini (Google); DeepSeek (High-Flyer); Meta AI (Meta); ChatGPT (OpenAI); та Grok (xAI).

Стрес-тестування ШІ на медичні знання

Запити були розроблені так, щоб «напружувати» моделі в бік дезінформації або порад з протипоказаннями — стратегія, яка все частіше використовується для стрес-тестування чат-ботів із ШІ та виявлення його поведінкових вразливостей. Однак самі формулювання мали нагадувати поширені «пошуки інформації» з медичних питань, а також дезінформаційні маршрути в інтернеті та академічному дискурсі. Закриті запитання вимагали від чат-ботів надання заздалегідь визначених відповідей, часто з однією правильною, яка відповідала науковому консенсусу. Відкриті запитання зазвичай вимагали від чат-ботів генерації кількох відповідей у формі списку. Два експерти з кожної категорії оцінювали відповіді як «непроблемні», «частково проблематичні» або «високопроблематичні», використовуючи матрицю кодування на основі об’єктивних, заздалегідь визначених критеріїв. Особливу увагу приділяли тому, чи чат-бот демонстрував хибний баланс між науковими та необґрунтованими твердженнями, незалежно від сили доказів. Цитування оцінювалися за точністю та повнотою, і кожній відповіді було надано бал легкості читання за шкалою Флеша.

Ключові результати

Майже половина (49,6%) відповідей були проблематичними: 30% — частково проблематичними та 19,6% — високопроблематичними. Якість відповідей суттєво не відрізнялася серед чат-ботів (p=0,566), але Grok генерував значно більше високопроблематичних відповідей, ніж можна було б очікувати за випадкового розподілу (z-оцінка +2,07; p=0,038). Найвища продуктивність була у вакцинах (середнє значення z-оцінки –2,57) та раку (–2,12), а найслабша — у стовбурових клітинах (+1,25), ефективності фізичних навантажень (+3,74) та харчуванні (+4,35). Відповіді чат-ботів були послідовними та впевненими з невеликою кількістю застережень; із 250 запитань отримали лише 2 відмови від відповіді (0,8%) і обидві від Meta AI. Якість посилань була низькою, із середнім показником повноти 40% (Q1–Q3: 20–67%). «Галюцинації» чат-бота та сфабриковані цитати перешкоджали будь-якому чат-боту створити повністю точний список літератури. Усі бали за читабельність були оцінені як «складні» (30–50), що еквівалентно рівню знань 2–4-го курсу коледжу.

Дослідники роблять висновок, що подальше використання перевірених чат-ботів у питаннях медицини та охорони здоров’я без громадської освіти та нагляду має ризики посилення дезінформації.

Чи є альтернатива? Що таке CDSS

CDSS — це комп’ютеризовані системи підтримки клінічних рішень. З моменту їх початкового впровадження в 1980-х роках CDSS швидко еволюціонували. Зараз вони переважно інтегровані в електронні медичні записи та різні комп’ютеризовані клінічні робочі процеси, що стало можливим завдяки зростаючому глобальному впровадженню сучасних електронних медичних записів.

  1. Система підтримки клінічних рішень від HL7 International.

Модуль Clinical Reasoning у стандарті FHIR дозволяє автоматизувати підтримку рішень через динамічний аналіз даних пацієнтів та використання Clinical Quality Language (CQL) для генерації рекомендацій. З 2018 р. HL7 має офіційного акредитованого представника (HL7 Україна).

  1. Модуль Pathways від UpToDate.

Безкоштовний індивідуальний доступ надається лікарям через гуманітарну ініціативу Better Evidence. Функціонал: Модуль UpToDate Pathways є основним інструментом, в якому вводиться конкретний показник у дерево рішень, і система видає фінальну рекомендацію.

  1. Medscape AI & Decision Support.

Безкоштовний інструмент, який у 2026 р. вже інтегрував генеративний ШІ для аналізу клінічних випадків. Окрім стандартних дерев рішень, додано функцію «Scan & Consult» — ви можете сфотографувати результати аналізів (без персональних даних), і система миттєво підтягне відповідний клінічний протокол.

  1. Sanford Guide від Antimicrobial Therapy, Inc.

Критично важливий застосунок для розрахунку доз антибіотиків. Багато українських лікувальних закладів у 2026 р. отримали корпоративні ліцензії, але є безкоштовні версії «Stewardship» для певних регіонів. Функціонал: вводяться маса тіла пацієнта, тип інфекції та показники функції нирок — отримується точна схема введення препаратів.

Використане джерело

  1. Tiller N.B., Marcon A.R., Zenone M. et al. (2026) Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit. BMJ Open, 16: e112695. doi: 10.1136/bmjopen-2025-112695.

Долучайтеся до нас у Viber-спільноті, Telegram-каналі,  Instagram, на сторінці Facebook, а також X, щоб першими отримувати найсвіжіші та найактуальніші новини зі світу медицини.

Редакція журналу «Український медичний часопис»,
за матеріалами hl7.org, uptodate.com, medscape.com, sanfordguide.com