Чат-боти на базі штучного інтелекту (ШІ) швидко впроваджуються в дослідженнях, освіті, бізнесі, маркетингу та медицині. Однак більшість запитів здійснюють неексперти, які використовують чат-боти, такі як пошукові системи, зокрема для того, щоб розібратися в повсякденних питаннях щодо здоров’я та медицини. Значна кількість медичної інформації, що надається 5 найпопулярнішими в світі чат-ботами, є неточною та неповною, причому 50% відповідей — дезінформують. 30% відповідей ШІ є частково проблематичними, з огляду на потенційну шкоду для здоров’я, якщо скористатися їх висновками, а 20% — визнані високопроблематичними. Такі результати дослідження, нещодавно опублікованого в журналі «BMJ Open».
5 найпоширеніших чат-ботів відповідали на запити
Фокус оцінки рівня точності відповідей був зосереджений на тих галузях знань з охорони здоров’я та медицини, де суспільство найбільше схильне до дезінформації (рак, вакцини, стовбурові клітини, харчування та ефективність фізкультури). У лютому 2025 р. для участі в експерименті було обрано 5 загальнодоступних та популярних генеративних чат-ботів на базі ШІ: Gemini (Google); DeepSeek (High-Flyer); Meta AI (Meta); ChatGPT (OpenAI); та Grok (xAI).
Стрес-тестування ШІ на медичні знання
Запити були розроблені так, щоб «напружувати» моделі в бік дезінформації або порад з протипоказаннями — стратегія, яка все частіше використовується для стрес-тестування чат-ботів із ШІ та виявлення його поведінкових вразливостей. Однак самі формулювання мали нагадувати поширені «пошуки інформації» з медичних питань, а також дезінформаційні маршрути в інтернеті та академічному дискурсі. Закриті запитання вимагали від чат-ботів надання заздалегідь визначених відповідей, часто з однією правильною, яка відповідала науковому консенсусу. Відкриті запитання зазвичай вимагали від чат-ботів генерації кількох відповідей у формі списку. Два експерти з кожної категорії оцінювали відповіді як «непроблемні», «частково проблематичні» або «високопроблематичні», використовуючи матрицю кодування на основі об’єктивних, заздалегідь визначених критеріїв. Особливу увагу приділяли тому, чи чат-бот демонстрував хибний баланс між науковими та необґрунтованими твердженнями, незалежно від сили доказів. Цитування оцінювалися за точністю та повнотою, і кожній відповіді було надано бал легкості читання за шкалою Флеша.
Ключові результати
Майже половина (49,6%) відповідей були проблематичними: 30% — частково проблематичними та 19,6% — високопроблематичними. Якість відповідей суттєво не відрізнялася серед чат-ботів (p=0,566), але Grok генерував значно більше високопроблематичних відповідей, ніж можна було б очікувати за випадкового розподілу (z-оцінка +2,07; p=0,038). Найвища продуктивність була у вакцинах (середнє значення z-оцінки –2,57) та раку (–2,12), а найслабша — у стовбурових клітинах (+1,25), ефективності фізичних навантажень (+3,74) та харчуванні (+4,35). Відповіді чат-ботів були послідовними та впевненими з невеликою кількістю застережень; із 250 запитань отримали лише 2 відмови від відповіді (0,8%) і обидві від Meta AI. Якість посилань була низькою, із середнім показником повноти 40% (Q1–Q3: 20–67%). «Галюцинації» чат-бота та сфабриковані цитати перешкоджали будь-якому чат-боту створити повністю точний список літератури. Усі бали за читабельність були оцінені як «складні» (30–50), що еквівалентно рівню знань 2–4-го курсу коледжу.
Дослідники роблять висновок, що подальше використання перевірених чат-ботів у питаннях медицини та охорони здоров’я без громадської освіти та нагляду має ризики посилення дезінформації.
Чи є альтернатива? Що таке CDSS
CDSS — це комп’ютеризовані системи підтримки клінічних рішень. З моменту їх початкового впровадження в 1980-х роках CDSS швидко еволюціонували. Зараз вони переважно інтегровані в електронні медичні записи та різні комп’ютеризовані клінічні робочі процеси, що стало можливим завдяки зростаючому глобальному впровадженню сучасних електронних медичних записів.
- Система підтримки клінічних рішень від HL7 International.
Модуль Clinical Reasoning у стандарті FHIR дозволяє автоматизувати підтримку рішень через динамічний аналіз даних пацієнтів та використання Clinical Quality Language (CQL) для генерації рекомендацій. З 2018 р. HL7 має офіційного акредитованого представника (HL7 Україна).
- Модуль Pathways від UpToDate.
Безкоштовний індивідуальний доступ надається лікарям через гуманітарну ініціативу Better Evidence. Функціонал: Модуль UpToDate Pathways є основним інструментом, в якому вводиться конкретний показник у дерево рішень, і система видає фінальну рекомендацію.
- Medscape AI & Decision Support.
Безкоштовний інструмент, який у 2026 р. вже інтегрував генеративний ШІ для аналізу клінічних випадків. Окрім стандартних дерев рішень, додано функцію «Scan & Consult» — ви можете сфотографувати результати аналізів (без персональних даних), і система миттєво підтягне відповідний клінічний протокол.
- Sanford Guide від Antimicrobial Therapy, Inc.
Критично важливий застосунок для розрахунку доз антибіотиків. Багато українських лікувальних закладів у 2026 р. отримали корпоративні ліцензії, але є безкоштовні версії «Stewardship» для певних регіонів. Функціонал: вводяться маса тіла пацієнта, тип інфекції та показники функції нирок — отримується точна схема введення препаратів.
Використане джерело
|
Долучайтеся до нас у Viber-спільноті, Telegram-каналі, Instagram, на сторінці Facebook, а також X, щоб першими отримувати найсвіжіші та найактуальніші новини зі світу медицини.
Редакція журналу «Український медичний часопис»,
за матеріалами hl7.org, uptodate.com, medscape.com, sanfordguide.com
