ChatGPT Health уже використовують мільйони людей для розв’язання питання: «Чи потрібно мені звертатися до лікаря негайно?». Але незалежне дослідження 2026 р. показало тривожну тенденцію — система найчастіше помиляється саме в критичних випадках. Чи безпечно довіряти штучному інтелекту (ШІ) рішення про невідкладну допомогу? Показовий випадок «з життя» та деталі дослідження — у матеріалі.
Для початку — свіжий «живий» приклад. Американець звернувся до ChatGPT зі скаргою на біль у литковому м’язі, який вважав простим розтягненням, але бот порадив терміново звернутися до лікаря (www.reddit.com/r/ChatGPT/comments/1r2mooz/this_morning_chatgpt_talked_me_out_of_toughing). Хлопець спочатку вирішив почекати, проте все ж таки виконав рекомендацію.
Рішення виявилося доленосним: обстеження виявило численні тромби, здатні викликати миттєву смерть, потрапивши у легені. Ще доба зволікання могла стати фатальною.
Про дослідження
У лютому 2026 р. в журналі Nature Medicine опубліковано першу незалежну оцінку безпеки інструмента ChatGPT Health, який було запущено у січні 2026 р. як споживчий інструмент медичних порад. Автори дослідження з Icahn School of Medicine at Mount Sinai провели структурований стрес-тест рекомендацій щодо тріажу — тобто визначення терміновості звернення по медичну допомогу. У роботі використано 60 клінічних сценаріїв, розроблених лікарями, що охоплювали 21 клінічну спеціальність. Кожен сценарій тестували у 16 різних контекстах (з урахуванням соціальних факторів, раси, статі, бар’єрів до доступу до допомоги), загалом отримано 960 відповідей системи. Правильний рівень невідкладності визначали три незалежні лікарі відповідно до рекомендацій 56 професійних медичних товариств. Дослідники виявили U-подібний розподіл помилок: найбільше небезпечних рішень фіксувалося на клінічних «краях» — при несерйозних станах і при справжніх невідкладних ситуаціях. Серед випадків, які експерти визначили як невідкладні, система недооцінила терміновість у 52% випадків. Зокрема, пацієнтам із діабетичним кетоацидозом або ознаками наближення дихальної недостатності рекомендували звернутися до лікаря протягом 24–48 год замість негайного виклику швидкої допомоги. Водночас класичні ургентні стани — інсульт або анафілаксія — система розпізнавала коректно. Саме ці розбіжності викликали занепокоєння щодо клінічної безпеки.
Проблеми з кризовими повідомленнями при суїцидальних ризиках
Окрему увагу дослідники приділили активації кризових попереджень, зокрема рекомендацій звернення на лінію 988 Suicide and Crisis Lifeline. Система мала автоматично пропонувати контакти допомоги при високому ризику самогубства. Однак активація цих повідомлень виявилася непослідовною. У частині випадків попередження з’являлися при менш вираженому ризику. Натомість у ситуаціях, коли користувач прямо описував конкретний спосіб самопошкодження, система іноді не активувала кризового втручання. Дослідники охарактеризували це як «інверсію клінічного ризику». Така поведінка суперечить базовим принципам психіатричної оцінки небезпеки. У реальній клінічній практиці деталізація плану самогубства є маркером високої негайної загрози. Непослідовність алгоритму викликає питання щодо алгоритмічної пріоритезації сигналів ризику. Автори наголошують, що подібні системи повинні проходити сувору валідацію перед масовим використанням.
Вплив контексту та когнітивних викривлень
Дослідження також показало, що рекомендації ChatGPT Health змінювалися під впливом соціального контексту. Якщо в сценарії родич або друг мінімізував симптоми пацієнта (ефект «якоріння»), система частіше знижувала рівень терміновості. Статистично це відповідало коефіцієнту шансів (odds ratio) 11,7 (95% довірчий інтервал [3,7–36,6]) для зміщення в приграничних випадках. Більшість таких змін були спрямовані у бік менш термінової допомоги. При цьому раса, стать чи бар’єри до доступу до медичної допомоги не продемонстрували статистично значущого впливу, хоча довірчі інтервали не виключали потенційно клінічно важливих відмінностей. Таким чином, соціальна динаміка може впливати на алгоритмічне рішення. Це підкреслює вразливість ШІ до контекстуальних когнітивних викривлень. У клінічній медицині саме такі «сірі зони» потребують найбільш точного професійного судження. Алгоритмічна невизначеність у цих ситуаціях становить потенційний ризик.
Що це означає для пацієнтів і системи охорони здоров’я
Автори наголошують, що результати не означають повної відмови від використання ШІ-інструментів. Однак вони демонструють необхідність незалежної проспективної валідації перед масштабним впровадженням. Для пацієнтів із симптомами, що погіршуються, болем у грудях, задишкою, порушенням свідомості чи ознаками тяжкої алергічної реакції рекомендується негайне звернення до лікаря незалежно від порад чатбота. У випадках суїцидальних думок слід звертатися до екстрених служб або кризових ліній допомоги. Дослідники планують продовжити оцінку нових версій системи. Оскільки мовні моделі постійно оновлюються, їхня ефективність може змінюватися з часом. Саме тому безперервний науковий аудит повинен стати стандартом. Масове використання ШІ для тріажу підвищує ставки до безпрецедентного рівня. Коли мільйони людей ухвалюють рішення про невідкладну допомогу на основі алгоритму, помилка стає не теоретичною, а системною.
Використана література
|
Долучайтеся до нас у Viber-спільноті, Telegram-каналі, Instagram, на сторінці Facebook, а також Х, щоб першими отримувати найсвіжіші та найактуальніші новини зі світу медицини.
Редакція журналу «Український медичний часопис»,
за матеріалами www.nature.com
