Формат современной журнальной публикации по результатам клинического исследования. Часть 4. Биостатистика

В предыдущих трех частях этой серии публикаций обозначена сущность проблемной ситуации (Воробьев К.П., 2007), кратко описаны международные рекомендации по подготовке биомедицинских журнальных публикаций (ЖП) (Воробьев К.П., 2008а) и представлены общие данные о дизайне клинического исследования (КИ) как наиболее важной и сравнительно новой методологической проблеме в клинической науке (Воробьев К.П., 2008б). При планировании КИ исследователь должен предусмотреть и минимизировать два типа ошибок: систематические и случайные. Качественный дизайн КИ обеспечивает снижение вероятности появления систематических ошибок, а минимизация случайных ошибок обеспечивается применением методов статистического анализа, которые адекватны клиническому материалу и целям исследования. По мере использования вычислений в КИ методы статистического анализа приобрели определенную специфичность и поэтому обычно совокупность этих методов называют биостатистикой.

В последние десятилетия методы биостатистики активно обсуждаются во всем мире. Это связано с повышением сложности применяемых вычислительных подходов в КИ и с появлением новых программных средств для реализации вычислений. Как исследователю, так и врачу требуется все больше специализированных биостатистических знаний для качественного представления результатов КИ и для понимания нового эпидемиологического языка вероятности клинических явлений при чтении публикаций. В странах постсоветского пространства сложились особые традиции использования статистики в биомедицинских исследованиях, история которых увлекательно описана в статье профессионального статистика В.П. Леонова «Долгое прощание с лысенковщиной» (http://www.biometrica.tomsk.ru/lis.htm). В то время как в развитых странах формировались и развивались традиции качественного использования биостатистики, в странах постсоветского пространства в среде клиницистов сформировалось пренебрежительное отношение к роли вычислительных методов в медицине. В России в последние годы появилось критическое число специалистов в биостатистике, что позволяет коллективно обсуждать проблему. Опыт российских коллег полезен и поучителен для нашей страны, поскольку в Украине эти вопросы фактически не обсуждаются.

Цель исследования — провести системный анализ проблем качественного использования методов биостатистики в клинической ЖП и представить наиболее грубые типовые ошибки статистического анализа в КИ.

СУЩНОСТЬ ПРОБЛЕМНОЙ СИТУАЦИИ

Тема качества представления статистического материала в ЖП является все более актуальной в клиническом научном сообществе по нескольким причинам. С одной стороны, происходит лавинообразное увеличение потоков информации в медицинской отрасли, с другой — в последние два десятилетия существенно изменись взгляды на теорию КИ в связи с развитием эпидемиологических методов при изучении заболеваний (Флетчер Р. и соавт., 1998). В свою очередь современные эпидемиологические методы основаны исключительно на анализе числовой информации. Параллельно с развитием методологии КИ происходит еще более стремительное развитие информационных технологий, а значит, и вычислительных возможностей современных инструментов статистического анализа. В результате таких стремительных перемен, при возрастающей специализации наук и доминировании так называемого мозаичного образования в современном научном сообществе исследователь зачастую не в состоянии понять и освоить новые инструменты вычислительного анализа. Кроме этого, инертность человеческих привычек на фоне возрастающей геронтологизации правящей научной элиты в странах постсоветского пространства, при отсутствии обратных связей в системе оценки рейтинга ученого — все это создает крайне неблагоприятные условия для развития методологии КИ.

Представим анализ общих проблем качественного использования биостатистики в ЖП на основе российских исследований, поскольку в Украине эта тема даже не обсуждается. Интересный материал по данной теме опубликован в «Международном журнале медицинской практики» (№ 2, 2006). Это издание представляет анализ проблемной ситуации в области биостатистики с точки зрения ведущих специалистов России. Затем в одном из следующих номеров журнала (№ 1, 2007) публично обсуждается открытое письмо одного из российских специалистов по биостатистике.

В статье С.Л. Плавинского (Санкт- Петербургская медицинская академия последипломного образования) на основе анализа применения биостатистики в ЖП высмеивается отношение подавляющей части врачей-исследователей к использованию различных статистических методов. Это отношение зачастую напоминает религиозные обряды, в которых шаблонный подход и вера в непогрешимость непонятных для исследователя знаков и символов заменяет понимание основ статистики и осознанный выбор статистических методов в соответствии с задачами исследования. Автор считает неверным полностью перепоручать эту важную часть методологии КИ специалистам- статистикам (Плавинский С.Л., 2006).

В следующей публикации А.Н. Вараксин из Лаборатории промышленного моделирования Института промышленной экологии Уральского отделения РАН на основе опыта взаимодействия с исследователями- медиками констатирует, что практически никто из медиков не понимает смысл используемых статистических методов и выходных параметров, повсеместно используются определенные шаблоны неверных подходов к анализу данных и статистических формулировок. Автор считает, что необходима совместная работа врача-исследователя и специалиста по статистике. Суть отношения автора к проблеме заключается в том, что «…мы не отрицаем, что биологи и медики в некоторых случаях могут построить правильную математическую модель. Истина же заключается в том, что сам биолог или медик не знают, какая из построенных ими моделей является адекватной» (Вараксин А.Н., 2006, с. 36). Поэтому, по мнению автора, если в начале исследования сотрудничество со статистиком является желательным, то в конце — обязательным.

Следующий эксперт из Санкт- Петербургской медицинской академии последипломного образования на основе анализа результатов общения с аспирантами выделяет три группы молодых ученых, каждая из которых предполагает следующие подходы в решении будущих проблем со статистической обработкой их диссертационного материала. Наиболее многочисленная группа возлагает надежны на своих маститых руководителей, которые имеют «достаточно хорошо апробированные шаблоны такого оформления», вторая группа ориентирована на специалистов, которые оказывают услуги по обработке результатов, третья группа — это те, кто уже хорошо владеет информационными технологиями, но переоценивают свои возможности, возлагая все надежды на современные статистические программы и пренебрегая теорией статистики (Дюк В.А., 2006).

В следующей публикации три преподавателя биостатистики из разных учреждений Санкт-Петербурга заявляют, что «…в отечественных медицинских исследованиях очень часто наблюдается либо игнорирование современных возможностей статистических методов либо их неграмотное использование» (Барт А.Г. и соавт., 2006, с. 39). Они также акцентируют внимание, что и практикующий врач должен понимать современный статистический язык и знать методологию современной медицины. В ином случае врач не сможет эффективно пополнять свои знания при чтении современных ЖП. Авторы этой публикации представили пример того, каким путем улучшить положение дел в использовании биостатистики: ими был проведен формальный анализ качества использования биостатистики в авторефератах диссертаций, что послужило основанием для введения в Санкт- Петербургском государственном медицинском университете им. И.П. Павлова обязательного теоретического курса основ биомедицинской статистики. В этом вопросе авторы публикации ссылаются на опыт развитых стран: практически во всех медицинских университетах Европы и Америки есть либо кафедры, либо отделы биостатистики. Обычно эти подразделения находятся в составе кафедры эпидемиологии, сотрудники которых читают для студентов и аспирантов медицинских специальностей многоуровневые курсы, а также ведут подготовку по специальности «биостатистика». В резюме данной публикации констатируется, что «В настоящее время уровень статистического образования российских медиков крайне низок» (Барт А.Г. и соавт., 2006, с. 41).

Среди этих публикаций, с нашей точки зрения, особого внимания заслуживает мнение известного в России специалиста по биостатистике, главного редактора сайта «Биометрика» (http://www.biometrica.tomsk.ru), кандидата. технических. наук, доцента Томского государственного университета В.П. Леонова. Уже многие годы Василий Петрович ведет активную аналитическую и экспертную работу по изучению состояния использования методов биостатистики в биомедицинских исследованиях, проводит регулярные выездные курсы обучения. Ему принадлежат множество публикаций на эту тему и открытые обращения к чиновникам от медицинской науки. На сайте «Биометрика» собрана обширная библиотека книг и аналитических публикаций, в разделе «Кунсткамера» проводится открытый анализ использования биостатистики в диссертационных исследованиях и ЖП. В тематическом выпуске вышеуказанного журнала В.П. Леонов показывает исторические корни существующей проблемы использования биостатистики в советской клинической науке и почему современная клиническая элита блокирует освоение и внедрение современных международных принципов представления статистического материала в отчетах КИ, ЖП и диссертациях. Выделяются также такие значимые факторы, как снижение обучаемости и студентов и сложившихся специалистов, информационный нигилизм медиков, раздвоение интересов ученого и медицинского чиновника. Все эти факторы препятствуют освоению современной методологии КИ и качественному представлению статистического материала в ЖП. В плане обсуждения альтернативных путей дальнейшего развития В.П. Леонов утверждает: необходимо повсеместно в крупных университетах создавать биостатистические лаборатории; основная надежда возлагается не на подготовку врачей-исследователей в области биостатистики, а на обучение математиков основам медицинских знаний и эпидемиологии; основная проблема состоит не в улучшении преподавания статистики, а в обеспечении качественного обязательного рецензирования ЖП в редакциях медицинских журналов и диссертаций в спецсоветах. Обращается внимание на многолетние традиции биостатистических лабораторий в развитых странах и на острую потребность в организации издания отечественного журнала по проблемам биостатистики (Леонов В.П., 2006).

В другом номере указанного журнала обсуждается открытое письмо О.Ю. Ребровой, руководителя лаборатории медицинской информатики ГУ Научного центра неврологии РАМН (ранее НИИ неврологии). В этом письме, помимо обсуждения проблем подготовки специалистов, акцентируется внимание на главных причинах низкого качества использования биостатистики в отечественных публикациях. В письме заявляется, что основная проблема состоит в том, что руководители научных учреждений «не заинтересованы в высоком качестве научно- исследовательских работ, поскольку результаты таких работ зачастую входят в противоречие с аттестационной или административной политикой директоратов, а иногда — и с финансовой политикой». То есть речь идет о системной проблеме в российской науке (Реброва О.Ю., 2007).

В ответах на это письмо в основном обсуждается вопрос: «из какой среды специалистов готовить биостатистиков, из врачей или из математиков?». Обращает внимание заметка В.П. Леонова, где автор еще раз указывает истинные причины, по которым правящая научная элита всячески препятствует и будет препятствовать внедрению системы независимого рецензирования научных публикаций. До тех пор, пока нет независимой и прозрачной системы оценки качества ЖП и диссертаций, в научном сообществе будет отсутствовать спрос на специалистов по биостатистике. По мнению эксперта, «одним из способов решения этой проблемы, является систематическое информирование научной общественности и государственных органов, в первую очередь ВАК РФ, РАМН, министерств здравоохранения и образования об истинном положении дел в данной области» (Леонов В.П., 2007). То есть предлагается вести систематическую организованную информационную работу среди широкой научной общественности, в частности на страницах популярного «Международного журнала медицинской практики», силами вновь созданного Общественного экспертного совета «Статистика в медицине и биологии».

Принципиально важна идея о том, что именно общественная организация профессионалов будет проводить независимое статистическое рецензирование. Это означает, что в России в условиях повышения прозрачности процесса академической аттестации, когда авторефераты защищаемых диссертаций становятся доступны любому пользователю сети Интернет (постановление правительства Российской Федерации № 277 от 20.04.2006 г., http://www.biometrica.tomsk.ru/vak_4) у диссертантов появляется устойчивая мотивация обеспечить в своем научном труде качественное представление статистического материала. В противном случае независимый отзыв специалиста, направленный в спецсовет, может изменить судьбу соискателя.

Таким образом, в России воплощаются предсказания известного футуролога Э. Тоффлера, который в своих моделях показал, как в постиндустриальном обществе «третьей волны» свободные потоки информации и знания выбивают почву из-под ног всякого рода бюрократии и изменяют структуру власти — власть переходит к людям знания (Тоффлер Э., 2004). В отличие от России, в украинском научном клиническом сообществе пока нет ни свободных потоков информации, ни критической массы организованных специалистов в области биостатистики, а отсюда вытекает существующая структура власти, в том числе и в науке.

ОБЪЕКТЫ АНАЛИЗА

Как следует из предыдущего раздела, для реализации перемен к лучшему необходим публичный анализ конкретных публикаций, поскольку просто говорить и писать о тяжелом положении в клинической медицине с методами биостатистики — это малопродуктивная деятельность, которую можно сравнить с организацией «бури в стакане». В соответствии с концепцией В.П. Леонова системные улучшения качества статистического анализа могут произойти только в том случае, когда авторы научных работ знают, что их научный продукт может пройти независимую публичную статистическую экспертизу. Теперь в России, после того как все защищаемые докторские диссертации доступны на сайте ВАК Российской Федерации за 3 три месяца до защиты, неизбежно начнется процесс независимого оценивания качества этих работ. Тем более что совершенно логично для этого использовать возможности такой общественной организации, как Общественный экспертный совет «Статистика в медицине и биологии».

Некоторые читатели могут заявить о том, что авторефераты должны лишь отражать основные положения диссертации и не обязаны содержать подробный цифровой материал КИ. Но мы возразим на такие возможные суждения тем, что даже в современном структурированном резюме к ЖП в соответствии с международными стандартами требуется представлять «основные результаты (по возможности, конкретные данные и их статистическую значимость)» (Всемирная ассоциация медицинских редакторов, 2005; www.icmje.org). Учитывая, что автореферат диссертации — это гораздо более содержательный отчет о КИ, можно заключить, что в авторефератах обязательно должны указываться основные «конкретные данные и их статистическая значимость», в том числе и подробное изложение методов статистического анализа. Это означает, что автореферат диссертации является удобным и репрезентативным объектом для оценки качества биостатистического анализа в КИ.

До сих пор публичную независимую экспертизу ЖП и защищенных диссертаций по биомедицинским специальностям вел только В.П. Леонов на сайте «Биометрика» в разделе «Кунсткамера». В этом разделе представлена обширная коллекция российских научных экспонатов, которые в полной мере можно отнести к уродливым явлениям в науке. Следует заметить, что В.П. Леонов в своих аналитических работах фактически не выходит за рамки вопросов биостатистики, в то время как существует еще целый ряд проблемных вопросов в научных публикациях, которые могут быть подвергнуты формальной экспертизе. К этим вопросам, кроме тех, которые обозначены в национальных требованиях ВАК, также относятся: качество дизайна КИ, авторский вклад в научное исследование, конфликт интересов, нарушение биомедицинской этики, грубые методические ошибки при использовании конкретных диагностических технологий, плагиат и другие элементы недобросовестной научной практики.

Наш первый опыт публичной оценки качества конкретных научных работ представлен в публикации 2005 г. на основе анализа материалов крупной международной научной конференции по анестезиологии (Воробьев К.П., 2005б). В 2006 г. в рамках научной конкуренции и с целью анализа качества определенного метода клинической диагностики нами создан сайт «Кунсткамера клинической науки» (http://www.kkn0.narod.ru). На этом сайте представлен анализ материалов двух авторефератов докторских диссертаций по специальности 14.01.30 анестезиология и интенсивная терапия. (Хрипаченко І.А., 2007; Постернак Г.І., 2008). Эти диссертации, в отличие от ЖП, прошли многоуровневую экспертизу в учреждении-исполнителе, специализированном ученом совете и у официальных оппонентов. Поэтому есть основания считать данные авторефераты типичными экземплярами защищаемых в Украине диссертаций высшего академического уровня. Исходя из этого предположения, кроме общих критических замечаний к типичным статистическим ошибкам, мы будем использовать материал этих двух работ, которые обозначены как экспонаты № 1 (http://www.kkn0.narod.ru/P2/H1_Main.html) и № 3 (http://www.kkn0.narod.ru/P4/H3_Main.html, http://www.kkn0.narod.ru/P4/PosterU.pdf).

ТИПОВЫЕ ОШИБКИ БИОСТАТИСТИЧЕСКОГО АНАЛИЗА

Попытка описания известных ошибок статистического анализа в КИ займет многие тома, поскольку, в отличие от единственного верного принципа использования статистического критерия, существует множество самых разнообразных ошибок его применения. Поэтому в рамках подобной аналитической публикации есть только одна возможность — классифицировать типы наиболее очевидных и распространенных ошибок и кратко описать типичные ошибки применения методов биостатистики с использованием примеров.

Под понятием «типовые ошибки» подразумеваются определенные классификационные типы ошибок представления результатов статистического анализа. Понятие «типичные ошибки» рассматривается как ошибки, принадлежащие к определенному классификационному типу. То есть для анализа типичных ошибок вначале следует определить классификацию типов. В данной публикации мы предлагаем рассмотреть ошибки, которые встречаются при:

описании методов статистического анализа;
представлении выборочных характеристик;
сопоставлении двух независимых групп;
проведении множественных сравнений независимых выборок;
анализе связанных выборок;
описании результатов диагностических исследований;
ошибках, связанных с неверной визуализацией результатов статистического анализа.

ЕЩЕ РАЗ О РОЛИ ДИЗАЙНА КИ

Прежде чем переходить к статистическому анализу клинического материала, необходимо убедиться в том, что этот материал адекватно отражает изучаемую популяцию. В предыдущей публикации указано, что основная задача качественного дизайна КИ — это минимизация систематических ошибок (Воробьев К.П., 2008б). Для того чтобы лучше представить понятия «систематическая ошибка», а также цифровые последствия неверного дизайна КИ, мы на основе известных образов создали четыре модели сбора выборочных характеристик для популяции, в которой изучаемый признак встречается в соответствии с нормальным законом распределения (рис. 1).

Четыре модели данных, отобранных в одной популяции при различном дизайне КИ, которым соответствуют различная репрезентативность и разный статистический результат. Синим цветом обозначена гистограмма частоты встречаемости изучаемого признака (вертикальная ось) в зависимости от выраженности проявления этого признака (горизонтальная ось) в изучаемой популяции (генеральной совокупности). А — высокоселективная выборка и низкие систематические ошибки; B — низкоселективная выборка и низкие систематические ошибки; C — высокоселективная выборка, но наличие систематической ошибки; D — низкоселективная выборка и наличие систематической ошибки

Рис. 1. Четыре модели данных, отобранных в одной популяции при различном дизайне КИ, которым соответствуют различная репрезентативность и разный статистический результат. Синим цветом обозначена гистограмма частоты встречаемости изучаемого признака (вертикальная ось) в зависимости от выраженности проявления этого признака (горизонтальная ось) в изучаемой популяции (генеральной совокупности). А — высокоселективная выборка и низкие систематические ошибки; B — низкоселективная выборка и низкие систематические ошибки; C — высокоселективная выборка, но наличие систематической ошибки; D — низкоселективная выборка и наличие систематической ошибки

Первая модель (А) характерна для идеально спланированного дизайна, в котором отсутствуют систематические ошибки и качественно разработаны критерии включения/исключения в/из исследования. Для такой модели также характерен низкий уровень вероятности случайных ошибок, что будет проявляться относительно низкой выборочной дисперсией, а в результате расчета статистических характеристик в этой модели средние значения будут соответствовать средним в популяции.

Вторая модель (B) при всех прочих равных условиях может отличаться от предыдущей более низким качеством отбора больных в исследовании. Это может быть связано с тем, что не производились ограничения отбора больных в исследование по нескольким вмешивающимся факторам, которые в модели (А) были учтены, либо не учтены несколько источников других систематических ошибок, причем эти дополнительные факторы оказывают разнонаправленное действие на измеряемый результат. В этой модели выборочные средние также соответствуют средним популяционным, но из-за более высокой выборочной дисперсии доверие к результатам исследования в этой модели сбора данных будет более низкое.

Моделям C и D при прочих равных условиях соответствуют высокие, но разнонаправленные систематические ошибки. Например, в этих моделях низкая выраженность изучаемого признака (C) могла быть обусловлена включением в исследование людей более молодого возраста, а более выраженные проявления признака в другой модели (D) — включением в исследование людей с наличием определенной вредной привычки (курение). Ни возраст, ни образ жизни не изучались в таком гипотетическом исследовании, но они могли существенно повлиять на результат и дать смещенную оценку по отношению к популяции. То есть эти две модели данных ни при каких условиях не позволяют сделать верные заключения об изучаемых характеристиках популяции. Значит, какой-либо статистический анализ данных, полученных в аналогичных случаях, не имеет никакого смысла.

На основе этой модели представим ситуацию, в которой сопоставляются три по-разному организованных КИ, оценивающие определенный фактор риска в одной и той же популяции. В соответствии с дизайном каждого из этих КИ получены данные, аналогичные моделям C, A и D. Исходя из данных (см. рис. 1) очевидно, что при формальном статистическом сопоставлении этих выборок будет сделан вывод, что эти три группы данных относятся к разным генеральным совокупностям. Это ложное заключение будет статистически безупречно. Данный пример подтверждает известное изречение A.F. Johnson (1985) о том, что «при существенных недостатках в планировании или выполнении исследования не поможет никакой формальный статистический анализ» (цит. по Флетчер Р. и соавт., 1998, с. 230). Таким образом, прежде чем оценивать статистический материал в какой- либо публикации, следует внимательно изучить описание дизайна КИ. По рекомендациям экспертов- эпидемиологов, если в публикации неоднозначно описаны условия формирования изучаемых групп, то такие работы не следует принимать всерьез — они годятся только для мусорной корзины (Гринхальх Т., 2004, с. 50; Власов В.В., 2001, с. 173).

В автореферате экспоната № 1 представлены 118 числовых выборочных характеристик (среднее и стандартное отклонение), в которых коэффициент вариации >30%, что свидетельствует о чрезмерно большом разбросе клинических данных (см. ниже). При таком описании клинического материала существует высокая вероятность систематической ошибки, связанной с дизайном данного КИ.

Недавно (2007) вышла обстоятельная публикация известного эпидемиолога В.В. Власова, в которой представлен анализ причин возникновения систематических ошибок и способы их контроля (Власов В.В., 2007).

ОПИСАНИЕ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА

В этом вопросе обычно ссылаются на международные рекомендации редакторов биомедицинских журналов (Всемирная ассоциация медицинских редакторов, 2005; www.icmje.org). В десятке строк раздела «Статистика» этих рекомендаций выделены главные требования для авторов, но их нельзя признать достаточно полными. Из других известных аналогов наиболее полные и качественные рекомендации по представлению статистического материала предлагает общеизвестное рейтинговое периодическое издание «Nature medicine» (Guide to authors, 2008, p. 5). Эти статистические рекомендации (СР) малоизвестны отечественному исследователю, поэтому мы предлагаем познакомиться с последним обновлением (10.04.2008) СР в нашем переводе.

«Статистические рекомендации

Каждая статья, в которой используются статистические методы, должна указывать наименование статистического теста, количество (n) в каждом статистическом анализе, обоснование выбора определенного теста (включая обсуждение нормальности распределения, если тест предназначен только для нормально распределенных данных), a-уровень для всех тестов, были тесты односторонними или двусторонними и фактические значения «p» для каждого теста (не просто «существенно» или «р<0,05»). Должно быть ясно указано, какой статистический тест использован для получения данного р-значения. В случае коротких сообщений эти сведения должны сообщаться в тексте или отражаться на рисунках и в подписях к ним.

Выборочные данные должны быть представлены в виде описательных статистик, которые должны включать: размеры выборки (n) для каждого набора данных; меры рассеяния, такие как стандартное отклонение или размах. Для малых выборок размах является более приемлемым, чем стандартное отклонение. На графиках должны быть ясно отображены границы ошибок (error bar — «усы») или доверительных интервалов. Авторы обязаны указывать, являются ли числа, следующие за знаком ±, стандартными ошибками среднего (s.e.m.) или стандартным отклонением (s.d.).

Авторы обязаны обосновать применение конкретного критерия и объяснить, согласуются ли анализируемые данные с допущениями для теста. Наиболее распространенными являются следующие три ошибки:

Множественные сравнения. Когда на одном наборе данных производятся множественные сравнения, авторы обязаны указать, как они адаптировали a-уровень для учета ошибки первого типа или необходимо использовать статистические критерии, предназначенные для множественных сравнений (такие как ANOVA, а не серия t-тестов).

Нормальность распределения. Многие статистические критерии требуют, чтобы данные были распределены приближенно нормально; используя эти тесты, авторы должны указать, как они проверили свои данные на нормальность. Если данные не соответствуют условиям применения теста, то должна использоваться непараметрическая альтернатива.

Малый объем выборки. Когда объем выборки мал (<10), то авторы обязаны использовать критерии, пригодные для анализа малых выборок, или же обосноватъ правомерность использования тестов для больших выборок

Контрольный список для минимизации риска статистических ошибок доступен по адресу: http://www.nature.com/nm/authors/submit/Checklist_of_statistical_adequacy.doc».

Для нашего исследования также актуальны следующие рекомендации этого документа из раздела «Подготовка графиков»: графики должны быть на белом фоне, следует избегать рамок, ненужных цветов, декоративных эффектов (таких как трехмерные графики), рисунков с высоким разрешением. Вертикальная ось гистограммы не должна быть усеченной, чтобы преувеличивать незначительные различия».

В текущих клинических публикациях чаще всего вообще не описывают ни смысл выражений типа A±b, ни каким статистическим тестам соответствует уровень значимости «p» (если он указывается). Часто вместо указания граничного уровня a-ошибки и точных значений «p» в публикациях говорится о «достоверности различий» с указанием одной–трех звездочек рядом с сопоставляемыми выборочными характеристиками. В четырех экспозициях «Кунсткамеры» В.П. Леонова (http://www.biometrica.tomsk.ru/kk.htm) можно найти самые удивительные описания методов статистики в журнальных публикациях и диссертациях, но, очевидно, все-таки приз «Кунсткамеры» должен принадлежать нашему отечественному экспонату № 3: в автореферате докторской диссертации в пункте «Методы исследования» (http://www.kkn0.narod.ru/P4/PosterR.pdf, с. 4) заявлено кратко и ёмко «статистические методы». Больше слово статистика и связанные с ними статистические критерии или какие-либо расшифровки цифровых обозначений в автореферате не упоминаются.

ОШИБКИ ПРЕДСТАВЛЕНИЯ ВЫБОРОЧНЫХ ХАРАКТЕРИСТИК

Этот тип ошибок связан с незнанием исследователями наиболее простых правил статистики, а поэтому их можно обозначить как грубые ошибки. Наиболее важным и самодостаточным материалом любого КИ являются выборочные числовые характеристики объектов исследования, к которым чаще всего относятся «меры положения» и «меры рассеяния» (Петри А., Сэбин К., 2003). Эти показатели позволяют оценить центральные тенденции и разброс показателя в изучаемой выборке. Для грамотного специалиста эта информация позволяет вынести собственные суждения о качестве клинического материала. Основная и наиболее распространенная ошибка в текущих публикациях — это представление в публикациях выражений типа A±b, смысл которых часто не раскрывается. Если значение знака «A», как правило, не вызывает особых вопросов, то ±b может обозначать по крайней мере три показателя меры рассеяния: стандартное отклонение, стандартную ошибку среднего и колебания доверительного интервала. Кроме этого, крайне редко авторы рядом с выражениями A±b дают информацию о размере выборки (n), знание которой необходимы для обратного вычисления характеристики меры рассеяния (если ±b является оценкой точности среднего) либо для вычисления точности оценки выборочного среднего (если ±b является характеристикой дисперсии). И только единичные публикации представляют выборочные характеристики с указанием 95% доверительного интервала, тогда как эпидемиологи заявляют, что «Определение доверительных интервалов стало обычным способом представления главных результатов клинических исследований, поскольку такой подход обладает многими преимуществами перед методом проверки гипотез (оценкой р)» (Флетчер Р. и соавт., 1998, с. 246).

Вторая группа проблем связана с описанием в публикациях выборок, не соответствующих нормальному закону распределения. Описание таких выборок с помощью средних и показателей дисперсии не отражает реальных представлений о характере распределения изучаемого признака в выборке. Для этих выборок используют медианно-квартильные характеристики. По крайней мере исследователь при выборе альтернативы должен приближенно оценить распределение данных в экспериментальной выборке. Покажем на специальном примере, к чему может привести игнорирование вышеуказанных правил. Для демонстрации материала публикации мы создали два следующих целочисленных ряда с одинаковыми размерами выборок (n=21).

Ряд 1: 21, 22, 22, 23, 23, 24, 24, 24, 25, 25, 25, 25, 26, 26, 26, 26, 27, 27, 28, 29, 30.

Ряд 2: 20, 20, 20, 20, 20, 20, 21, 21, 21, 21, 21, 21, 21, 21, 21, 33, 34, 34, 36, 37, 42.

При дальнейшем изложении материала мы будем использовать следующие обозначения статистических характеристик:

M — среднее арифметическое;
Mo — мода;
Me — медиана;
SS — дисперсия;
S — стандартное отклонение;
m — стандартная ошибка среднего;
95%M — 95% доверительный интервал рассеяния среднего;
0,5L — нижний квартиль;
0,5U — верхний квартиль;
V — коэффициент вариации;
n — размер выборки.

Замечательным фактом является приблизительное равенство средних этих двух выборок (M1=25,14; M2=25,00), но высокое отличие мер рассеяния (S1=2,31; S2=7,32) связано с различным распределением числовых рядов: первый ряд подчиняется нормальному закону распределения, второй — существенно отличается от нормально распределенных данных (рис. 2).

Рис. 2. Гистограммы распределения изучаемых числовых рядов

Будем считать, что эти два ряда являются случайными выборками из двух генеральных совокупностей. Возможные варианты числового описания выборочных характеристик этих двух рядов данных представлены в следующей таблице (таблица).

При описании первой выборки, которая подчиняется нормальному закону распределения, достаточной информацией будет сообщение о M±S(n). Еще более правильным будет указание среднего значения, верхнего и нижнего 95% доверительных интервалов для генеральной средней, которые рассчитываются как M–1,96•m и M+1,96•m. Обозначение размера выборки (n) в каждом случае описания выборочных характеристик строго рекомендовано известными международными стандартами.

Клиническая информация не всегда распределяется по нормальному закону, более того, как замечают эпидемиологи: «Сходство реальных распределений с кривой нормального распределения в клинической практике, как правило, случайно» (Флетчер Р. и соавт., 1998, с. 49). При распределении данных по закону, отличающемуся от нормального, среднее и доверительные интервалы не дают полного представления о выборке. Поэтому для характеристики второй выборки следует использовать Me и квартильные оценки. Обращаем внимание на тот факт, что медиана, нижний и верхний квартиль для первой выборки фактически соответствуют ее среднему и границам соответствующего 95% доверительного интервала, тогда как медианно-квартильные оценки второй выборки существенно отличаются от ее описания через M (M–1,96•m; M+1,96•m) (см. таблицу.). Этот факт является наглядной демонстрацией необходимости описания неравномерно распределенных данных через медианно-квартильные оценки.

Для выбора способа характеристик числовых рядов (M или Me) может быть полезно отображение гистограммы распределения выборки или результаты формального теста анализа распределения. Например, по данным теста Шапиро — Уилки принять нулевую гипотезу о принадлежности выборок к нормально распределенным данным можно для первой выборки с вероятностью 0,89, для второй — <0,00001. То есть вторую выборку следует описывать и применять к ней тесты как к выборке, отличающейся от нормального закона распределения. Еще одной, но менее приемлемой характеристикой нормальности распределения, является коэффициент вариации V=S/ M•100% (V1=5%; V2=54%). Считается, что «если V<30%, то ряд данных не имеет значительной скошенности», а если V>100%, то это означает, что «данные неоднородны» (Лапач С.Н. и соавт., 2002, с. 94). В другом случае эпидемиолог определяет V как «…безразмерную величину, меньше единицы» (Власов В.В., 2005, с. 113). То есть в нашем случае при столь высоком V2 неверно описывать выборку через средние и характеристики дисперсии.

Взглянем на описание выборочных характеристик в анализируемых авторефератах. В экспонате № 1 автор описывает выборки через характеристики M±S, при этом в 118 случаях описания выборочных средних V>33%. На гистограмме (рис. 3) представлена частота встречаемости V в зависимости от его величины.

Распределение 118 коэффициентов<br /> вариации выборочных характеристик в материале<br /> автореферата (экспонат № 1, включены V >33%)

Рис. 3. Распределение 118 коэффициентов вариации выборочных характеристик в материале автореферата (экспонат № 1, включены V >33%)

В 19 случаях S >M, то есть коэффициент вариации в этих выборках >100%, а в 4 случаях V >200%. Сопоставив наш пример (Ряд № 2, см. рис. 2, V2=53%), читатель может представить, насколько выражена неоднородность выборок в указанном автореферате. При этом следует заметить, что речь идет об основном массиве клинического материала, который отражен в автореферате. В автореферате автор указал на необходимость оценки нормальности распределения выборок, но в тексте автореферата при представлении фактического материала о нормальности распределения не упоминается. Очевидные отклонения распределения от нормального в большинстве случаев требовали разъяснения и иного формата представления мер положения и рассеяния через медианные оценки. Также при описании выборочных характеристик не приводятся рядом со значениями M±S размеры выборок (кроме таблиц), что затрудняет восприятие материала.

Второй автореферат (экспонат №3) является уникальным по форме представления первичного материала: автор вообще не показывает каких-либо выборочных характеристик результатов исследования в абсолютных значениях, а использует долевое представление результатов, например: «Концентрация … возрастала на протяжении первых суток наблюдения на 50,8±4,5%, а в бронхиальном секрете — в 19,7±4,1 раза». Существует понятие доверительный интервал для доли, но такой интервал указывается в виде диапазона из двух цифр с пояснением способа его вычисления и смысла этого диапазона. Вышеуказанный пример представления характеристики доли без указания смысла числовых значений после знака ± по сути изложения является абсурдом, но этот абсурд прошел многоэтапную экспертизу в действующей системе академической аттестации.

СОПОСТАВЛЕНИИ ДВУХ НЕЗАВИСИМЫХ ГРУПП

Этот тип ошибки считается наиболее распространенным. Основная ошибка связана с использованием критерия Стьюдента без проверки условия возможности его применения. Большая часть экземпляров в «Кунсткамере» В.П. Леонова посвящена анализу этой типичной ошибки. Продемонстрируем на наших числовых рядах проблему применимости критерия Стьюдента для двух независимых выборок. При проверке нулевой гипотезы для первого и второго рядов вышепредставленных данных мы получаем p=0,93. То есть согласно этому результату с вероятностью 93% можно утверждать, что средние значения двух исследуемых групп одинаковы и взяты из одной генеральной совокупности. Однако в указанном случае мы нарушаем допустимость использования критерия Стьюдента, поскольку ряд № 2 распределен по закону, который отличается от нормального и между дисперсиями рядов существуют существенные различия (SS2 >SS1, F-критерий Фишера =10,1; p<0,000003). Теперь выполним корректное сопоставление этих выборок при помощи непараметрического теста. По данным теста Манна — Уитни можно только с вероятностью 2,3% утверждать, что средние и медианы сопоставляемых выборок принадлежат одной генеральной совокупности. Этот пример наглядно показывает, какие неверные выводы могут быть сделаны при неправильном использовании критерия Стьюдента.

Сопоставляя способ проверки гипотез при помощи значения «p» и методов доверительных интервалов, эпидемиологи обращают внимание на несомненные преимущества второго способа: «Этот подход стал широко применяться недавно и сейчас предпочитается большинством журналов по причинам, рассмотренным ниже» (Флетчер Р. и соавт., 1998, с. 231). Суть этого метода проста — если доверительные интервалы двух сравниваемых выборок не перекрываются, тогда различия считаются установленными в соответствии с уровнем доверительного интервала. Если посмотреть на данные таблицы, то становится очевидным, что доверительные интервалы рядов № 1 и № 2 перекрываются, но это еще не означает (как показано выше), что данные относятся к одной генеральной совокупности. Доверительные интервалы годятся только для обоснования предположения о различии выборок, а не о их равнозначности.

Аналогичные положения распространяются на интерпретацию величины «p». При сопоставлении двух независимых групп проверяется так называемая нулевая гипотеза, то есть вероятность принадлежности выборок к одной генеральной совокупности — это и есть величина «p». Иногда, если величина «p» больше оговоренного критического значения, некоторые авторы делают вывод о том, что между изучаемыми параметрами нет различий. Это неверное заключение, и вот что по этому поводу пишут специалисты:. «Вывод о том, что между способами вмешательства нет различий, поскольку р превышает некоторый уровень — некорректен; в этой ситуации следует применять показатель р (вероятность b-ошибки)» (Флетчер Р. и соавт., 1998, с. 234). «К сожалению, обоснование выводов принятием нулевой гипотезы — очень распространенная ошибка в медицинских исследованиях» (Власов В.В., 2001, с. 125). «Статистическая мощность представляет собой вероятность выявления статистически значимого различия при условии, что оно действительно существует. Статистически незначимые результаты, полученные в исследовании с малой статистической мощностью, неверно считать отрицательными; они недостаточны: «отсутствие гарантии не есть гарантия отсутствия» (Ланг Т., 2005, с. 28).

Покажем ошибки сопоставления двух независимых групп на примере. В экспонате № 1 на с. 7 автореферата в описании статистических методов говорится, что «непараметрические критерии сравнения использовались для переменных, при оценке которых гипотеза о нормальности распределения отбрасывалась». Но при этом ничего не указывается о втором, более важном условии применения параметрических критериев — проверке равенства дисперсий. Статистические учебники утверждают, что критерий «менее устойчив при неравных дисперсиях», чем при отклонениях от нормальности распределения (Петри А., Сэбин К., 2003, с. 55). То есть проверка равенства дисперсий при использовании критерия Стьюдента является наиболее важным условием его применения.

При анализе этого автореферата в некоторых случаях нам удалось восстановить необходимые данные (n) для сопоставления дисперсий изучаемых выборок: на с. 26 используется критерий Стьюдента, при сравнении двух выборок по формату M (S; n) выборочные характеристики соответствуют 3,28 (2,3; n=45) и 7,7 (3,44; n=75). Отношение дисперсий в этих выборках равно 2,4, что соответствует вероятности равности дисперсий 0,003. То есть дисперсии не равны и критерий Стьюдента в данном случае использовать неуместно. На с. 27, третий абзац, для пары выборок с характеристиками 7,21 (0,09; n=70) и 7,22 (0,07; n=57) вероятность равенства дисперсий составляет 0,026, что также не позволяет использовать критерий Стьюдента. Если бы автор везде при описании выборочных характеристик и их сравнении указывал используемый статистический критерий и размеры выборок, то можно предположить, что были бы выявлены более многочисленные ошибки. То есть неверный формат представления статистических результатов не позволяет сделать однозначной оценки качества большинства статистических результатов в автореферате. В соответствии с общепринятым принципом «презумпции виновности» ученого в представлении научных результатов каждый исследователь обязан давать однозначную и точную интерпретацию своего фактического материала, а иначе его материал не должен приниматься научным сообществом. Иное положение вещей следует отнести к системным проблемам в научном сообществе.

Иногда авторы неверно интерпретируют вычисленный уровень статистической значимости «p». Это чаще касается использования слов «достоверно», вместо «значимо», что свидетельствует о непонимании исследователем сущности проводимого статистического анализа. В экспонате № 1 на с. 26 автореферата автор так интерпретирует достигнутое p-значение: «…пациенты первой выборки характеризовались статистически значимо более высокими значениями… Вероятность безошибочного суждения составила 0,049». То есть автор утверждает, что доверяет своим суждениям только на 4,9%. В другом случае на с. 19, определив статистическую значимость для коэффициента корреляции p<0,05, автор утверждает, что «У умерших коэффициент Пирсона был достоверный в 0,95% доверительном интервале, и равнялся 0,52», при этом сам доверительный интервал не приводится. Очевидно, автор хотел сказать о 95% уверенности в том, что какой-то доверительный интервал (должны быть приведены две цифры, которые обозначают диапазон) правильно отражает вычисленный коэффициент корреляции. В такой ситуации возникают сомнения в понимании соискателем смысла сказанного, так как невозможно говорить о какой-либо «достоверности» при 0,95% доверии к результату вычисления и невозможно оценить интервал по величине одной цифры. В другой фразе на этой же странице автор пишет: «отличия между группами достоверны в 88% доверительном интервале», но при этом никак не определяет этот интервал. Можно предположить, что 88% доверительные интервалы двух сравниваемых выборок не пересекаются. Но для такого утверждения необходимо привести значения этих интервалов, а этого нет в автореферате (данные представлены в формате M±S). Очевидно, для сравниваемых выборок вычислен уровень статистической значимости различий p=0,12 (по результатам необъявленного критерия при коэффициенте вариации выборок 38 и 37%). Если использован адекватный тест, то результат означает, что в 12% случаев сравниваемые генеральные средние будут равны, но это не позволяет утверждать, что в 88% случаев они различны. То есть, судя по тексту автореферата, автор смешивает разные понятия, так как доверительный интервал задается исследователем произвольно, а затем вычисляется и обозначается диапазоном из двух цифр.

МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ НЕЗАВИСИМЫХ ВЫБОРОК

Проблема множественного сравнения независимых групп чаще всего появляется в поисковых исследованиях, когда автор, не выдвигая первоначальной гипотезы, после окончания сбора материала начинает сопоставлять возможные пары наблюдений при помощи критерия Стьюдента. Этой проблеме уделяется достаточно много внимания во всех статистических руководствах, но, тем не менее, авторы до сих пор редко используют в этих случаях дисперсионный анализ (ANOVA). Обратимся к анализу конкретного автореферата (экспонат № 1). На с. 26 автор сопоставляет попарно 3–4 и 3–5 группы и использует для этого критерий Стьюдента. Такое попарное сопоставление требует использования специальных поправок для вычисленных p-значений, то есть выводы соискателя по этим вычислениям неверны.

АНАЛИЗ СВЯЗАННЫХ ВЫБОРОК

В КИ часто используется так называемый анализ данных до–после, например при сопоставлении определенного параметра у одних и тех же больных в разные промежутки времени до и после воздействия изучаемого фактора. Такие группы называют связанными, а данные парными. Использование стандартного критерия Стьюдента для сопоставления связанных групп является грубой ошибкой. Для этих целей используются специальные статистические методы, например критерий Стьюдента для парных сравнений, критерий знаковых рангов Вилкоксона. В случае если сравниваются три и более связанные выборки, используется дисперсионный анализ повторных измерений. Мы уже показывали эту ошибку на материалах международного конгресса анестезиологов и на модели автора одной из работ продемонстрировали, что неверный подход в анализе до–после может существенно исказить истинные результаты исследования (Воробьев К.П., 2005б). В автореферате экспоната № 1 в таблицах на с. 12 и 13 говорится о сопоставлении различий до–после. Не известно, какой статистический метод для этого используется, поскольку в перечне применяемых статистических тестов не указан тест для парных выборок.

ОПИСАНИЕ РЕЗУЛЬТАТОВ ДИАГНОСТИЧЕСКИХ ИССЛЕДОВАНИЙ

Один из наиболее методически сложных статистических подходов используется в современных КИ, которые посвящены изучению методов диагностики. Для таких исследований существует определенный стандарт, который, судя по текущим публикациям и диссертациям, не известен отечественным исследователям. Классический дизайн диагностических исследований предполагает сопоставление референтного метода диагностики (золотого стандарта диагностики) с изучаемым диагностическим параметром у одних и тех же пациентов. Затем специальным образом строится так называемая характеристическая кривая, которая является операционной характеристикой диагностического теста и определяется точка разделения, которая разделяет больных и здоровых. После этого составляется так называемая «четырехпольная таблица» и на основе ее данных вычисляются чувствительность, специфичность и другие числовые характеристики нового диагностического теста. Такой подход позволяет получить определенные статистические характеристики и имеет безусловные преимущества — результаты исследования становятся абсолютно понятными и однозначными. Иные методические подходы в диагностических исследованиях без соответствующего обоснования следует рассматривать как грубую методологическую ошибку. Подробное изложение методологии диагностических исследований изложено в серии публикаций В.В. Власова, в частности в публикации 2006 г. (Власов В.В., 2006б).

ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО АНАЛИЗА

Некачественная визуализация часто имеет задачи манипулирования мнением читателей. В особенности это справедливо по отношению к различным популярным рекламным медицинским изданиям. Поэтому часто ошибки визуализации статистических данных следует рассматривать с точки зрения умышленной ошибки. Пример такого манипулирования мнением читателя приведен в нашей публикации (Воробьев К.П., 2005а).

Для различных статистических методов анализа используются соответствующие приемы визуализации. При представлении выборочных характеристик современным стандартом является так называемый график «ящик с усами», который при нормальном распределении исследуемой выборки может содержать информацию о среднем, стандартной ошибке и 95% доверительных интервалах среднего. При распределении, отличающемся от нормального, такой график должен отражать информацию о значении медианы, квартилях (процентилях) и характеристиках выбросов или о 95% доверительных интервалах. На примере вышеприведенных числовых рядов продемонстрируем преимущества каждого из этих подходов (рис. 4).

Рис. 4. Два альтернативных подхода визуализации сравнительной точечной оценки рядов данных № 1 и № 2

Визуализация выборочных характеристик при помощи графика «ящик с усами», в котором усы представляют 95% доверительный интервал, является современным методическим стандартом при сопоставлении двух нормально распределенных выборок. Если верхняя граница усов одного графика не перекрывает нижней границы другого графика, то такие выборки можно с уверенностью отнести к разным генеральным совокупностям. Также важно отметить, что в отличие от величины «p» границы усов позволяют визуализировать величину разброса признака (например клинического эффекта). Если выборки не соответствуют нормальному закону распределения, тогда медианно-квартильные графики позволяют получить более точные представления об изучаемых рядах данных. Если при использовании на графике средних и 95% доверительного интервала сопоставляется выборка с ассиметричными данными, то скрывается структура изучаемых выборок. Отображение выборочных характеристик этих же числовых рядов при помощи медианно- квартильных оценок позволяет выявить особенности распределения данных в выборках (см. рис. 4).

В автореферате экспоната № 1 на с. 26 диссертант доказывает одну из ключевых закономерностей своего исследования, сопоставляя уровень лактата крови больных с разным прогнозом. В группе выживших больных уровень лактата составлял 4,54±3,52 ммоль/ л (M±S), а в группе умерших — 7,88±3,37 ммоль/л. Коэффициенты вариации в этих случаях составили соответственно 77 и 43%, что указывает на неоднородность и высокую вероятность нарушения нормального распределения этих выборок. Автор не только неверно использовал критерий Стьюдента для сопоставления средних этих выборок (без проверки нормальности распределения), но также применил для этих явно ассиметричных данных графики «ящик с усами», в которых параметрами служили средние и 95% доверительный интервал. Вполне возможно, что данные действительно можно отнести к разным генеральным совокупностям, но медианные оценки и непараметрическая статистика в этом случае позволили бы автору более корректно представить структуру распределения данных в выборках и доказать различия средних и медиан. Читатель может сопоставить вышеуказанные коэффициенты вариации и график медианной оценки ряда № 2 на рис. 4, который имеет выраженную асимметрию при более низкой неоднородности выборки (V2=53%), чем в анализируемом автореферате.

При графическом сопоставлении двух связанных выборок рекомендуется использовать графики, на которых значения изучаемого показателя до–после соединяются прямой линией вдоль оси абсцисс. В случае использования столбчатой диаграммы средних для отображения средних значений до–после могут быть утеряны разнонаправленные тенденции динамики показателей в связанных группах, как это было показано нами на примере в специальной публикации (Воробьев К.П., 2005б).

Правильная визуализация результатов диагностического исследования позволяет по величине площади под характеристической кривой получить прямую оценку эффективности изучаемого диагностического теста.

Следует также сделать несколько замечаний о средствах построения научных графиков и программах, которые для этого могут использоваться. В выступлениях на конференциях и в публикациях очень часто используются красочные, трехмерные, конусообразные и прочие графики, но все эти украшения не несут какой-либо информации о характеристиках разброса и объемах выборок. Такие графики скрывают истинные результаты исследований и могут рассматриваться как средство манипуляции мнением аудитории и читателей. Каждый элемент украшения графика обязан нести, прежде всего, содержательную информацию. Также следует заметить, что популярная программа Excel имеет ограниченные возможности визуализации научной информации и в большинстве случаев не позволяет качественно отобразить результаты современных статистических методов исследований.

ЗАКЛЮЧЕНИЕ

Существует еще бо`льшая группа ошибок применения статистического анализа в ЖП и диссертациях, которые связаны с редко используемыми методами статистического анализа или со сложными статистическими подходами (многофакторный анализ, кластерный анализ, дискриминантный анализ). Также мы не затронули использование статистического анализа для качественных данных. Все эти вопросы подробно излагаются в ряде специальных руководств и анализируются в тематических публикациях специалистов. В рамках данной публикации мы лишь хотели утвердить существование проблемы, которая настойчиво игнорируется нашим научным сообществом, несмотря на достаточный объем доступной информации. В России приходит понимание проблем и видение путей их решения. Вот что по этому поводу пишет главный редактор «Международного журнала медицинской практики» В.В. Власов во вступительном слове к тематическому выпуску, который посвящен обучению статистике: «К сожалению, с годами ситуация не улучшается, несмотря на то что проблема в целом понятна, и ясно, в каком направлении надо двигаться… присвоение ученых степеней происходит, несмотря на несостоятельность статистического анализа, а в научных журналах рецензирование статей происходит силами лиц, знающих о статистике обычно понаслышке». Далее говорится о решении Общества специалистов доказательной медицины: «активизировать работу Общества в направлении критики методологических ошибок медицинских исследований, прежде всего в медицинских диссертациях… для того, чтобы создать необходимое давление на косную систему» (Власов В.В., 2006а).

В данной публикации представлен опыт анализа методологического качества материалов авторефератов двух докторских диссертаций. Результаты этой работы подтверждают существование скрытой проблемы. Причем если в экспонате № 1 диссертант попытался применять разнообразные статистические подходы и совершил ряд ошибок, то в экспонате № 3 диссертант фактически не приводит статистических данных, допускает грубые ошибки при изложении цифрового материала (а ведь это исследование высшего академического уровня!). Исследования, которые претендуют на такой уровень фундаментальности, должны основываться на достоверном и убедительном цифровом материале.

Исходя из опыта российских коллег и предварительных результатов наших исследований диссертации должны стать объектом пристального внимания со стороны АМН Украины, ВАК Украины и независимых экспертных групп, поскольку трудно рассчитывать на эффективность какой-либо критики отдельных ЖП по материалам КИ. Это единственный реальный путь улучшения ситуации в области биостатистики и клинической науки. Вначале для такой работы необходимо законодательно обеспечить свободный доступ к авторефератам в сети Интернет как для защищенных диссертаций, так и за 3 месяца до их защиты. Также следует обеспечить свободный доступ к тексту диссертаций. Исходя из нашего опыта, следует заметить, что во многих учреждениях (Национальная библиотека Украины им. В.И. Вернадского, Днепропетровская государственная медицинская академия) до сих пор действуют «циркуляры» и правила (на основе советских законов), в соответствии с которыми доступ к тексту диссертаций разрешается только по специальному письму, ограничен и затруднен получением всяческих разрешений. Также необоснованно запрещается копировать текст диссертаций, что в целом не позволяет провести качественную независимую экспертизу диссертационного исследования. В этом вопросе давно следует издать соответствующий подзаконный акт на основе национального закона об информации. Второй аспект этой экспертной деятельности связан с созданием общественной организации и экспертных групп, которые смогут обеспечить качественный и независимый аудит текущей научной продукции. Третий аспект решения проблемы связан с необходимостью создания простых рамок корректного представления статистического материала КИ в виде соответствующего статистического стандарта.

Ссылки

1. Барт А.Г., Вербицкая Е.В., Солнцев В.Н. (2006) О состоянии дел и перспективах обучения статистическому анализу медицинских данных. Междунар. журн. мед. практ., 2: 39–42.
2. Вараксин А.Н. (2006) Статистический анализ биологической и медицинской информации: проблемы и решения. Междунар. журн. мед. практ., 2, 35–38.
3. Власов В.В. (2001) Введение в доказательную медицину. Медиа Сфера, Москва, 392 с.
4. Власов В.В. (2005) Эпидемиология. ГЭОТАР-МЕД, Москва, 464 с.
5. Власов В.В. (2006а) Учим и учимся статистике. Междунар. журн. мед. практ., 2: 5.
6. Власов В.В. (2006б) Изучение методов диагностики. Междунар. журн. мед. практ., 4: 7–17.
7. Власов В.В. (2007) Систематические ошибки и вмешивающиеся факторы. Междунар. журн. мед. практ., 3: 18–29.
8. Воробьев К.П. (2005а) Проблемные вопросы представления материалов клинических исследований. Біль, знеболювання і інтенсивна терапія, 2: 71–80 (http://www.vkp.dsip.net/Papers/Nauca_Publ.htm).
9. Воробьев К.П. (2005б) Оценка качества некоторых публикаций Еевропейского съезда анестезиологов 2005 года. Біль, знеболювання і інтенсивна терапія, 4: 2–11 (http://www.vkp.dsip.net/Papers/EBM_Eur2005.html).
10. Воробьев К.П. (2007) Формат современной журнальной публикации по результатам клинического исследования. Ч. 1. Сущность проблемы. Укр. мед. часопис, 6(62): 18–26 (http://www.umj.com.ua/arhiv/62/2165.php; http://www.umj.com.ua/pdf/62/2165.pdf).
11. Воробьев К.П. (2008а) Формат современной журнальной публикации по результатам клинического исследования. Ч. 2. Международные рекомендации. Укр. мед. часопис, 1(63): 58–66 (http://www.umj.com.ua/arhiv/63/2182.php; http://www.umj.com.ua/pdf/63/2182.pdf).
12. Воробьев К.П. (2008б) Формат современной журнальной публикации по результатам клинического исследования. Ч. 3. Дизайн клинического исследования. Укр. мед. часопис, 2(64): 150–160 (http://www.umj.com.ua/arhiv/64/2209.php; http://www.umj.com.ua/pdf/64/2209.pdf).
13. Всемирная ассоциация медицинских редакторов (2005) Рекомендации всемирной ассоциации медицинских редакторов по принципам этики научных публикаций в медицинских журналах. Междунар. журн. мед. практ., 5: 24–30 (http://www.mediasphera.ru/journals/practik/169/2382/).
14. Гринхальх Т. (2004) Основы доказательной медицины. ГЭОТАР-МЕД, Москва, 240 с.
15. Дюк В.А. (2006) Преподавание прикладной статистики в Санкт-Петербургской медицинской академии последипломного образования. Междунар. журн. мед. практ., 2: 30–31.
16. Ланг Т. (2005) Двадцать ошибок статистического анализа, которые Вы сами можете обнаружить в биомедицинских статьях. Междунар. журн. мед. практ., 1: 21–31.
17. Лапач С.Н., Чубенко А.В., Бабич П.Н. (2002) Статистика в науке и бизнесе. МОРИОН, Киев, 640 с.
18. Леонов В.П. (2006) Обучение медиков статистике: попытка системного подхода к проблеме. Междунар. журн. мед. практ., 2: 17–22.
19. Леонов В.П. (2007) Отечественная биостатистика: правильный диагноз — залог успешного лечения. Междунар. журн. мед. практ., 1: 78–80.
20. Петри А., Сэбин К. (2003) Наглядная статистика в медицине (Пер. с англ.). ГОЭТАР-МЕД, Москва, 144 с.
21. Постернак Г.І. (2008) Об’ективізація шкал тяжкості і алгоритмів інтенсивної терапії у дітей з опіковим шоком (експериментально-клінічне дослідження). Автореф. дис. … д-ра мед. наук. Дніпропетровськ, 36 с. (http://www.kkn0.narod.ru/P4/PosterU.pdf).
22. Плавинский С.Л. (2006) О людях и цифрах. Обучение статистике: чему, кого и как учить? Междунар. журн. мед. практ., 2: 9–16.
23. Реброва О.Ю. (2007) Открытое письмо главному редактору «Международного журнала медицинской практики» профессору В.В. Власову. Междунар. журн. мед. практ., 1: 71–72.
24. Тоффлер Э. (2004) Метаморфозы власти (Пер. с англ.). ACT, Москва, 670с.
25. Флетчер Р., Флетчер С., Вагнер Э. (1998) Клиническая эпидемиология: основы доказательной медицины. Медиа Сфера, Москва, 350 с.
26. Хрипаченко I.А. (2006) Нейрогуморальна регуляція та оптимізація її оцінки у хворих на синдром поліорганної недостатності. Автореф. дис. … д-ра мед. наук. Дніпропетровськ, 40 с.
27. Guide to authors (2008) Nat. Med., 10: 1–8 (http://www.nature.com/nm/pdf/gta.pdf).

>Формат сучасної журнальної публікації за результатами клінічного дослідження. Частина 4. Біостатистика

Воробйов Костянтин Петрович

Резюме. Четверта частина серії аналітичних робіт щодо проблем клінічної публікаційної практики, в якій розглядаються питання біостатистики.

Ключові слова:журнальна публікація, статистичний
аналіз, клінічні дослідження, статистична експертиза

>Format of the modern journal publication of the clinical research results. Part 4. Biostatistics

Vorobiov K P

Summary. In the fourth part of the series of analytical works on the publication clinical practice problems biostatistics questions are considered.

Key words: journal publication, statistical analysis, clinical studies, statistical examination