В целом, во многих исследованиях с участием тысяч участников средняя группа может находиться прямо между остальными. Но мы не должны ожидать, что для каждого из небольших экспериментов это будет среднее значение. Мы должны ожидать, что средняя группа будет варьироваться вокруг центральной точки между двумя другими группами, а иногда и далеко отклоняться от этой средней точки. Иногда «средняя» группа может даже набрать больше или меньше баллов, чем другие группы. Маловероятно, чтобы она каждый раз оказывалась точно между двумя другими. Это немного похоже на то, как если бы сто раз подбросить монету и получить ровно пятьдесят орлов, что может произойти чуть менее чем в 8 % случаев. Теперь представьте, что вы повторяете это «исследование» с подбрасыванием монеты дюжину раз и каждый раз получаете ровно пятьдесят орлов. Это происходило бы реже, чем один из четырнадцати триллионов раз.
После того как Голландский национальный совет по научной добросовестности провел расследование нескольких работ Ферстера, его исследование креативности было отозвано. В отчете говорилось: «Разнообразие, обнаруженное в оценках контрольной группы, настолько невероятно мало, что это нельзя объяснить небрежностью или сомнительной исследовательской практикой». Другими словами, данные были слишком последовательными, чтобы стать результатом плохого ведения учета, предвзятого анализа данных или исключения тех, которые не выявляли закономерности. В то время Ферстер получил грант на исследования в размере 5 миллионов евро и был близок к тому, чтобы занять должность в Рурском университете в Германии, но вместо этого он покинул академические круги и занялся частной практикой «позитивной психологии» [33].
ПОТЕРЯ РАВНОВЕСИЯ
Чрезмерный уровень согласованности привел к расследованию неправомерных действий в исследованиях с гораздо более высокими ставками, чем тонкое влияние процессов восприятия на креативность. Например, японский исследователь в сфере биомедицины Есихиро Сато сфабриковал данные для десятков клинических испытаний переломов костей. Он постоянно сообщал о значительных преимуществах почти каждого лечения, которое он пробовал. Но это была еще одна форма подозрительной согласованности, которая давала наиболее убедительные доказательства проблем в работе Сато.
Просматривая материалы для статьи, которую она писала, специалист по питанию Элисон Эвенелл заметила нечто странное в двух работах Сато: исследуемая и контрольная группы имели почти одинаковые средние баллы по многим показателям, собранным до начала испытаний. Клинические исследования, подобные тем, которые якобы проводил Сато, случайным образом распределяют людей в группу лечения или контрольную группу. Подобное распределение предназначено для того, чтобы гарантировать, что люди в одной группе сопоставимы с людьми в другой по всем аспектам, которые непосредственно не затрагиваются в исследовании. Или, точнее, случайное распределение гарантирует отсутствие систематической предвзятости в том, кто в какую группу попадает [34].
Представьте, что мы набираем команды для баскетбольного матча; давайте назовем их «Красные» и «Синие». Было бы несправедливо относить всех спортсменов к красной команде, а всех ботаников – к синей. Это было бы систематическим предубеждением. Если бы вместо этого мы подбросили монетку, чтобы назначить каждого человека в команду, то каждый ботаник и каждый спортсмен с равной вероятностью оказались бы в той или иной команде. Одна команда все-таки может оказаться лучше, но это преимущество будет обусловлено случайностью, а не предвзятостью. Подбрасывание монеты не отдает систематического предпочтения одной стороне перед другой. Если бы мы использовали подбрасывание монет для формирования команд каждый раз, когда мы распределяем игроков, то ожидалось бы, что в средней «Красной» и средней «Синей» будет равное количество ботаников и спортсменов. Процесс был бы абсолютно справедливым, но в любой конкретной игре у «красных» может оказаться на несколько хороших игроков больше, чем у «синих» (или наоборот).
Случайное распределение в клинических испытаниях работает таким же образом. Каждый человек с равной вероятностью попадет в группу лечения или контроля, поэтому существуют индивидуальные различия в таких факторах, как образование, возраст или, что более важно, тяжесть заболевания, поведение в отношении здоровья и другие предикторы того, насколько хорошо человек может отреагировать на лечение (включая те, которые не были или не могли быть измерены). То есть не будет систематической предвзятости в пользу группы лечения или контрольной группы.
Но в любом конкретном исследовании случайное распределение не гарантирует, что данные группы будут выглядеть абсолютно одинаково во всех отношениях, скорее наоборот.
Если вы измерите достаточное количество параметров в эксперименте, то группы лечения и контроля обязательно будут отличаться по некоторым из них, прежде чем кто-либо начнет получать лекарство, плацебо или что-либо еще. Если это небольшое исследование, то некоторые из этих базовых различий могут быть значительными. Например, если большинству участников было за тридцать, а одному – за шестьдесят, то, куда бы он ни попал, средний возраст будет выше. Если бы вы повторяли опыт бесконечное число раз, человек старше шестидесяти с равной вероятностью был бы отнесен к получавшей лечение или контрольной группе, так что средний возраст двух групп был бы равен. Но в краткосрочной перспективе рандомизация не «выравнивает ситуацию» [35].
По иронии судьбы ученые по-прежнему предпочитают не обнаруживать исходных различий, потому что они могут усложнить интерпретацию любых последствий вмешательства в этом исследовании. Например, лечение могло бы не пройти надлежащую проверку, если бы группа, получившая его, начала болеть хуже, чем группа, которая лечения не получала. Вот почему недобросовестные исследователи, стремящиеся получить убедительные результаты, иногда заходят слишком далеко, пытаясь устранить исходные различия. Но когда группы слишком похожи по всем параметрам, это предупреждающий знак о том, что что-то не так. И именно этот момент выявил неправомерное поведение Сато: во многих его исследованиях слишком многие исходные различия были слишком близки к нулю.
Элисон Эвенелл объединилась с Марком Болландом, Грегом Гэмблом и Эндрю Греем, чтобы собрать 513 переменных из 32 клинических исследований, опубликованных Сато и его коллегами. Если бы Сато случайным образом распределял людей по состояниям, мы должны были бы ожидать ряда различий между группами лечения и контрольной группой. Но точно так же, как годовые различия в доходах Мэдоффа были слишком стабильно малы, слишком многие базовые различия Сато были неправдоподобно близки к нулю, чтобы их можно было объяснить случайностью [36].
Этот подход – сравнение структуры исходных различий, наблюдаемых в исследовании или группе исследований, с тем, что должно было произойти, если бы было настоящее случайное распределение, – первоначально был разработан британским аналитиком по имени Джон Карлайл. Он применил его к более чем 5000 рандомизированным контролируемым испытаниям по анестезии, 72 из которых уже были отменены из-за манипуляций с данными или мошенничества. Из этих отозванных работ у 43, т. е. 60 %, была та же проблема, что и у Сато: слишком много неизменно небольших различий