10% могут показаться незначительными, но при масштабировании до десятков или сотен тысяч водителей это небольшое изменение привело бы к огромному увеличению страховых взносов. После того как эти результаты появились в журнале Proceedings of the National Academy of Sciences, правительственные учреждения и частные организации начали применять трюк «сначала подпиши», чтобы повысить честность отчетности. Единственная проблема заключалась в том, что часть данных в исследовании была сфабрикована.
Частью указанного эксперимента руководил Дэн Ариэли, профессор Дюкского университета и автор бестселлеров о нечестности, иррациональности и деньгах. Через девять лет после публикации исследования ученые-бихевиористы Джо Симмонс, Лейф Нельсон и Ури Симонсон (вместе с отдельной группой ученых, которые остались анонимными из опасения репрессий) доказали, что данные в статье не могут быть реальными. Например, большинство владельцев автомобилей проезжает от 3000 до 25 000 км в год, и гораздо меньшее число проезжает гораздо больше. Но в предлагаемом наборе данных люди с одинаковой вероятностью сообщали о том, что проехали 15 000 км и даже 80 000 км. После дальнейших поисков Симмонс и его коллеги обнаружили множество дублированных строк, но со случайным числом от 0 до 1000, добавленным для маскировки сходства. Их расследование привело к отзыву статьи, и все пять ее авторов согласились с тем, что исследование основывалось на поддельных данных. Этот случай необычен тем, что все авторы признали данные мошенническими, в то время как личность человека, который фактически совершил подлог, осталась неясной [30].
ЭТО ПОДОЗРИТЕЛЬНО
Достаточно ли статистических аномалий, чтобы доказать мошенничество в исследованиях? В своем собственном аспирантском курсе по исследовательской практике Дэн дает упражнение, основанное на одной из отозванных публикаций Карен Руджеро. Он говорит студентам, что результаты не являются подлинными, и спрашивает их, могут ли они найти в опубликованной статье что-либо, указывающее на мошенничество. Проницательные студенты замечают несколько дублирующихся цифр, которые предположительно получены из разных данных, и то, что некоторые показатели изменчивости более похожи друг на друга, чем мы могли бы ожидать.
Но есть опасность в том, чтобы прочесывать научные данные – или данные любого другого типа, – ожидая найти доказательства обмана. Поскольку практически все реальные доказательства являются «зашумленными», мы почти всегда можем обнаружить зловещие закономерности в достоверных данных.
Политолог Макартан Хамфрис создал веб-сайт «Тест на подозрительность», который умело демонстрирует этот принцип. Он предлагает вам ввести десять случайных чисел от 1 до 100, и, независимо от того, какие числа вы вводите, он находит в них что-то статистически аномальное. Например, мы ввели следующие случайно сгенерированные числа: 71, 51, 90, 88, 65, 48, 87, 18, 57 и 35. Приложение сообщило, что эти цифры «демонстрируют довольно очевидную закономерность». Цифра 8 появляется в последовательности пять раз, в то время как ожидаемое случайное число повторений равно всего двум. Такое повторение может произойти случайно менее чем в 5 % случаев. Мы попробовали еще раз с цифрами 80, 11, 96, 40, 18, 29, 43, 29, 22 и 97. Опять же, наша последовательность была признана необычной, потому что она содержала 5 простых чисел, в то время как в наборе из 10 случайных чисел от 1 до 100 в среднем вы ожидали бы только 2,5 простых числа. Получение 5 простых чисел произойдет менее чем в 8 % случаев. Сайт также проверяет, нет ли слишком большого количества нечетных или четных чисел, чисел меньше 50 или меньше 30, чисел с одной нечетной и одной четной цифрой и так далее. Наборы действительно случайных чисел, особенно если у вас их всего десять, всегда будут иметь некоторые аномалии, если вы посмотрите на них достаточно придирчиво [31].
Точно так же, если вы посмотрите на реальный набор данных с ожиданием подвоха, вы найдете то, что ищете. Неопытные специалисты по анализу данных часто попадают в ловушку, когда заявляют о наличии доказательств мошенничества только на основании необычного шаблона, особенно если они сначала проверяют данные, затем замечают подозрительный паттерн и только потом точно вычисляют, насколько он необычен. Результатом могут быть внешне убедительные, но ложные обвинения в мошенничестве [32].
Одних проблемных цифр редко бывает достаточно для подтверждения фальсификации результатов исследований, особенно потому, что опубликованная научная литература неизбежно содержит множество невинных ошибок.
Тем не менее в таких случаях, как исследование одометра, странности и невероятности могут суммироваться так, что невинных объяснений не останется. Более того, существуют некоторые известные математические свойства реальных данных, которые, если их не хватает, являются убедительными доказательствами неправильных действий, в основном потому, что их трудно подделать.
ЕДИНИЦА НЕ САМОЕ ОДИНОКОЕ ЧИСЛО
Если вы попросите людей сгенерировать случайное число от 1 до 10, непропорционально большое количество выберет 7. Когда психолог и фокусник Джей Олсон и его коллеги Алим Амлани и Рон Ренсинк попросили более 650 человек назвать игральную карту, более половины опрошенных назвали одну из четырех: туз, король или дама червей и туз пик. Если вы попросите людей создать случайные последовательности орлов и решек, они, как правило, будут чередоваться слишком часто и не иметь достаточной длины. Когда люди думают о том, что считается случайным, они вместо этого создают закономерности. Но случайность может иметь свой собственный вид предсказуемости [33].
Когда цифры описывают результаты естественных процессов роста, таких как накопление подписчиков, лайков или просмотров в Интернете, они, как правило, увеличиваются постепенно, причем большие значения встречаются все реже и реже (гораздо больше видео на YouTube имеют 100–200 просмотров, чем 1–2 миллиона, и на большем количестве вечеринок бывает 5-10 гостей, а не 500-1000). Принцип, называемый законом Бенфорда, описывает регулярную закономерность, которая возникает в результате случайности всякий раз, когда значение может расти бесконечно, а диапазон возможных вариантов охватывает по крайней мере несколько порядков величины. Это справедливо в самых разных областях – от объема озер до доходов от продаж и количества подписчиков в социальных сетях.
Мы можем получить интуитивное представление о законе Бенфорда следующим образом: 1 – это всегда первая цифра, с которой мы сталкиваемся, когда переходим к новому порядку величины. Однозначные цифры начинаются с 1, поэтому, если мы что-то подсчитываем, мы сначала будем на 1, а