Дэвид Хэнд

  • Dmitry Koltunovhas quoted2 years ago
    Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, — если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.
  • Dmitry Koltunovhas quoted2 years ago
    Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные.
  • Dmitry Koltunovhas quoted2 years ago
    В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы3. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.
  • Dmitry Koltunovhas quoted2 years ago
    Более активная стратегия выяснения причин появления недостающих данных — попытаться собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.
  • Dmitry Koltunovhas quoted2 years ago
    Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем приступить к изучению практических методов работы с темными данными. В следующем разделе мы начнем знакомство с ними с самых простых — и потому не всегда эффективных — методов.
  • Dmitry Koltunovhas quoted2 years ago
    Этот пример также показывает важность использования разных кодов для разных категорий недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам использовать их классификацию.
  • Dmitry Koltunovhas quoted2 years ago
    Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их возникновению на этапе сбора данных.
  • Dmitry Koltunovhas quoted2 years ago
    Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно осуществлять несложные проверки. Например, если речь идет о дате рождения, то для машины не составит труда проверить, является ли она допустимой
  • Dmitry Koltunovhas quoted2 years ago
    Байесовская статистика играет чрезвычайно важную роль — это одна из двух (или по другой версии трех) основных школ статистического анализа
  • Dmitry Koltunovhas quoted2 years ago
    Чтобы решить проблему неизвестных исходов для тех, кто не получил кредиты, в одном банке, с которым я работал, было введено такое понятие как «золотая выборка». Это была выборка людей, которые должны были получить отказ, поскольку не соответствовали критериям банка для получения кредита. Предполагалось, что они несут высокие риски неплатежей и могут обойтись банку очень дорого (отчего и были названы «золотые»), но тем не менее банк одобрял небольшую случайную выборку из их числа ради той информации, которую мог получить, предоставив кредит. Эта стратегия позволила банку усовершенствовать модель выявления тех, кто, вероятно, допустит дефолт, и принимать более верные решения, кому выдавать кредиты.
fb2epub
Drag & drop your files (not more than 5 at once)