Дэвид Хэнд

  • Dmitry Koltunovhas quoted2 years ago
    Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их возникновению на этапе сбора данных.
  • Dmitry Koltunovhas quoted2 years ago
    Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно осуществлять несложные проверки. Например, если речь идет о дате рождения, то для машины не составит труда проверить, является ли она допустимой
  • Dmitry Koltunovhas quoted2 years ago
    Дублирование данных может быть использовано в качестве общей стратегии предотвращения ошибок. Оно подразумевает ввод данных или по крайней мере какой-то их части более чем одним способом. Распространенным методом, особенно при проведении клинических испытаний, является система двойного ввода данных, когда значения переносятся (например, из бумажных форм сбора данных в компьютер) двумя людьми независимо.
  • Dmitry Koltunovhas quoted2 years ago
    Так в чем же состоит закон Бенфорда?

    Во-первых, мы должны определить самую значимую цифру числа. Как правило, это первая цифра: наиболее значимой для числа 1965 является цифра 1, а для 6 009 518 432 — цифра 6. В наборе чисел можно ожидать, что наиболее значимые цифры будут встречаться с тем же распределением, что и цифры от 1 до 9. Иначе говоря, вы можете ожидать, что каждая цифра от 1 до 9 будет первой цифрой числа для одной девятой всех чисел набора. Но, что любопытно, во многих полученных наборах чисел цифры от 1 до 9 встречаются в качестве наиболее значимых в разных пропорциях: 1 встречается примерно в 30% случаев, 2 — в 18% и т.д. по убывающей, вплоть до 9, которая служит наиболее значимой цифрой всего для 5% чисел в наборе. Закон Бенфорда посредством точной математической формулы как раз и описывает это распределение.
  • Dmitry Koltunovhas quoted2 years ago
    Байесовская статистика играет чрезвычайно важную роль — это одна из двух (или по другой версии трех) основных школ статистического анализа
  • Dmitry Koltunovhas quoted2 years ago
    Вот почему рекомендуется использовать в пароле буквы в обоих регистрах, а также цифры и специальные символы. Это значительно увеличивает словарь символов и создает намного больше возможных вариантов, которые хакер должен испробовать. 10 возможных цифр и пароль длиной восемь символов создают 108 вариантов, или 100 млн возможных паролей. Тестирование их со скоростью полмиллиона в секунду означает, что пароль может быть взломан максимум за 200 секунд, или три с небольшим минуты. В то же время, используя 10 цифр, 26 букв английского алфавита в обоих регистрах, а также, скажем, 12 специальных символов, вы увеличиваете число возможных паролей длиной восемь символов до 748, что составляет около 9 × 1014. При скорости полмиллиона комбинаций в секунду на их прохождение потребуется около 28,5 млн лет. Можно спокойно вздохнуть!
  • Yuliiahas quotedlast year
    любопытно, во многих полученных наборах чисел цифры от 1 до 9 встречаются в качестве наиболее значимых в разных пропорциях: 1 встречается примерно в 30% случаев, 2 — в 18% и т.д. по убывающей, вплоть до 9, которая служит наиболее значимой цифрой всего для 5% чисел в наборе. Закон Бенфорда

    Цікавий факт

  • Dmitry Koltunovhas quoted2 years ago
    Чтобы найти показатель дисперсии для средних значений, достаточно использовать несложную статистическую теорию. Однако для других описаний и сводок данных это будет куда сложнее, особенно если наши вычисления выходят далеко за рамки простого определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на помощь.

    Если бы мы могли сформировать много выборок (например, как в случае с десятикратным подбрасыванием монеты), проблемы бы не возникло: мы бы просто сделали это, привели нашу модель в соответствие с каждой выборкой и посмотрели бы, насколько различаются результаты. Но, к сожалению, у нас есть только одна выборка.

    Идея Брэда Эфрона заключалась в том, чтобы принять единственную имеющуюся у нас выборку за всю совокупность. Затем, продолжая идею извлечения выборки из совокупности, мы могли бы извлечь подвыборку из нашей выборки (каждая подвыборка должна иметь тот же размер, что и исходная выборка, благодаря многократному включению в нее каждого значения). Фактически точно так же, как мы могли бы извлечь много выборок из генеральной совокупности, мы можем извлечь много подвыборок из одной имеющейся у нас выборки. Принципиальная разница состоит в том, что мы действительно можем сформировать такие подвыборки. К каждой из них можно применить соответствующую модель, например оценить среднее значение, а затем посмотреть, насколько сильно различаются эти значения. Базовая идея состоит в том, чтобы смоделировать взаимосвязь между всей совокупностью и фактической имеющейся выборкой с помощью вычисления отношений между выборкой и подвыборкой. Это как если бы мы создавали искусственные копии выборки, раскрывая большое количество данных, которые до сих пор было скрыто. Понятие «бутстреппинг» означает переход от выборки к подвыборке точно так же, как мы перемещаемся от генеральной совокупности к выборке.
  • Ариаднаhas quoted2 years ago
    Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale — пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его как напиток «приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося неферментированного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт»
fb2epub
Drag & drop your files (not more than 5 at once)