Теоретический минимум по Big Data. Все что нужно знать о больших данных

Notify me when the book’s added

Андрей Алексеевhas quoted3 years ago
Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.
- 1 like
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
Процент верных прогнозов. Простейшая мера точности прогнозирования — это доля достоверно правильных предсказаний. Вернемся к примеру с гастрономическими покупками из табл. 1. Мы можем выразить результаты задачи по предсказанию покупки рыбы в таком утверждении: Наша модель с точностью 90 % предсказывает, будет ли покупатель брать рыбу. Хотя эта метрика не так сложна для понимания, она не дает представления о том, где именно происходят ошибки прогнозирования.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
Одним из способов держать под контролем сложность модели является введение штрафного параметра в процессе регуляризации. Этот новый параметр штрафует модель за сложность, искусственно увеличивая погрешность и этим побуждая алгоритм находить оптимальное соотношение точности со сложностью. Тем самым сохраняя простоту модели, мы можем обеспечить ее масштабируемость.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
На рис. 2, с алгоритм, наоборот, слишком нечувствителен и основные закономерности упустил. Эта проблема известна как недообучение (underfitting).
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
На рис. 2, а алгоритм слишком чувствителен и принимает случайные отклонения данных за закономерности. Эта проблема известна как переобучение (overfitting).
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
Регрессия предполагает выведение линии тренда, а классификация — разделение элементов данных на группы.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
Когда мы предсказываем целые или непрерывные числа, такие как количество фруктов, мы решаем проблему регрессии (рис. 1, а). А когда мы предсказываем бинарное или категориальное значение, например, пойдет ли дождь, мы занимаемся проблемой классификации (рис. 1, b).
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
Лувенский метод — один из способов определения кластеров сети. Он подбирает различные кластерные конфигурации, чтобы: 1) максимизировать число и силу связей между узлами в одном кластере; 2) минимизировать при этом связи между узлами различных кластеров. Степень удовлетворения этим двум условиям известна как модулярность (modularity), и более высокая модулярность — признак более оптимальных кластеров.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Catherinehas quoted3 years ago
Такое исследование включает четыре ключевых шага. Сначала обрабатываются и подготавливаются данные. Потом составляется краткий перечень соответствующих исследованию алгоритмов. Затем для улучшения результатов настраиваются параметры этих алгоритмов. И наконец, строятся модели для выбора лучшей из них.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Андрей Килуновhas quoted3 years ago
Приближение. Если пропущено значение бинарного или категориального типа, его можно заменить самым типичным значением (модой) переменной. А для целочисленных или непрерывных переменных используется медиана. Применение этого метода к табл. 1 позволит нам предположить, что кот приобрел 5 фруктов, поскольку, согласно остальным семи записям, именно таково среднее число покупаемых фруктов
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this