Quotes by Марк Феверолф

Анастасия Мещеряковаhas quoted2 years ago
производительность модели оценивается, чтобы узнать, насколько хорошо она работает с новыми данными.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
чем большая гибкость закладывается в модель, тем лучше она отслеживает закономерности (как в сигнале, так и в шуме) в тренировочных данных. Но модели с минимальным размером окна изрядно переобучены и отслеживают малейшую флуктуацию в данных обучающей выборки. С неизвестными данными точность предсказаний такой модели будет крайне низкой, так как шум в новых данных будет выглядеть не так, как шум в обучающей выборке.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
не используйте обучающую выборку дважды
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
Использование тренировочного набора данных как для обучения модели, так и для ее оценки дает излишне оптимистичные представления об эффективности прогнозирования. В результате зачастую выбирается неоптимальная модель, плохо работающая с новыми данными.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
ошибка прогнозирования на обучающей выборке не дает представления о точности работы с ранее неизвестными данными.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
контролем, или перекрестной проверкой (CV — cross-validation). Она позволяет строго оценить
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
обучающей выборке точность работы с новыми данными.

Существуют два способа скользящего контроля: метод отложенных данных и контроль по k-блокам.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
Проще всего этого избежать, разделив тренировочные данные на два подмножества. Первое используется для обучения модели, а на втором проверяется точность ее работы.

Такой подход называют методом отложенных данных (holdout method), так как из обучающей выборки случайным образом изымается некоторая часть. Обычно для тестирования оставляется 20–40% данных.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
контроль по k-блокам в процессе обучения модели реализуется путем выделения некоего подмножества тестовых данных. Основное отличие состоит в том, что на этот раз данные случайным образом делятся на k непересекающихся подмножеств (как правило, k равно 5, 10 или 20). Затем модель раз за разом обучается на всем наборе, за исключением данных очередного подмножества, которые в свою очередь используются для генерации последующих предсказаний.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
площади под ROC-кривой (AUC — area under curve). Чем больше площадь, тем выше производительность классификатора. Параметр AUC широко применяется для оценки и сравнения моделей, хотя в большинстве случаев важно рассмотреть и ROC-кривую, чтобы получить представление о компромиссах производительности. В
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this