Марк Феверолф

  • Анастасия Мещеряковаhas quoted2 years ago
    производительность модели оценивается, чтобы узнать, насколько хорошо она работает с новыми данными.
  • Анастасия Мещеряковаhas quoted2 years ago
    чем большая гибкость закладывается в модель, тем лучше она отслеживает закономерности (как в сигнале, так и в шуме) в тренировочных данных. Но модели с минимальным размером окна изрядно переобучены и отслеживают малейшую флуктуацию в данных обучающей выборки. С неизвестными данными точность предсказаний такой модели будет крайне низкой, так как шум в новых данных будет выглядеть не так, как шум в обучающей выборке.
  • Анастасия Мещеряковаhas quoted2 years ago
    не используйте обучающую выборку дважды
  • Анастасия Мещеряковаhas quoted2 years ago
    Использование тренировочного набора данных как для обучения модели, так и для ее оценки дает излишне оптимистичные представления об эффективности прогнозирования. В результате зачастую выбирается неоптимальная модель, плохо работающая с новыми данными.
  • Анастасия Мещеряковаhas quoted2 years ago
    ошибка прогнозирования на обучающей выборке не дает представления о точности работы с ранее неизвестными данными.
  • Анастасия Мещеряковаhas quoted2 years ago
    контролем, или перекрестной проверкой (CV — cross-validation). Она позволяет строго оценить
  • Анастасия Мещеряковаhas quoted2 years ago
    обучающей выборке точность работы с новыми данными.

    Существуют два способа скользящего контроля: метод отложенных данных и контроль по k-блокам.
  • Анастасия Мещеряковаhas quoted2 years ago
    Проще всего этого избежать, разделив тренировочные данные на два подмножества. Первое используется для обучения модели, а на втором проверяется точность ее работы.

    Такой подход называют методом отложенных данных (holdout method), так как из обучающей выборки случайным образом изымается некоторая часть. Обычно для тестирования оставляется 20–40% данных.
  • Анастасия Мещеряковаhas quoted2 years ago
    контроль по k-блокам в процессе обучения модели реализуется путем выделения некоего подмножества тестовых данных. Основное отличие состоит в том, что на этот раз данные случайным образом делятся на k непересекающихся подмножеств (как правило, k равно 5, 10 или 20). Затем модель раз за разом обучается на всем наборе, за исключением данных очередного подмножества, которые в свою очередь используются для генерации последующих предсказаний.
  • Анастасия Мещеряковаhas quoted2 years ago
    площади под ROC-кривой (AUC — area under curve). Чем больше площадь, тем выше производительность классификатора. Параметр AUC широко применяется для оценки и сравнения моделей, хотя в большинстве случаев важно рассмотреть и ROC-кривую, чтобы получить представление о компромиссах производительности. В
fb2epub
Drag & drop your files (not more than 5 at once)