bookmate game

Марк Феверолф

  • Анастасия Мещеряковаhas quoted2 years ago
    Предсказание численных значений мы называем регрессией, а саму модель регрессором.
  • Анастасия Мещеряковаhas quoted2 years ago
    Аналогично логистической регрессии для классификации линейная регрессия считается самым простым и широко используемым алгоритмом для построения регрессионных моделей. Основными его достоинствами являются линейная масштабируемость и высокий уровень интерпретируемости.
  • Анастасия Мещеряковаhas quoted2 years ago
    некоторых наборах данных соотношение между признаками невозможно описать линейной моделью, и алгоритмы, подобные линейной регрессии, не дадут нужной точности предсказаний. Но такие свойства этих алгоритмов, как масштабируемость, могут сместить чашу весов в их пользу, примирив с более низкой точностью. Тем более что нет никаких гарантий, что нелинейный алгоритм даст более точный прогноз, в то время как риск переобучения возрастает. Нелинейную регрессионную модель мы рассмотрим на примере алгоритма «случайный лес».
  • Анастасия Мещеряковаhas quoted2 years ago
    Важнейшие аспекты алгоритмов: «случайный лес»

    Последний алгоритм в этой главе — «случайный лес» (RF — random forest). Это высокоточный нелинейный алгоритм, широко применяемый для решения задач классификации и регрессии.
  • Анастасия Мещеряковаhas quoted2 years ago
    сожалению, верхние уровни дерева решений сильно влияют на ответ, и если новые данные не следуют тому же распределению, что и обучающая выборка, может пострадать способность модели к обобщениям. Именно здесь на помощь приходит модель на базе алгоритма «случайный лес». Построение набора деревьев снижает этот риск. При поиске ответа в случае классификации выбирается большинство голосов, а в случае регрессии — среднее. Благодаря использованию голосов или средних появляется возможность получить полные вероятности, которую дают не все алгоритмы.
  • Анастасия Мещеряковаhas quoted2 years ago
    Модели с машинным обучением можно использовать не только для прогнозов на основе новых данных, но и для лучшего понимания соотношения между входными признаками и результирующей целью. Хорошо подобранная функция f позволяет ответить на серьезные вопросы о связи между имеющимися переменными. Например:

    • какие из входных признаков сильнее всего связаны с целевой переменной?

    • это позитивные или негативные связи?
  • Анастасия Мещеряковаhas quoted2 years ago
    является ли f простым соотношением или это более детализированная и нелинейная функция?
  • Анастасия Мещеряковаhas quoted2 years ago
    Статистическое моделирование — это поиск компромисса между точностью прогнозов и интерпретируемостью модели. Простые модели легко понимаются, но не дают точных предсказаний (особенно в случае сложных взаимосвязей).
  • Анастасия Мещеряковаhas quoted2 years ago
    Но важно понимать, что привлекательность или бесполезность единичного признака ничего не говорит о его эффективности в комбинации с другим или другими признаками.
  • Анастасия Мещеряковаhas quoted2 years ago
    большому счету, именно для этого и нужны алгоритмы с машинным обучением — чтобы обнаруживать сигналы в большем числе измерений, чем может представить человек.
fb2epub
Drag & drop your files (not more than 5 at once)