Хенрик Бринк

  • Анастасия Мещеряковаhas quoted2 years ago
    Модели с машинным обучением можно использовать не только для прогнозов на основе новых данных, но и для лучшего понимания соотношения между входными признаками и результирующей целью. Хорошо подобранная функция f позволяет ответить на серьезные вопросы о связи между имеющимися переменными. Например:

    • какие из входных признаков сильнее всего связаны с целевой переменной?

    • это позитивные или негативные связи?
  • Анастасия Мещеряковаhas quoted2 years ago
    является ли f простым соотношением или это более детализированная и нелинейная функция?
  • Анастасия Мещеряковаhas quoted2 years ago
    Статистическое моделирование — это поиск компромисса между точностью прогнозов и интерпретируемостью модели. Простые модели легко понимаются, но не дают точных предсказаний (особенно в случае сложных взаимосвязей).
  • Анастасия Мещеряковаhas quoted2 years ago
    Но важно понимать, что привлекательность или бесполезность единичного признака ничего не говорит о его эффективности в комбинации с другим или другими признаками.
  • Анастасия Мещеряковаhas quoted2 years ago
    большому счету, именно для этого и нужны алгоритмы с машинным обучением — чтобы обнаруживать сигналы в большем числе измерений, чем может представить человек.
  • Анастасия Мещеряковаhas quoted2 years ago
    Первым мы рассмотрим алгоритм логистической регрессии, считающийся простейшим ML-алгоритмом для задач классификации. Задачу проще рассмотреть, представив, что у нас есть всего два признака, а набор данных делится на два класса.
  • Анастасия Мещеряковаhas quoted2 years ago
    Для построения классификатора нужно найти границу, наилучшим способом разбивающую данные по целевым классам. В двух измерениях такая линия описывается двумя параметрами. Это и есть параметры модели, значение которых нужно определить.
  • Анастасия Мещеряковаhas quoted2 years ago
    Затем алгоритм разбивается на следующие этапы:

    • Изначально параметры выбираются случайным образом, то есть на плоскость помещается случайная линия.

    • Измерьте, насколько хорошо эта линия разделяет два класса. В логистической регрессии для оценки точности измерений используется статистическое отклонение.
  • Анастасия Мещеряковаhas quoted2 years ago
    Подберите новые значения параметров и измерьте разделительную способность алгоритма.

    • Повторяйте, пока не перестанут наблюдаться улучшения. Эта процедура оптимизации осуществляется различными специализированными алгоритмами. Зачастую для этой цели выбирается такой несложный алгоритм, как градиентный спуск.
  • Анастасия Мещеряковаhas quoted2 years ago
    почему логистическую регрессию причисляют к линейным алгоритмам, — решающая граница представляет собой прямую линию.
fb2epub
Drag & drop your files (not more than 5 at once)