Модели с машинным обучением можно использовать не только для прогнозов на основе новых данных, но и для лучшего понимания соотношения между входными признаками и результирующей целью. Хорошо подобранная функция f позволяет ответить на серьезные вопросы о связи между имеющимися переменными. Например:
• какие из входных признаков сильнее всего связаны с целевой переменной?
• это позитивные или негативные связи?
Анастасия Мещеряковаhas quoted2 years ago
является ли f простым соотношением или это более детализированная и нелинейная функция?
Анастасия Мещеряковаhas quoted2 years ago
Статистическое моделирование — это поиск компромисса между точностью прогнозов и интерпретируемостью модели. Простые модели легко понимаются, но не дают точных предсказаний (особенно в случае сложных взаимосвязей).
Анастасия Мещеряковаhas quoted2 years ago
Но важно понимать, что привлекательность или бесполезность единичного признака ничего не говорит о его эффективности в комбинации с другим или другими признаками.
Анастасия Мещеряковаhas quoted2 years ago
большому счету, именно для этого и нужны алгоритмы с машинным обучением — чтобы обнаруживать сигналы в большем числе измерений, чем может представить человек.
Анастасия Мещеряковаhas quoted2 years ago
Первым мы рассмотрим алгоритм логистической регрессии, считающийся простейшим ML-алгоритмом для задач классификации. Задачу проще рассмотреть, представив, что у нас есть всего два признака, а набор данных делится на два класса.
Анастасия Мещеряковаhas quoted2 years ago
Для построения классификатора нужно найти границу, наилучшим способом разбивающую данные по целевым классам. В двух измерениях такая линия описывается двумя параметрами. Это и есть параметры модели, значение которых нужно определить.
Анастасия Мещеряковаhas quoted2 years ago
Затем алгоритм разбивается на следующие этапы:
• Изначально параметры выбираются случайным образом, то есть на плоскость помещается случайная линия.
• Измерьте, насколько хорошо эта линия разделяет два класса. В логистической регрессии для оценки точности измерений используется статистическое отклонение.
Анастасия Мещеряковаhas quoted2 years ago
Подберите новые значения параметров и измерьте разделительную способность алгоритма.
• Повторяйте, пока не перестанут наблюдаться улучшения. Эта процедура оптимизации осуществляется различными специализированными алгоритмами. Зачастую для этой цели выбирается такой несложный алгоритм, как градиентный спуск.
Анастасия Мещеряковаhas quoted2 years ago
почему логистическую регрессию причисляют к линейным алгоритмам, — решающая граница представляет собой прямую линию.