Машинное обучение

Notify me when the book’s added

Анастасия Мещеряковаhas quoted2 years ago
конечном счете, для обхода этой проблемы из набора данных была попросту удалена вся информация об оплаченных наличными поездках. Изначально поставленная задача изменилась — теперь мы прогнозировали частоту чаевых только для случаев оплаты картой. Отказываться от части информации никогда не хочется. Но предположение о недостаточной достоверности сведений при оплате наличными нашло подтверждение в данных, соответственно мы поняли, что лучше всего использовать только проверяемые сведения и немного поменять формулировку задачи. Разумеется, гарантия корректности остальных записей о чаевых тоже отсутствует, но можно по крайней мере проверить новое распределение сумм
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
А сколько человек из расплачивающихся наличными оставляет чаевые? Все?

На самом деле никто! Мы быстро это поняли. При оплате наличными водитель не регистрирует чаевые должным образом, и они просто не попадают в данные. Рассмотрев ситуацию с точки зрения здравого смысла, мы обнаружили миллионы потенциальных злоупотреблений в системе нью-йоркского такси!
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
Эти методы называются прямым отбором (forward selection) и обратным исключением (backward elimination) соответственно.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
выбор признаков и связанная с этим процессом концепция важности признака (feature importance) помогают увидеть взаимосвязи внутри модели и в использовавшихся для ее построения данных.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
итерационные методы отбора, которые мы сейчас рассмотрим. Они базируются на одном из двух принципов: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество, или же начать со всех доступных признаков и последовательными итерациями исключить самые худшие. Поиск останавливается после того, как добавление или исключение новых признаков перестает влиять на уровень точности,
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
Предположим, мы начали работать с текстом из ста слов. При этом появится множество столбцов с распространенными, но не несущими информации словами, такими как предлоги, частицы, артикли. В теории поиска информации они называются шумовыми, или стоп-словами (stop words), и обычно удаляются из текста перед подсчетом для «мешка слов».
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
более сложными концепциями текстовых признаков мы познакомим вас в следующей главе, пока же упомянем всего один осложняющий фактор — «мешок слов» быстро становится большим и разреженным. Появляется множество признаков, по большей части заполненных нулями, так как вероятность появления конкретных слов в произвольном фрагменте текста стремится к нулю.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
В большинстве случаев «мешок слов» строится для всего набора данных, а затем слова, появляющиеся в тексте чаще всего, превращаются в столбцы. Для остальных слов создается обобщающий столбец, позволяющий оценить полную длину текста.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
Но только такие признаки, как прошедшее с момента последней регулировки станка время и объем производимой продукции, дадут истинное представление о динамических аспектах процесса производства.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this
Анастасия Мещеряковаhas quoted2 years ago
Аналогично тому, как признаки datetime не могут напрямую использоваться моделью, так как не являются ни численными, ни категориальными, нельзя напрямую скормить ML-алгоритму и произвольный текст. Требуется предварительная обработка, приводящая его к одному из двух вышеуказанных типов. Для превращения текста в ML-признаки воспользуемся методом, который называется «мешок слов» (bag of words). В его основе лежит простая идея: мы считаем количество вхождений каждого слова в текст и вставляем в набор данных столбец с соответствующим числом. При этом, как обычно, мы сталкиваемся с усложняющими ситуацию факторами.
- Like
- Comment
- Share
  Facebook
  Twitter
  Copy link
- Report this