Утечка данных в машинном обучении

Утечка данных — это явление, которое происходит, когда ваша модель учится на данных, которые не должны быть частью обучающего набора данных, или данных, которые не были бы доступны в реальном сценарии. Чаще всего это происходит, когда в вашем наборе данных уже есть информация, которую вы пытаетесь предсказать.

Прогнозирование временных рядов

Утечка данных — обычное явление в прогнозировании временных рядов, т. е. когда точки данных следуют в хронологическом порядке.

В зависимости от характера набора данных возможно, что целевая переменная имеет распределение, очень похожее для обоих наборов данных (обучающего и тестового). Однако такой случай может не иметь места в реальных сценариях. Модель может узнать, как вероятность каждой целевой переменной изменяется в зависимости от момента времени. Таким образом, любая функция, включенная в набор данных, которая связана со временем, может быть потенциальной угрозой утечки данных.

Следовательно, первый подход к противодействию утечке данных при прогнозировании временных рядов состоит в том, чтобы удалите все элементы, относящиеся ко времени.

Оцените статью
nanomode.ru
Добавить комментарий