Что такое эвристические, функциональные и E2E-модели в машинном обучении

Структурированные данные — это термин, используемый для любых данных, которые находятся в фиксированном поле в записи или файле, двумя такими примерами являются реляционные базы данных и электронные таблицы. В повседневной жизни структурированные данные также являются наиболее распространенным типом данных, доступных для предприятий, и большинство проблем машинного обучения, которые необходимо решить в финансовой сфере, так или иначе связаны со структурированными данными.

В этой статье мы рассмотрим различные модели машинного обучения, используемые для решения распространенных финансовых проблем, такие как эвристические, функциональные и E2E-модели.

Эта статья взята из книги «Машинное обучение для финансов» издательства Packt Publishing, написанной Яннесом Клаасом. В этой книге исследуются новые достижения в области машинного обучения и показано, как их можно применить в финансовом секторе, включая страхование, транзакции и кредитование.

Давайте на секунду остановимся и поразмышляем над различными видами. моделей, которые мы могли бы построить.

  • Эвристическая модель — это простое «практическое правило», разработанное исключительно людьми. Обычно эвристическая модель основана на экспертном знании проблемы.
  • Модель на основе характеристик в значительной степени полагается на то, что люди изменяют данные для создания новых и значимых функций, которые затем передаются в ( простой) алгоритм машинного обучения. В этом подходе экспертные знания сочетаются с обучением на основе данных.
  • Модель E2E учится исключительно на необработанных данных. Человеческий опыт не используется, и модель узнает все непосредственно из наблюдений.

В нашем случае можно создать эвристическую модель, чтобы пометить все транзакции типом транзакции TRANSFER и сумма более 200 000 долларов США как мошенническая. Преимущество эвристических моделей состоит в том, что их можно быстро разработать и легко реализовать; однако это приносит свои плоды, их производительность зачастую низка, и мошенники могут легко использовать эту систему. Давайте представим, что мы использовали предыдущую эвристическую модель, мошенники, переводящие только 199 999 долларов в рамках мошеннического лимита, избежали обнаружения.

Важной эвристикой в ​​области торговли является импульсная стратегия. Стратегии моментума предполагают пари, что растущая акция будет продолжать расти, и люди будут покупать эту акцию. Хотя эта стратегия кажется слишком простой, чтобы быть какой-либо хорошей, на самом деле это достаточно успешная стратегия, которую сегодня используют многие высокочастотные торговые и количественные точки.

Для создания функций эксперты создают индикаторы, которые может отличить мошеннические транзакции от подлинных. Это часто делается с использованием статистического анализа данных, и по сравнению с моделью на основе эвристики, которую мы предложили ранее, это займет больше времени, но с преимуществом лучших результатов.

На основе проектирования функций. модели — это нечто среднее между данными и людьми, формирующими правила, где человеческие знания и творческие способности используются для создания хороших функций, а данные и машинное обучение используются для создания модели из этих функций..

Модели E2E учатся исключительно на основе собранных данных без использования экспертных знаний. Как обсуждалось ранее, это часто дает гораздо лучшие результаты, но за счет того, что для завершения требуется много времени. У этого метода также есть некоторые дополнительные элементы, которые стоит учесть. Например, сбор большого количества данных, которые потребуются, — дорогостоящая задача, поскольку людям приходится маркировать миллионы записей.

Многие люди в отрасли прямо сейчас считают, что доставка бедных модель часто лучше, чем вообще ничего не поставлять. В конце концов, иметь некоторую защиту от мошенничества лучше, чем просто не иметь его.

Использование эвристического подхода, позволяющего обрабатывать половину всех мошеннических транзакций, лучше, чем отсутствие обнаружения мошенничества вообще. График показывает нам эффективность трех моделей, которые мы представили ранее, по сравнению со временем, затраченным на их реализацию.

Используемые методы и производительность системы во время разработки

Лучший метод — использовать комбинацию всех трех. Если мы развернем эвристическую модель, отвечающую основным требованиям поставленной задачи, то ее можно будет отправить. При использовании этого метода эвристика становится базовой линией, которую должен преодолеть любой другой подход. После развертывания вашей эвристической модели все ваши усилия должны быть направлены на построение модели, основанной на функциях, которая, как только она превзойдет первоначально развернутую эвристическую модель, может быть развернута, пока вы продолжаете совершенствовать модель.

Как мы уже обсуждали ранее, функциональные модели часто обеспечивают довольно приличную производительность при выполнении задач со структурированными данными; это дает компаниям время для выполнения длительной и дорогостоящей задачи по созданию модели E2E, которая может быть отправлена, как только она превзойдет модель, основанную на характеристиках.

В заключение мы объяснили различные типы моделей машинного обучения, а именно — эвристические, функциональные и сквозные модели для решения общих финансовых проблем.

Этот пост является частью книги «Машинное обучение для финансов» издательства Packt Publishing, написанной Яннесом Клаасом. Ознакомьтесь с этой книгой, чтобы узнать больше о том, как эти модели могут быть реализованы в вашем программном обеспечении, поскольку в книге систематически объясняется, как машинное обучение работает со структурированными данными, текстом, изображениями и временными рядами.

Просмотреть все статьи

Оцените статью
nanomode.ru
Добавить комментарий