Что такое модель мешка слов?

Алгоритмы машинного обучения требуют четко определенных входов и выходов фиксированной длины. При моделировании текста его необходимо преобразовать в число или вектор чисел. Единственная проблема с моделированием текста заключается в том, что он беспорядочный по своей природе.

Что такое «мешок слов»?

Модель -слова , или сокращенно BoW, извлекает элементы из текста для моделирования с использованием различных методов (например, алгоритмов машинного обучения). Это простой и гибкий подход, используемый для извлечения текстовых функций из документов.

Пакет слов — это представление текста, которое описывает появление слов в документе. Это требует двух вещей:

  1. Словарь известных слов
  2. Мера присутствия известных слов

Модель называется «мешком» слов, потому что она касается только того, встречаются ли в документе определенные слова.

Пример модели

Давайте создать модель набора слов, используя предложения как документы.

Шаг 1. Сбор данных

Ниже приведен фрагмент первых нескольких строк текста из книги «Повесть о двух городах» Чарльза Диккенса:

  Это были лучшие времена. Это были худшие из времен. Это была эпоха мудрости. Это была эпоха.  глупости.  

В этом примере давайте рассматривать каждую строку как отдельный документ.

Шаг 2: Разработка словаря

Теперь мы можем составить список всех уникальных слов в нашем модельном словаре, игнорируя регистр и пунктуацию:

  «это» «было» «наилучшим»  «Из» «раз» «худший» «возраст» «мудрость» «глупость»  

Среди 24 слов в 4 предложениях есть e 10 уникальных слов.

Шаг 3: Создание секторов документов

Затем мы присваиваем оценку словам в каждом документе. Мы знаем, что наш дизайн словаря состоит из 10 слов, поэтому мы создаем логический вектор фиксированной длины из 10 для каждого документа. Самый простой метод оценки — это пометить слова как логическое значение, 0 для отсутствия и 1 для присутствия.

Используя эту нотацию, следующее предложение,

  «Это были лучшие времена  

можно преобразовать в двоичный вектор.

Оценка документа будет выглядеть так:

  «it» = 1 «was» = 1 «the» = 1 «best»  = 1 «из» = 1 «раз» = 1 «худший» = 0 «возраст» = 0 «мудрость» = 0 «глупость» = 0  

В качестве двоичного вектора это будет выглядеть так:

  [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]  

Остальные три документа будут выглядеть так:

  «это было худшее из времен» = [1, 1, 1, 0, 1, 1, 1, 0  , 0, 0]  
  «это был век мудрости» = [1, 1, 1, 0, 1, 0, 0, 1, 1  , 0]  
  «это был век глупости» = [1, 1, 1, 0, 1, 0, 0, 1, 0, 1  ]  

Этот метод гарантирует, что любой документ смоделирован правильно (без учета фактического порядка слов), чтобы текст можно было лучше использовать для согласования с моделями машинного обучения.

Оцените статью
nanomode.ru
Добавить комментарий