CountVectorizer в Python

Чтобы использовать текстовые данные для прогнозного моделирования, текст необходимо проанализировать, чтобы удалить определенные слова — этот процесс называется токенизацией . Затем эти слова необходимо закодировать как целые числа или значения с плавающей запятой для использования в качестве входных данных в алгоритмах машинного обучения. Этот процесс называется извлечением (или векторизацией) функций .

Scikit-learn CountVectorizer используется для преобразования набора текста документы в вектор количества терминов/токенов. Он также позволяет выполнять предварительную обработку текстовых данных перед созданием векторного представления. Эта функциональность делает его очень гибким модулем представления функций для текста.

Код

В приведенном ниже коде показано, как использовать CountVectorizer в Python.

 from sklearn.feature_extraction.text import CountVectorizer # список текстовых документовtext = ["Джон хороший мальчик. Джон смотрит баскетбол"] векторизатор  = CountVectorizer () # токенизация и построение Dictionary.fit (текст) print (vectorizer.vocabulary _) # кодирование documentvector = vectorizer.transform (текст) # обобщение закодированного vectorprint (vector.shape) print (vector.toarray ()) 


Оцените статью
nanomode.ru
Добавить комментарий