Python NLTK Corpus [13 упражнений с решением]
[ Внизу страницы доступен редактор для написания и выполнения скриптов. ]
В лингвистике корпус (множественное число) или корпус текста — это большой и структурированный набор текстов. В лингвистике корпусов они используются для статистического анализа и проверки гипотез, проверки вхождений или проверки лингвистических правил в пределах определенной языковой территории.
Каждый класс чтения корпуса специализируется на обработке определенного формата корпуса. Кроме того, пакет nltk.corpus автоматически создает набор экземпляров считывателя корпуса, которые можно использовать для доступа к корпусам в пакете данных NLTK.
1. Напишите программу Python NLTK, чтобы перечислить все имена корпуса.
Щелкните меня, чтобы увидеть пример решения
2. Напишите программу Python NLTK, чтобы получить список общих стоп-слов на разных языках в Python .
Щелкните меня, чтобы увидеть пример решения
3. Напишите программу Python NLTK для проверки списка запрещенных слов на разных языках.
Из Википедии:
В вычислениях стоп-слова — это слова, которые отфильтровываются до или после обработки данных естественного языка (текста). Хотя «стоп-слова» обычно относятся к наиболее распространенным словам в языке, не существует единого универсального списка стоп-слов, используемых всеми инструментами обработки естественного языка, и, действительно, не все инструменты даже используют такой список. Некоторые инструменты специально избегают удаления этих стоп-слов для поддержки поиска по фразе.
Любая группа слов может быть выбрана в качестве стоп-слов для данной цели. Для некоторых поисковых систем это одни из самых распространенных коротких служебных слов, например, is, at, which и on. В этом случае стоп-слова могут вызвать проблемы при поиске фраз, которые их включают, особенно в таких именах, как «Кто», «Тот» или «Возьми это». Другие поисковые системы удаляют некоторые из наиболее распространенных слов, включая лексические слова, такие как «хочу», из запроса, чтобы повысить производительность.
Щелкните меня, чтобы увидеть пример решения
4. Напишите программу Python NLTK для удаления стоп-слов из заданного текста.
Щелкните меня, чтобы увидеть пример решения
5. Напишите программу Python NLTK, чтобы исключить некоторые заданные стоп-слова из списка стоп-слов.
Щелкните меня, чтобы увидеть пример решения
6. Напишите программу Python NLTK, чтобы найти определение и примеры данного слова с помощью WordNet.
Из Википедии:
WordNet — это лексическая база данных для английского языка. Он группирует английские слова в наборы синонимов, называемых синонимами, предоставляет короткие определения и примеры использования и записывает ряд отношений между этими наборами синонимов или их членами. Таким образом, WordNet можно рассматривать как комбинацию словаря и тезауруса.. Хотя он доступен для пользователей через веб-браузер, его основное применение — автоматический анализ текста и приложения искусственного интеллекта. База данных и программные инструменты были выпущены под лицензией в стиле BSD и свободно доступны для загрузки с веб-сайта WordNet. Доступны как лексикографические данные (файлы лексикографа), так и компилятор (называемый grind) для создания распределенной базы данных.
Щелкните меня, чтобы увидеть образец решения
7 . Напишите программу Python NLTK для поиска наборов синонимов и антонимов данного слова.
От Winkled,
WordNet — это лексическая база данных для английского языка. Он группирует английские слова в наборы синонимов, называемых синонимами, предоставляет краткие определения и примеры использования и записывает ряд отношений между этими наборами синонимов или их членами.
Щелкните меня, чтобы увидеть образец решения
8. Напишите программу Python NLTK, чтобы получить обзор набора тегов, сведения о конкретном теге в наборе тегов и сведения о нескольких связанных наборах тегов, используя регулярное выражение.
Щелкните меня, чтобы увидеть образец решения
9. Напишите программу Python NLTK для сравнения сходства двух заданных существительных.
Щелкните меня, чтобы см. пример решения
10. Напишите программу Python NLTK для сравнения схожести двух заданных глаголов.
Щелкните меня, чтобы увидеть пример решения
11. Напишите программу Python NLTK, чтобы найти количество мужских и женских имен в корпусе имен. Выведите первые 10 мужских и женских имен.
Примечание: Всего в корпусе имен содержится около 2943 мужских (male.txt) и 5001 женских (female.txt) имен. Он составлен Кантровицем Россом.
Щелкните меня, чтобы увидеть образец решения
12. Напишите программу Python NLTK, чтобы напечатать первые 15 случайных комбинаций, помеченных мужскими и женскими именами из корпуса имен.
Щелкните меня, чтобы увидеть пример решения
13. Напишите программу Python NLTK, чтобы извлечь последнюю букву всех помеченных имен и создать новый массив с последней буквой каждого имени и связанной меткой.
Щелкните меня, чтобы увидеть пример решения.
[Хотите участвовать в упражнениях на Python? Отправьте нам свой код (прикрепленный с файлом .zip) по адресу w3resource [at] yahoo [dot] com. Пожалуйста, избегайте материалов, защищенных авторским правом.]