Python: машинное обучение — упражнения, практика, решения Scikit-learn

Содержание
  1. Машинное обучение Python Набор данных о цветке ириса [38 упражнений с решением] [Внизу страницы доступен редактор для написания и выполнения сценариев.] Scikit-learn — это бесплатная библиотека машинного обучения для языка программирования Python. Он включает различные алгоритмы классификации, регрессии и кластеризации, включая вспомогательные векторные машины, случайные леса, повышение градиента, k-средних и DBSCAN, и предназначен для взаимодействия с числовыми и научными библиотеками Python NumPy и SciPy. Лучший способ узнать что-либо — это практика и упражнения. Мы начали этот раздел для тех (от начального до среднего), кто знаком с Python, Scikit-learn. Надеюсь, эти упражнения помогут вам улучшить свои навыки машинного обучения с помощью Scikit-learn. В настоящее время доступен набор данных, мы прилагаем все усилия, чтобы добавить больше упражнений …. Удачного кодирования! Набор данных о цветках ириса Из Википедии — Набор данных цветков ириса или набор данных Ириса Фишера — это многомерный набор данных, представленный британским статистиком и биологом Рональдом Фишером в его статье 1936 года Использование множественных измерений в таксономических задачах в качестве примера линейного дискриминантного анализа. Его иногда называют набором данных ириса Андерсона, потому что Эдгар Андерсон собрал данные для количественной оценки морфологической изменчивости цветков ириса трех родственных видов. Два из трех видов были собраны на полуострове Гаспе «все с одного пастбища, собраны в один день и измерены в одно и то же время одним и тем же человеком с помощью одного и того же прибора» Набор данных состоит из 50 образцов каждого из трех видов ириса (Iris setosa, Iris virginica и Iris versicolor). Для каждого образца были измерены четыре характеристики: длина и ширина чашелистиков и лепестков в сантиметрах. Основываясь на комбинации этих четырех характеристик, Фишер разработал линейную дискриминантную модель, чтобы отличать виды друг от друга. Базовый — набор данных о цветках ириса [8 упражнений с решением] 1. Напишите программу Python для загрузки данных радужной оболочки из заданного CSV-файла в фрейм данных и печати формы данных, типа данных и первых 3 строк. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 2. Напишите программу Python с использованием Scikit-learn для печати ключей, количества строк-столбцов, имен функций и описания данных Iris. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 3. Напишите программу на Python, чтобы получить количество наблюдений, пропущенные значения и значения nan. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 4. Напишите программу Python для создания двумерного массива с единицами по диагонали и нулями в другом месте. Теперь преобразуйте массив NumPy в разреженную матрицу SciPy в формате CSR.. Перейти в редактор Из википедии: В числовом анализе и научных вычислениях разреженная матрица или разреженный массив — это матрица, в которой большинство элементов равны нулю. Напротив, если большинство элементов отличны от нуля, матрица считается плотной. Количество элементов с нулевым знаком, деленное на общее количество элементов (например, m x n для матрицы m x n), называется разреженностью матрицы (которая равна 1 минус плотность матрицы). Используя эти определения, матрица будет разреженной, если ее разреженность больше 0,5. Щелкните меня, чтобы увидеть пример решения 5. Напишите программу на Python для просмотра основных статистических данных, таких как процентиль, среднее значение, стандартное отклонение и т. д. данных радужной оболочки глаза. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 6. Напишите программу на Python для просмотра основных статистических данных, таких как процентиль, среднее значение, стандартное отклонение и т. д. данных радужной оболочки глаза. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 7. Напишите программу Python для удаления столбца Id из заданного фрейма данных и печати измененной части. Вызовите iris.csv, чтобы создать фрейм данных. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 8. Напишите программу Python для доступа к первым четырем ячейкам из заданного фрейма данных с помощью индекса и меток столбцов. Вызовите iris.csv, чтобы создать фрейм данных. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения Визуализация — набор данных о цветке ириса [19 упражнений с решением] 1. Напишите программу Python для создания графика для получения общей статистики данных по радужке. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 2. Напишите программу на Python, чтобы создать гистограмму, чтобы получить частоту трех видов данных радужной оболочки глаза. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 3. Напишите программу на Python для создания круговой диаграммы, чтобы получить частоту трех видов данных радужной оболочки глаза. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 4. Напишите программу на Python, чтобы создать график, чтобы найти взаимосвязь между длиной и шириной чашелистника. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 5. Напишите программу на Python, чтобы создать график, чтобы найти взаимосвязь между длиной и шириной лепестка. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 6. Напишите программу Python для создания графика, чтобы увидеть, как распределяются длина и ширина SepalLength, SepalWidth, PetalLength, PetalWidth. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 7. Напишите программу на Python, чтобы создать диаграмму соединения для описания отдельных распределений на одном и том же графике между длиной и шириной сепала.. Перейдите в редактор Примечание: диаграмма соединения — нарисуйте график двух переменных с двумерным и одномерным графиками. Щелкните меня, чтобы увидеть пример решения 8. Напишите программу на Python для создания диаграммы соединения, используя «hexbin» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала. Перейдите в редактор Примечание: Двумерный аналог гистограммы известен как «шестнадцатеричный» график, потому что он показывает количество наблюдений, попадающих в шестиугольные интервалы. Этот график лучше всего работает с относительно большими наборами данных. Он доступен через функцию matplotlib plt.hexbin и как стиль в Jointplot (). Лучше всего он выглядит на белом фоне. Щелкните меня, чтобы увидеть образец решения 9. Напишите программу на Python для создания диаграммы соединения с помощью «kde» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала. Перейдите в редактор Примечание: Процедура оценки плотности ядра (kde) визуализирует двумерное распределение. В seaborn этот вид графика отображается с контурным графиком и доступен как стиль в Jointplot (). Щелкните меня, чтобы увидеть образец решения 10. Напишите программу на Python, чтобы создать диаграмму соединения и добавить соответствие регрессии и плотности ядра, используя «reg» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 11. Напишите программу на Python, чтобы нарисовать диаграмму рассеяния, а затем добавьте оценку совместной плотности, чтобы описать отдельные распределения на одном и том же графике между длиной и шириной сепала. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 12. Напишите программу на Python для создания диаграммы соединения, используя «kde» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала, и используйте знак «+» в качестве маркера. Перейдите в редактор Примечание: Процедура оценки плотности ядра (kde) визуализирует двумерное распределение. В seaborn этот вид графика отображается с контурным графиком и доступен как стиль в Jointplot (). Щелкните меня, чтобы увидеть образец решения 13. Напишите программу на Python, чтобы создать парную диаграмму набора данных ириса и проверить, какие виды цветов кажутся наиболее отделимыми. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 14. Напишите программу на Python, используя seaborn, чтобы создать график kde (оценка плотности ядра) длины чашелистика в зависимости от ширины чашелистика для цветов сетоса. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 15. Напишите программу Python, используя seaborn, чтобы создать график kde (оценка плотности ядра) длины лепестка в зависимости от ширины лепестка для цветов сетоса. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 16. Напишите программу Python, используя seaborn, чтобы создать график kde (оценка плотности ядра) длины лепестка в зависимости от ширины лепестка для цветов сетоса. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 17. Напишите программу на Python, чтобы найти корреляцию между переменными данных радужной оболочки глаза. Также создайте карту совпадений, используя Seaborn, чтобы представить их отношения. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 18. Напишите программу на Python для создания прямоугольной диаграммы (или диаграммы «прямоугольник и усы»), которая показывает распределение количественных данных таким образом, чтобы облегчить сравнение между переменными или по уровням категориальной переменной набора данных радужной оболочки глаза. Используйте морские роботы. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 19. Из Википедии — Анализ главных компонентов (PCA) — это статистическая процедура, которая использует ортогональное преобразование для преобразования набора наблюдений за возможно коррелированными переменными (объекты, каждая из которых принимает различные числовые значения) в набор значений линейно некоррелированных переменных, называемых главными компонентами. Это преобразование определяется таким образом, что первый главный компонент имеет максимально возможную дисперсию (то есть учитывает как можно большую вариативность данных), а каждый последующий компонент, в свою очередь, имеет самую высокую дисперсию, возможную при ограничении что он ортогонален предыдущим компонентам. Результирующие векторы (каждый из которых является линейной комбинацией переменных и содержит n наблюдений) представляют собой некоррелированный ортогональный базисный набор. PCA чувствителен к относительному масштабированию исходных переменных. Перейдите в редактор. Напишите программу Python для создания анализа главных компонентов (PCA) набора данных радужной оболочки глаза. Щелкните меня, чтобы увидеть пример решения Алгоритм K-ближайших соседей в наборе данных о цветках ириса [8 упражнений с решением] Из Википедии, При распознавании образов алгоритм k-ближайших соседей (k-NN) — это непараметрический метод, используемый для классификации и регрессии. [1] В обоих случаях входные данные состоят из k ближайших обучающих примеров в пространстве признаков. Вывод зависит от того, используется ли k-NN для классификации или регрессии: itemscope itemtype = «http://schema.org/WebPageElement/Heading»> В k-NN классификации, выходом является членство в классе. Объект классифицируется множеством голосов его соседей, причем объект назначается классу, наиболее распространенному среди его ближайших k соседей (k — положительное целое число, обычно небольшое). Если k = 1, то объект просто присваивается классу этого единственного ближайшего соседа. itemscope itemtype = «http://schema.org/WebPageElement/Heading»> В регрессии k-NN выводом является значение свойства для объекта. Это значение является средним из значений k ближайших соседей. Пример классификации k-NN. Тестовый образец (зеленая точка) следует классифицировать либо по синим квадратам, либо по красным треугольникам. Если k = 3 (сплошная круглая линия), это назначается красным треугольникам, потому что внутри внутреннего круга 2 треугольника и только 1 квадрат. Если k = 5 (круг из пунктирной линии), он присваивается синим квадратам (3 квадрата против 2 треугольников внутри внешнего круга). 1. Напишите программу Python для разделения набора данных радужной оболочки на его атрибуты (X) и метки (y). Переменная X содержит первые четыре столбца (т. е. атрибуты ), а y содержит метки набора данных. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 2. Напишите программу на Python используя Scikit-learn, чтобы разделить набор данных радужной оболочки на 70% обучающих данных и 30% тестовых данных. Из всех 150 записей обучающий набор будет содержать 120 записей, а тестовый набор содержит 30 из этих записей. Распечатайте оба набора данных. Перейдите к редактор Щелкните меня, чтобы увидеть самп ле решение 3. Напишите программу Python, используя Scikit-learn, для преобразования столбцов Species в числовой столбец фрейма данных iris. Чтобы закодировать эту карту данных, преобразуйте каждое значение в число. например Iris-setosa: 0, Iris-versicolor: 1 и Iris-virginica: 2. Теперь распечатайте набор данных радужной оболочки в 80% данных поездов и 20% тестовых данных. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Распечатайте оба набора данных. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 4. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 70% данных о поездах и 30% данных испытаний. Из 150 записей обучающий набор будет содержать 105 записей, а тестовый набор — 45 из этих записей. Предскажите ответ для тестового набора данных (SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm) с помощью алгоритма ближайшего соседа K. Используйте 5 как количество соседей. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 5. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% данных о поездах и 20% данных испытаний. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель и рассчитайте точность модели с помощью алгоритма ближайшего соседа K. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 6. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% данных о поездах и 20% данных испытаний. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель и с помощью алгоритма ближайшего соседа K вычислите производительность для различных значений k. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 7. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% обучающих данных и 20% тестовых данных. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель с помощью алгоритма ближайшего соседа K и создайте график для представления производительности для различных значений k. Перейдите в редактор Щелкните меня, чтобы увидеть образец решения 8. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% данных о поездах и 20% данных испытаний. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель с помощью алгоритма ближайшего соседа K и создайте график зависимости значений k от точности. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения Логистическая регрессия в Sci-Kit Learn [3 упражнения с решением] 1. Напишите программу на Python, чтобы просмотреть некоторые базовые статистические данные, такие как процентиль, среднее значение, стандартное отклонение и т. д. видов ‘Iris-setosa’, ‘Iris-versicolor’ и ‘Iris-versicolor’. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 2. Напишите программу Python для создания диаграммы рассеяния с использованием длины чашелистика и ширины лепестка для разделения классов видов. Перейдите в редактор Щелкните меня, чтобы увидеть пример решения 3. В статистическом моделировании регрессионный анализ — это набор статистических процессов для оценки отношения между переменными. Он включает в себя множество методов моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными (или «предикторами»). Перейдите в редактор. Напишите программу на Python, чтобы получить точность логистической регрессии. Щелкните меня, чтобы увидеть пример решения Редактор кода Python: [Хотите участвовать в упражнениях по Python? Отправьте нам свой код (прикрепленный с файлом .zip) по адресу w3resource [at] yahoo [dot] com. Пожалуйста, избегайте материалов, защищенных авторским правом.]
  2. Базовый — набор данных о цветках ириса [8 упражнений с решением]
  3. Визуализация — набор данных о цветке ириса [19 упражнений с решением]
  4. Алгоритм K-ближайших соседей в наборе данных о цветках ириса [8 упражнений с решением]
  5. Логистическая регрессия в Sci-Kit Learn [3 упражнения с решением]

Машинное обучение Python Набор данных о цветке ириса [38 упражнений с решением]

[ Внизу страницы доступен редактор для написания и выполнения сценариев. ]

Scikit-learn — это бесплатная библиотека машинного обучения для языка программирования Python. Он включает различные алгоритмы классификации, регрессии и кластеризации, включая вспомогательные векторные машины, случайные леса, повышение градиента, k-средних и DBSCAN, и предназначен для взаимодействия с числовыми и научными библиотеками Python NumPy и SciPy.

Лучший способ узнать что-либо — это практика и упражнения. Мы начали этот раздел для тех (от начального до среднего), кто знаком с Python, Scikit-learn. Надеюсь, эти упражнения помогут вам улучшить свои навыки машинного обучения с помощью Scikit-learn. В настоящее время доступен набор данных, мы прилагаем все усилия, чтобы добавить больше упражнений …. Удачного кодирования!

Набор данных о цветках ириса

Из Википедии — Набор данных цветков ириса или набор данных Ириса Фишера — это многомерный набор данных, представленный британским статистиком и биологом Рональдом Фишером в его статье 1936 года Использование множественных измерений в таксономических задачах в качестве примера линейного дискриминантного анализа. Его иногда называют набором данных ириса Андерсона, потому что Эдгар Андерсон собрал данные для количественной оценки морфологической изменчивости цветков ириса трех родственных видов. Два из трех видов были собраны на полуострове Гаспе «все с одного пастбища, собраны в один день и измерены в одно и то же время одним и тем же человеком с помощью одного и того же прибора»

Набор данных состоит из 50 образцов каждого из трех видов ириса (Iris setosa, Iris virginica и Iris versicolor). Для каждого образца были измерены четыре характеристики: длина и ширина чашелистиков и лепестков в сантиметрах. Основываясь на комбинации этих четырех характеристик, Фишер разработал линейную дискриминантную модель, чтобы отличать виды друг от друга.

Базовый — набор данных о цветках ириса [8 упражнений с решением]

1. Напишите программу Python для загрузки данных радужной оболочки из заданного CSV-файла в фрейм данных и печати формы данных, типа данных и первых 3 строк. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

2. Напишите программу Python с использованием Scikit-learn для печати ключей, количества строк-столбцов, имен функций и описания данных Iris. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

3. Напишите программу на Python, чтобы получить количество наблюдений, пропущенные значения и значения nan. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

4. Напишите программу Python для создания двумерного массива с единицами по диагонали и нулями в другом месте. Теперь преобразуйте массив NumPy в разреженную матрицу SciPy в формате CSR.. Перейти в редактор
Из википедии:
В числовом анализе и научных вычислениях разреженная матрица или разреженный массив — это матрица, в которой большинство элементов равны нулю. Напротив, если большинство элементов отличны от нуля, матрица считается плотной. Количество элементов с нулевым знаком, деленное на общее количество элементов (например, m x n для матрицы m x n), называется разреженностью матрицы (которая равна 1 минус плотность матрицы). Используя эти определения, матрица будет разреженной, если ее разреженность больше 0,5.

Щелкните меня, чтобы увидеть пример решения

5. Напишите программу на Python для просмотра основных статистических данных, таких как процентиль, среднее значение, стандартное отклонение и т. д. данных радужной оболочки глаза. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

6. Напишите программу на Python для просмотра основных статистических данных, таких как процентиль, среднее значение, стандартное отклонение и т. д. данных радужной оболочки глаза. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

7. Напишите программу Python для удаления столбца Id из заданного фрейма данных и печати измененной части. Вызовите iris.csv, чтобы создать фрейм данных. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

8. Напишите программу Python для доступа к первым четырем ячейкам из заданного фрейма данных с помощью индекса и меток столбцов. Вызовите iris.csv, чтобы создать фрейм данных. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

Визуализация — набор данных о цветке ириса [19 упражнений с решением]

1. Напишите программу Python для создания графика для получения общей статистики данных по радужке. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

2. Напишите программу на Python, чтобы создать гистограмму, чтобы получить частоту трех видов данных радужной оболочки глаза. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

3. Напишите программу на Python для создания круговой диаграммы, чтобы получить частоту трех видов данных радужной оболочки глаза. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

4. Напишите программу на Python, чтобы создать график, чтобы найти взаимосвязь между длиной и шириной чашелистника. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

5. Напишите программу на Python, чтобы создать график, чтобы найти взаимосвязь между длиной и шириной лепестка. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

6. Напишите программу Python для создания графика, чтобы увидеть, как распределяются длина и ширина SepalLength, SepalWidth, PetalLength, PetalWidth. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

7. Напишите программу на Python, чтобы создать диаграмму соединения для описания отдельных распределений на одном и том же графике между длиной и шириной сепала.. Перейдите в редактор
Примечание: диаграмма соединения — нарисуйте график двух переменных с двумерным и одномерным графиками.
Щелкните меня, чтобы увидеть пример решения

8. Напишите программу на Python для создания диаграммы соединения, используя «hexbin» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала. Перейдите в редактор
Примечание:
Двумерный аналог гистограммы известен как «шестнадцатеричный» график, потому что он показывает количество наблюдений, попадающих в шестиугольные интервалы. Этот график лучше всего работает с относительно большими наборами данных. Он доступен через функцию matplotlib plt.hexbin и как стиль в Jointplot (). Лучше всего он выглядит на белом фоне.
Щелкните меня, чтобы увидеть образец решения

9. Напишите программу на Python для создания диаграммы соединения с помощью «kde» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала. Перейдите в редактор
Примечание:
Процедура оценки плотности ядра (kde) визуализирует двумерное распределение. В seaborn этот вид графика отображается с контурным графиком и доступен как стиль в Jointplot ().
Щелкните меня, чтобы увидеть образец решения

10. Напишите программу на Python, чтобы создать диаграмму соединения и добавить соответствие регрессии и плотности ядра, используя «reg» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

11. Напишите программу на Python, чтобы нарисовать диаграмму рассеяния, а затем добавьте оценку совместной плотности, чтобы описать отдельные распределения на одном и том же графике между длиной и шириной сепала. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

12. Напишите программу на Python для создания диаграммы соединения, используя «kde» для описания отдельных распределений на одном и том же графике между длиной и шириной сепала, и используйте знак «+» в качестве маркера. Перейдите в редактор
Примечание:
Процедура оценки плотности ядра (kde) визуализирует двумерное распределение. В seaborn этот вид графика отображается с контурным графиком и доступен как стиль в Jointplot ().
Щелкните меня, чтобы увидеть образец решения

13. Напишите программу на Python, чтобы создать парную диаграмму набора данных ириса и проверить, какие виды цветов кажутся наиболее отделимыми. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

14. Напишите программу на Python, используя seaborn, чтобы создать график kde (оценка плотности ядра) длины чашелистика в зависимости от ширины чашелистика для цветов сетоса. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

15. Напишите программу Python, используя seaborn, чтобы создать график kde (оценка плотности ядра) длины лепестка в зависимости от ширины лепестка для цветов сетоса. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

16. Напишите программу Python, используя seaborn, чтобы создать график kde (оценка плотности ядра) длины лепестка в зависимости от ширины лепестка для цветов сетоса. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

17. Напишите программу на Python, чтобы найти корреляцию между переменными данных радужной оболочки глаза. Также создайте карту совпадений, используя Seaborn, чтобы представить их отношения. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

18. Напишите программу на Python для создания прямоугольной диаграммы (или диаграммы «прямоугольник и усы»), которая показывает распределение количественных данных таким образом, чтобы облегчить сравнение между переменными или по уровням категориальной переменной набора данных радужной оболочки глаза. Используйте морские роботы. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

19. Из Википедии —
Анализ главных компонентов (PCA) — это статистическая процедура, которая использует ортогональное преобразование для преобразования набора наблюдений за возможно коррелированными переменными (объекты, каждая из которых принимает различные числовые значения) в набор значений линейно некоррелированных переменных, называемых главными компонентами. Это преобразование определяется таким образом, что первый главный компонент имеет максимально возможную дисперсию (то есть учитывает как можно большую вариативность данных), а каждый последующий компонент, в свою очередь, имеет самую высокую дисперсию, возможную при ограничении что он ортогонален предыдущим компонентам. Результирующие векторы (каждый из которых является линейной комбинацией переменных и содержит n наблюдений) представляют собой некоррелированный ортогональный базисный набор. PCA чувствителен к относительному масштабированию исходных переменных. Перейдите в редактор.
Напишите программу Python для создания анализа главных компонентов (PCA) набора данных радужной оболочки глаза.
Щелкните меня, чтобы увидеть пример решения

Алгоритм K-ближайших соседей в наборе данных о цветках ириса [8 упражнений с решением]

Из Википедии,

При распознавании образов алгоритм k-ближайших соседей (k-NN) — это непараметрический метод, используемый для классификации и регрессии. [1] В обоих случаях входные данные состоят из k ближайших обучающих примеров в пространстве признаков. Вывод зависит от того, используется ли k-NN для классификации или регрессии:

  • itemscope itemtype = «http://schema.org/WebPageElement/Heading»> В k-NN классификации, выходом является членство в классе. Объект классифицируется множеством голосов его соседей, причем объект назначается классу, наиболее распространенному среди его ближайших k соседей (k — положительное целое число, обычно небольшое). Если k = 1, то объект просто присваивается классу этого единственного ближайшего соседа.
  • itemscope itemtype = «http://schema.org/WebPageElement/Heading»> В регрессии k-NN выводом является значение свойства для объекта. Это значение является средним из значений k ближайших соседей.

Пример классификации k-NN. Тестовый образец (зеленая точка) следует классифицировать либо по синим квадратам, либо по красным треугольникам. Если k = 3 (сплошная круглая линия), это назначается красным треугольникам, потому что внутри внутреннего круга 2 треугольника и только 1 квадрат. Если k = 5 (круг из пунктирной линии), он присваивается синим квадратам (3 квадрата против 2 треугольников внутри внешнего круга).

1. Напишите программу Python для разделения набора данных радужной оболочки на его атрибуты (X) и метки (y). Переменная X содержит первые четыре столбца (т. е. атрибуты ), а y содержит метки набора данных. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

2. Напишите программу на Python используя Scikit-learn, чтобы разделить набор данных радужной оболочки на 70% обучающих данных и 30% тестовых данных. Из всех 150 записей обучающий набор будет содержать 120 записей, а тестовый набор содержит 30 из этих записей. Распечатайте оба набора данных. Перейдите к редактор
Щелкните меня, чтобы увидеть самп ле решение

3. Напишите программу Python, используя Scikit-learn, для преобразования столбцов Species в числовой столбец фрейма данных iris. Чтобы закодировать эту карту данных, преобразуйте каждое значение в число. например Iris-setosa: 0, Iris-versicolor: 1 и Iris-virginica: 2. Теперь распечатайте набор данных радужной оболочки в 80% данных поездов и 20% тестовых данных. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Распечатайте оба набора данных. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

4. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 70% данных о поездах и 30% данных испытаний. Из 150 записей обучающий набор будет содержать 105 записей, а тестовый набор — 45 из этих записей. Предскажите ответ для тестового набора данных (SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm) с помощью алгоритма ближайшего соседа K. Используйте 5 как количество соседей. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

5. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% данных о поездах и 20% данных испытаний. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель и рассчитайте точность модели с помощью алгоритма ближайшего соседа K. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

6. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% данных о поездах и 20% данных испытаний. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель и с помощью алгоритма ближайшего соседа K вычислите производительность для различных значений k. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

7. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% обучающих данных и 20% тестовых данных. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель с помощью алгоритма ближайшего соседа K и создайте график для представления производительности для различных значений k. Перейдите в редактор
Щелкните меня, чтобы увидеть образец решения

8. Напишите программу Python с помощью Scikit-learn, чтобы разделить набор данных радужной оболочки на 80% данных о поездах и 20% данных испытаний. Из 150 записей обучающий набор будет содержать 120 записей, а тестовый набор — 30 из этих записей. Обучите или поместите данные в модель с помощью алгоритма ближайшего соседа K и создайте график зависимости значений k от точности. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

Логистическая регрессия в Sci-Kit Learn [3 упражнения с решением]

1. Напишите программу на Python, чтобы просмотреть некоторые базовые статистические данные, такие как процентиль, среднее значение, стандартное отклонение и т. д. видов ‘Iris-setosa’, ‘Iris-versicolor’ и ‘Iris-versicolor’. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

2. Напишите программу Python для создания диаграммы рассеяния с использованием длины чашелистика и ширины лепестка для разделения классов видов. Перейдите в редактор
Щелкните меня, чтобы увидеть пример решения

3. В статистическом моделировании регрессионный анализ — это набор статистических процессов для оценки отношения между переменными. Он включает в себя множество методов моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными (или «предикторами»). Перейдите в редактор.
Напишите программу на Python, чтобы получить точность логистической регрессии.
Щелкните меня, чтобы увидеть пример решения

Редактор кода Python:

[Хотите участвовать в упражнениях по Python? Отправьте нам свой код (прикрепленный с файлом .zip) по адресу w3resource [at] yahoo [dot] com. Пожалуйста, избегайте материалов, защищенных авторским правом.]

Оцените статью
nanomode.ru
Добавить комментарий