Python Pandas: библиотека анализа данных для машинного обучения

Pandas — это программная библиотека, написанная для языка программирования Python для обработки и анализа данных. Python отлично подходит для обработки и подготовки данных, но в меньшей степени для анализа и моделирования данных.

Pandas помогает заполнить этот пробел, позволяя вам выполнять весь рабочий процесс анализа данных в Python без необходимости переключаться на более специфичный для предметной области язык, такой как R, для анализа данных.

Pandas не реализуют значительную функциональность моделирования, кроме линейной и панельной регрессии.

Ключевые особенности Pandas

Ключевые особенности Pandas следующие.

  1. Библиотека Pandas — это быстрый и эффективный объект DataFrame со стандартной и настраиваемой индексацией.
  2. Библиотека Pandas помогает загружать данные в объекты данных в памяти из различных форматов файлов.
  3. В нем есть функции, которые занимаются выравниванием данных и интегрировали обработку отсутствующих данных.
  4. Используя Pandas, мы можем изменять форму и вращать наборы данных.
  5. Он имеет нарезку на основе меток, индексацию и подмножество более массивных наборов данных.
  6. Pandas может вставлять или удалять столбцы из структуры данных.
  7. Мы можем используйте Pandas для агрегирования и преобразования данных.
  8. Он обеспечивает высокопроизводительное слияние и соединение данных.
  9. Функциональность временных рядов.

Python Pandas Tutorial Example

Pandas — это пакет Python, обеспечивающий быстрые, надежные, гибкие и выразительные структуры данных, предназначенные для работы с ‘ реляционные »или« помеченные »данные простым и интуитивно понятным способом.

Pandas стремятся стать фундаментальным строительным блоком высокого уровня для практического моделирования и анализа реальных данных на языке программирования Python.

Установите Pandas на Mac

Установите Pandas, если вы ранее не устанавливали его на свой компьютер.

Вы можете установить через PyPI, используя следующую команду.

 python3 -m pip install --upgrade pandas 

Если вы хотите обновить версии, то вы можете выполнить следующую команду.

 python3 -m pip install --upgrade pandas == 0.23.0 

Убедитесь; вы установите его с надлежащими разрешениями, такими как использование sudo, если вы работаете в Linux или Mac.

Стандартный дистрибутив Python не поставляется с модулем Pandas. Альтернативный способ — установить NumPy с помощью популярного установщика пакетов Python, pip.

Если вы установили программный пакет вроде Anaconda то pandas уже установлены.

Теперь давайте протестируем на следующем примере.

 # app.pyimport pandas  as pdimport numpy as npdata = np.array (['a', 'b', 'c', 'd']) seri = pd.Series (data) print (seri) 

Перейти в терминал и введите следующую команду, чтобы запустить файл.

Если вы получите результат, указанный выше, поздравляю !! . Вы успешно установили Pandas на свой компьютер.

Структура данных Pandas

Pandas имеет дело со следующими двумя структурами данных.

  1. DataFrames
  2. Series
Панель устарела и будет удалена в будущей версии.
Рекомендуемый способ представления этих типов трехмерных данных — использовать MultiIndex в DataFrame с помощью метода Panel.to_frame ().

DataFrames в Pandas

DataFrames позволяют хранить и управлять табличными данными в строках наблюдений и столбцах переменных.

DataFrames в Python очень похожи, поскольку они поставляются с библиотекой Pandas, и они определены как двумерные помеченные структуры данных со столбцами потенциально разных типов.

Особенности DataFrame

  1. Потенциально столбцы бывают разных типов
  2. Размер — Изменяемый
  3. Оси с метками (строки и столбцы)
  4. Могут выполнять арифметические операции со строками и столбцами

Фрейм данных pandas можно создать с помощью следующего конструктора .

 pandas.DataFrame (данные, индекс, столбцы, dtype, копия) 

Давайте посмотрим на пример DataFrame.

 # app  .pyimport pandas как pdimport numpy as npdata = [['Krunal', 21], ['Rushikesh', 22], ['Hardik', 30]] df = pd.DataFrame (data, columns = ['Name', '  Номер регистрации ']) print (df) 

Теперь запустите указанный выше файл и посмотрите результат.

В приведенном выше примере мы взяли данные, которые являются Name и Регистрационный номер. Для этих данных мы использовали библиотеку NumPy .

Затем мы передали эти данные в DataFrame и создали табличную структуру данных.

Серии в Pandas

Серии — это одномерные помеченные массивы, способные хранить данные любого типа, такие как целое число, строка , объекты с плавающей запятой, python и т. д. Метки осей вместе называются индексами.

Ярлыки не обязательно должны быть уникальными, они должны быть хешируемого типа. Объект поддерживает как целочисленное, так и основанное на метках индексирование и предоставляет множество методов для выполнения операций с индексом.

Синтаксис Series в Pandas следующий.

 pandas.Series (data, index, dtype, copy) 

Давайте создадим основную серию.

 # app.pyimport pandas as pddata = [1, 2,  3, 4, 5, 6, 7] df = pd.Series (data) print (df) 

Запустите файл и посмотрите результат.

Итак, основы Pandas закончены. Наконец, учебный пример Python Pandas | Статья в библиотеке анализа данных Python окончена. Спасибо, что приняли.

Оцените статью
nanomode.ru
Добавить комментарий