Панды Упражнения, Практика, Решение

Pandas

pandas — это пакет Python, обеспечивающий быстрые, гибкие и выразительные структуры данных, предназначенные для того, чтобы сделать работу с «связанными» или «помеченными» данными простой и интуитивно понятной. Он призван стать фундаментальным строительным блоком высокого уровня для практического анализа реальных данных в Python.

Список упражнений Pandas:

  • Серия данных Pandas [40 упражнений с решением]
  • Pandas DataFrame [81 упражнение с решением]
  • Pandas Индекс [26 упражнений с решением]
  • Строка Pandas и регулярное выражение [41 упражнение с решением]
  • Pandas Объединение и объединение DataFrames [15 упражнений с решением]
  • Временной ряд Pandas [20 упражнений с решением]
  • Фильтр Pandas [27 упражнений с решением]
  • Группирование и агрегирование Pandas [32 упражнения с решением ]
  • Обработка отсутствующих значений Pandas [20 упражнений с решением]
  • Стиль Pandas [15 упражнений с решением]
  • Анализ данных Pandas Excel [25 упражнений с решением]
  • Сводная таблица Pandas [32 упражнения с решением]
  • Pandas Datetime [25 упражнений с решением ция]
  • Pandas Plotting [19 упражнений с решением]
  • Pandas SQL Database Queries [24 упражнения с решением]
  • Pandas IMDb Movies Запросы [17 упражнений с решением]
  • Практический набор Pandas-1 [65 упражнений с решением]
  • Еще больше

    Проект Python:

  • Количество проектов Python: [11 проектов с решением]
  • Веб-программирование на Python : [12 проектов с решением]
  • Проекты Python: новый коронавирус (COVID-19) [14 упражнений с решением]
  • Еще не все

pandas хорошо подходит для многих различных типов данных:

  • Табличные данные с разнотипными столбцами, как в таблице SQL или электронной таблице Excel.
  • Упорядоченные и неупорядоченные (не обязательно с фиксированной частотой) данные временных рядов .
  • Произвольные матричные данные с метками строк и столбцов
  • Любая другая форма наблюдательных/статистических данных. наборы статистических данных.

Бинарные установщики: https://pypi.org/project/pandas

Репозиторий исходного кода: http://github.com /pandas-dev/pandas

Проблемы и идеи: https://github.com/pandas-dev/pandas/issues

Импортирует следующие команды для запуска:

 import pandas as pdimport numpy as np 

версия Pandas:

 импортировать панды как pdprint (pd .__ version__) 
Ключ и импорт
df объект pandas DataFrame
s Объект серии pandas

Создать фрейм данных:

  импортировать панды как pddf = pd. DataFrame ({'X': [78,85,96,80,86], 'Y': [84,94,89,83,86], 'Z': [86,97,96,72,83])  }); print (df)  

Пример вывода:

 XYZ 0 78 84 86 1 85 94 97 2 96 89 96 3 80 83 72 4  86 86 83 

Создать DataSeries:

  импортировать панды как pds = pd.Series ([2,  4, 6, 8, 10]) print (s)  

Пример вывода:

 0 2 1 4 2 6 3 8 4 10 dtype:  int64 

Создать тестовые объекты

pd.DataFrame (np.random.rand (20,5)) 5 столбцов и 20 строк случайных чисел с плавающей запятой
pd.Series (my_list) Создать серию из итерируемого my_list
df. index = pd.date_range (‘1900/1/30’, period = df.shape [0]) Добавить указатель даты

Просмотр/проверка данных

df.head (n) Первые n строк фрейма данных
df.tail (n) Последние n строки DataFrame
df.shape Количество строк и столбцов
df.info () Информация об индексе, типе данных и памяти
df.describe () Сводная статистика для числовых столбцов
s.value_counts (dropna = False) Просмотр уникальные значения и счетчики
df.apply (pd.Series.value_counts) Уникальные значения и счетчики для всех столбцов

Выбор

df [col] Возвращает столбец с меткой col как Series
df [[col1, col2]] Возвращает столбцы как новый DataFrame
s.iloc [0] Выбор по позиции
s.loc [‘index_one’] Выбор по индексу
df.iloc [0 ,:] Первая строка
df.iloc [0,0] Первый элемент первого столбца

Очистка данных

таблица>

Фильтр, сортировка и группировка

df.columns = [‘a’, ‘b’, ‘c’] Переименовать столбцы
pd.isnull () Проверяет нулевые значения, возвращает логический массив
pd.notnull () Противоположно pd.isnull ()
df.dropna () Удалить все строки, содержащие нулевые значения
df.dropna (axis = 1) Удалить все столбцы, содержащие нулевые значения
df.dropna (axis = 1, thresh = n) Удалить все строки с менее чем n ненулевыми значениями
df.fillna (x) Замените все нулевые значения на x
s.fillna (s. mean ()) Заменить все нулевые значения средним
s.astype (float) Преобразовать тип данных серии в float
s.replace (1, ‘one’) Заменить все значения равны 1 с ‘одним’
s.replace ([2,3], [‘два’, ‘три’]) Замените все 2 на «два» и 3 на «три»
df.rename (columns = lambda x: x + 1) Массовое переименование столбцов
df.rename (columns = {‘old_name’: ‘new_ name’}) Выборочное переименование
df.set_index (‘column_one’) Изменить индекс
df.rename (index = lambda x: x + 1) Массовое переименование индекса
df [df [col]> 0,6] Строки, в которых столбец col больше 0,6
df [(df [ col]> 0.6) & (df [col] Строки, где 0.8> col> 0.6
df.sort_values ​​(c ol1) Сортировать значения по столбцу col1 в порядке возрастания
df.sort_values ​​(col2, ascending = False) Сортировать значения по столбцу 2 в порядке убывания. 5
df.sort_values ​​([col1, col2], ascending = [True, False]) Сортировка значений по столбцу col1 в возрастающем порядке, затем по столбцу col2 в порядке убывания
df.groupby (col) Возвращает объект groupby для значений из одного столбца
df.groupby ([col1, col2]) Возвращает объект groupby для значений из нескольких столбцов
df.groupby (col1) [col2] Возвращает среднее значение значений в col2, сгруппированные по значениям в col1
df.pivot_table (index = col1, values ​​= [col2, col3], aggfunc = mean) Создайте сводную таблицу, которая группируется по столбцу col1 и вычисляет среднее значение столбцов col2 и col3
df.groupby (col1) .agg (np .mean) Найдите среднее значение по всем столбцам для каждой уникальной группы col1
df.apply (np.mean) А Добавьте функцию np.mean () к каждому столбцу
nf.apply (np.max, axis = 1) Примените функцию np.max () к каждой строке

Join/Combine

df1.append (df2) Добавить строки в df1 в конец df2 (столбцы должны быть идентичными)
pd.concat ([df1, df2], axis = 1) Добавить столбцы в df1 в конец df2 (строки должны быть идентичными)
df1.join (df2, on = col1, how = ‘inner’) SQL -style объединить столбцы в df1 со столбцами в df2, где строки для col имеют одинаковые значения. «Как» может быть «левым», «правым», «внешним» или «внутренним»

Статистика

df.describe () Сводная статистика для числовых столбцов
df. mean () Возвращает среднее значение всех столбцов
df.corr () Возвращает корреляцию между столбцами в DataFrame
df.count () Возвращает количество ненулевых значений в каждом Столбец DataFrame
df.max () Возвращает наивысшее значение в каждом столбце
df.min () Возвращает наименьшее значение в каждом столбце
df. median () Возвращает медианное значение каждого столбца
df.std () Возвращает стандартное отклонение каждого столбца

Импорт данных

pd.read_csv (filename) Из файла CSV
pd.read_table (filename) Из текстового файла с разделителями (например, TSV)
pd.read_excel (filename) Из файла Excel
pd.read_sql (query, connection_object) Прочитать из SQL таблица/база данных
pd.read_json (json_string) Чтение из строки, URL или файла в формате JSON.
pd.read_html ( url) Анализирует html URL, строку или файл и извлекает таблицы в список фреймов данных
pd.read_clipboard () Берет содержимое вашего буфера обмена и передает его в read_table ()
pd.DataFrame (dict) Из словаря, ключи для имен столбцов, значения для данных в виде списков

Экспорт данных

df.to_csv (filename) Запись в файл CSV
df.to_excel(filename) Записать в файл Excel
df.to_sql (имя_таблицы, объект_подключения) Запись в таблицу SQL
df.to_json (имя_файла) Запись в файл в формате JSON

[Хотите участвовать в упражнениях Python Pandas? Отправьте нам свой код (прикрепленный с файлом .zip) по адресу w3resource [at] yahoo [dot] com. Пожалуйста, избегайте материалов, защищенных авторским правом.]

Проверьте свои навыки Python с помощью викторины w3resource

Оцените статью
nanomode.ru
Добавить комментарий