Прекратите использовать Excel для анализа данных: перейдите на Python

Тайлер Фолкман — руководитель отдела искусственного интеллекта в Branded Entertainment Network и автор учебного курса Python Data Analysis and Visualization. Тайлер увлечен наукой о данных и искусственным интеллектом. Он вносит свой вклад в сообщество разными способами, в том числе является ведущим писателем в области искусственного интеллекта на Medium. Ознакомьтесь с его блогом «Обучение с помощью данных».

По оценкам, в 2017 году 750 миллионов человек во всем мире использовали Excel. Население мира в 2017 году составляло около 7,6 миллиарда человек. Это означает, что примерно 10% населения использовали Excel, и я думаю, в основном для анализа данных. Это безумие.

Нет никаких сомнений в том, что Excel был невероятно важным инструментом для компаний и до сих пор занимает место в наборе инструментов каждого аналитика данных и ученого, но в большинстве случаев в вашей работе вы необходимо прекратить использование Excel и перейти на Python. Я собираюсь показать вам, почему.

Итак, если вы все еще не сделали рывок, чтобы изучить Python и вывести свои навыки анализа данных и визуализации на новый уровень, я представляю вам 5 причин. почему вам нужно изучать Python прямо сейчас. К концу, я уверен, вы с нетерпением ждете замены большей части своей работы в Excel на Python.

Сегодня мы рассмотрим:

  • Масштабирование и автоматизация
  • Воспроизводимость
  • Передаваемые навыки
  • Расширенные возможности
  • Python прост в изучении
  • Начало работы с Python для анализа данных
  • Заключение

Масштаб и автоматизация

Excel отлично подходит, когда вы хотите провести быстрый специальный анализ небольших данных, но когда вы захотите перейти к большему масштабу, он просто не сработает. Excel может поддерживать данные размером до 1 048 576 строк по 16 384 столбца. С другой стороны, Python может масштабироваться до размера вашей памяти, а также имеет множество инструментов, поддерживающих вычисления вне памяти.

Например, библиотека Dask позволяет масштабировать ваши вычисления до работать на кластере машин, а не только на вашем ноутбуке. Фактически, если вы знакомы с Pandas, это почти точно такой же код для чтения в CSV:

  import dask.dataframe as dd # Загружать данные с помощью Dask вместо  Pandas.df = dd.read_csv ()  

Одна строка кода, и теперь вы читаете данные, размер которых превышает объем памяти вашего компьютера. Я бы показал вам, как это сделать в Excel, но это даже невозможно.

Если этот код выглядит чужеродным, посмотрите мой курс, который научит вас всему, что вам нужно знать. чтобы начать работу с Pandas.

Кроме того, Python может масштабироваться, когда дело доходит до нескольких источников данных. Хотя Excel является одновременно хранилищем данных и механизмом вычислений, Python полностью не зависит от данных . Если вы можете найти способ считывать ваши данные в Python, вы можете его использовать. А поскольку у Python так много замечательных библиотек, считывание данных из многих источников, таких как базы данных CSV, Excel, JSON и SQL, тривиально.

Наконец, Python — потрясающий язык программирования, когда он доходит до автоматизации . Поскольку вы можете подключить Python напрямую к любому источнику данных, легко запланировать задание, которое будет повторно извлекать ваши данные с любыми обновлениями, запускать ваши вычисления и даже создавать отчет или динамическую панель мониторинга, что сэкономит вам массу времени. Excel, с другой стороны, требует слишком много ручного труда и не может автоматизировать обновления.

Python может напрямую подключаться к вашей базе данных для автоматических обновлений. Источник: NobleDesktop

Воспроизводимость

Воспроизводимость — это концепция, согласно которой любые аналитические данные или визуализации, которые вы создаете, должны легко и просто воспроизводиться для кого-то другого. Кто-то должен иметь возможность не только перезапустить ваш процесс и получить тот же результат, но и пройти через все ваши шаги для обеспечения точности. Эта концепция чрезвычайно важна, поскольку вы начинаете полагаться на автоматизацию. Автоматизация — это замечательно, если она работает правильно, но если она работает неправильно, автоматические отчеты могут стать кошмаром.

Воспроизводимость в Excel очень сложна. Расчеты Excel в ячейках практически невозможно проверить в любом масштабе. Типы данных чрезвычайно сбивают с толку, потому что то, что вы видите, не всегда то, что представлено в необработанных данных, и хотя VBA немного улучшает воспроизводимость, в этот момент вам гораздо лучше инвестировать в изучение Python.

Взгляните на этот документ Excel:

Вы знаете, что столбец sum должен быть суммой a и b, но как вы это подтверждаете? ? Вы можете проверить одну из формул и увидеть, что это на самом деле сумма, но поскольку каждая ячейка может быть собственной формулой, что, если все они неверны? Если бы вы не обращали внимания, вы могли бы пропустить, что строка x была неправильной.

Но в Python ваша сумма выглядела бы так:

  a = [1,2,3,4] b = [5,6,7,8] sum = [] для i в диапазоне (a): sum. append (a [i] + b [i])  

Этот код понятен и легко подтверждает, что сумма всегда вычисляется правильно.

С Python вы получаете все инструменты, разработанные для улучшения воспроизводимости и совместной работы разработчиков программного обеспечения . Вдобавок ко всему, Python превосходит возможности подключения к данным, позволяя нам анализировать данные в облаке и мгновенно повторять процесс. Git, модульное тестирование, документация и стандарты форматирования кода широко распространены в сообществе Python. С Python 3 вы даже можете добавить статическую типизацию, чтобы сделать ваш код еще более понятным.

Все эти инструменты упрощают обеспечение того, чтобы ваш код был написан хорошо и правильно. Чтобы в следующий раз, когда вы посмотрите на свой код или кто-то другой его поймет, его легко воспроизвести и понять.

Продолжайте обучение.

Изучите Python для анализа данных и больших данных, не просматривая видео или документация. Текстовые курсы Educative просты в использовании и содержат среду программирования в реальном времени, что делает обучение быстрым и эффективным.

Анализ и визуализация данных Python

Передаваемые навыки

Если вы знаете Excel, вы знаете Excel. Хотя навыки, которые вы изучаете, полезны, их нельзя передать ни на что другое. Что мне больше всего нравится в Python, так это то, что это не только замечательный инструмент для анализа и визуализации данных, но и надежный язык программирования, который можно использовать для многих других вещей.

Хочу заниматься машинным обучением или даже глубоким обучением? Вы можете сделать это с помощью Python. Хотите создать сайт? Python может это сделать. Хотите автоматизировать свой умный дом? Python тоже может это сделать.

Кроме того, Python намного ближе к другим языкам программирования, чем Excel. Это значительно упрощает освоение других языков, с которыми вы можете столкнуться по пути. Изучение Python открывает гораздо больше возможностей, чем когда-либо мог бы Excel.

Наконец, спрос на Python невероятно высок . По данным StackOverflow, в 2019 году он был признан 4-м по популярности языком программирования в мире среди профессиональных разработчиков программного обеспечения, а также первым наиболее востребованным языком программирования. И Indeed утверждает, что средняя зарплата разработчика Python в США в 2020 году составляет 120 тысяч долларов в год. Неплохо.

Расширенные возможности

Excel имеет множество встроенных формул, но он бледнеет по сравнению с возможностями Python. Python не только предлагает сотни библиотек для упрощения расширенной статистики и аналитики, но также может вывести ваши визуализации на новый уровень.. С такими инструментами, как Matplotlib, Plotly, Streamlit и Seaborn, вы можете создавать прекрасные визуализации данных, а также интерактивные информационные панели и графики.

Numpy и scipy обладают потрясающей поддержкой научных вычислений, линейной алгебры и векторизованные вычисления. Scikit-learn позволяет обучать алгоритмы машинного обучения от деревьев решений до машин для повышения градиента. Я думаю, что xkcd сказал это лучше всего:

Python легко изучить

Учитывая все удивительные преимущества Python над Excel, должно быть, сложно научиться, не так ли? Нет! Посмотрите это сравнение простейшей программы Hello World на разных языках:

  • Python
  • Python
  • Python
  • Java
  • Java
  • путь> C ++
  • путь> C ++
  • Golang
  • Golang
  • C #
  • C #
  • Kotlin
  • Kotlin
 print "Hello World" 

Python — это буквально одна строка: print («Hello World!») . Нет ничего проще. Python — один из самых простых языков программирования, и у него одно из самых активных сообществ, особенно в мире аналитики данных. Python — один из самых интуитивно понятных языков программирования, и он понятен даже тем, у кого мало опыта в компьютерных науках! Хотя процесс обучения Excel может показаться предпочтительным, с другой стороны, выгоды гораздо меньше. Кривая обучения Python стоит потраченного времени и усилий , и Excel никогда не сможет сравниться с ней благодаря универсальному дизайну..

Python прост в использовании, и благодаря огромному сообществу поддержки его учить никогда не было так просто. Чтобы сделать переход еще проще, я разработал курс, который не предполагает никакого предшествующего опыта работы с Python и может помочь вам с нуля уверенно извлекать знания и ответы из данных.

Чтобы показать вам, насколько прост Python, в следующем разделе я познакомлю вас с некоторыми основами анализа и визуализации данных в Python.

Начало работы с Python для анализа данных

Для начала я хочу познакомить вас с некоторыми основными командами и операциями в Python, которые будут важны для ваших навыков анализа данных. Начнем с основ.

Первое, что вы заметите, — это то, что Python использует пробелы, а не точку с запятой ; , как другие языки. Вот очень простой пример:

 x = 5y = 10print (x + y) 

Импорт функций

Мы будем использовать множество библиотек, некоторые из которых предварительно установлены вместе с Python, а некоторые нам придется установить самостоятельно. Чтобы получить библиотеку, используйте оператор импорта:

  from Collections import Counter  

Эта команда импортирует класс Counter из библиотеки коллекций . Счетчик — очень полезный инструмент для специалистов по данным; он может подсчитывать количество раз, когда элементы появляются в коллекциях, таких как списки. Например, в приведенном ниже коде мы создадим список брачных возрастов. Используя Counter, мы можем быстро подсчитать, сколько раз появляется каждый уникальный возраст.

Списки в Python

Списки — это полезная структура данных для хранения данных . Более подробно они будут изучены на следующем уроке. Например:

 из коллекций import Countermarriage_ages = [22, 22, 25, 25, 30, 24, 26, 24, 35] value_counts = Counter (wedding_ages) print (value_counts.most_common ()) 

Вы можете видеть, что мы создали список, содержащий брачный возраст, используя [] в строке 2. Затем мы передали этот список в функцию Counter в строке 4, чтобы распечатать наиболее распространенные значения в виде списка кортежей в строке 5.

Кортеж — это коллекция внутри () . Эти кортежи содержат два элемента: значение и количество раз, когда это значение появлялось в вашем списке. Частота упорядочивает список кортежей. Первым отображается наиболее часто встречающееся значение.

Функции в Python

Также полезны функции. Функции в Python начинаются с ключевого слова def и имени функции, за которым следуют входные данные, которые функция ожидает в скобках. Вот функция, которая принимает 2 входа, x и y , и возвращает сумму :

 def add_two_numbers (x,  y): # function header "" "Принимает два числа и возвращает параметры суммы x: str первое число y: str второе число возвращает x + y" "" z = x + y return z # function returnprint (add_two_numbers (100,  5)) # вызов функции 

Функции также могут быть анонимными , что означает, что вам не нужно объявлять их с указанной выше структурой. Вместо этого вы можете использовать ключевое слово lambda . Это та же функция, что и выше, но как анонимная:

 y = lambda x, y: x + y print (y (100,5)) # вызов функции 

Заключение

Пришло время перейти на Python. Больше нет оправданий! Чтобы стать аналитиком данных, вам необходимо охватить следующие концепции:

  • Основы Python для аналитики
  • Чтение данных
  • Описание данных
  • Очистка данных
  • Визуализация данных

Все эти концепции и многое другое в мой курс «Анализ и визуализация данных Python», в котором используются практические занятия и примеры кода для продвижения вашей карьеры в области анализа данных.

Перейти и вывести свои навыки на новый уровень с Python !

Оцените статью
nanomode.ru
Добавить комментарий