Нет сомнений в том, что Excel был невероятно важным инструментом для компаний и до сих пор имеет место в наборе инструментов каждого аналитика и ученого, но для большей части вашей работы вам необходимо прекратить использовать Excel и перейти на Python.
Почему:
- масштабирование и автоматизация
- воспроизводимость
- передаваемые навыки
- расширенные возможности
Масштабирование и автоматизация
Excel отлично подходит, когда вы хотите выполнить быстрый специальный анализ небольших данных, но как только вы захотите перейти к большему масштабу, это не сработает. Excel может поддерживать данные размером до 1 048 576 строк по 16 384 столбца. С другой стороны, Python может масштабироваться до размера вашей памяти, а также имеет множество инструментов, поддерживающих вычисления вне памяти.
Например, библиотека Dask позволяет масштабировать ваши вычисления до работать на кластере машин, а не только на вашем ноутбуке. Фактически, если вы знакомы с Pandas, это почти точно такой же код для чтения в CSV:
import dask.dataframe as dd # Загружать данные с помощью Dask вместо Pandas. df = dd.read_csv ()
Одна строка кода, и теперь вы читаете данные большего размера, чем ваш память компьютера — это невозможно в Excel.
Некоторые другие отличия:
- Python может масштабироваться, когда дело доходит до нескольких источников данных. В то время как Excel является одновременно хранилищем данных и механизмом вычислений, Python полностью не зависит от данных. Если вы можете найти способ считывать свои данные в Python , вы можете его использовать. Поскольку у Python так много замечательных библиотек, считывание данных из многих источников, таких как базы данных CSV, Excel, JSON и SQL, тривиально.
- Автоматизировать обновления в Python очень просто. Поскольку вы можете подключить Python напрямую к любому источнику данных, легко запланировать задание, которое будет повторно извлекать ваши данные с любыми обновлениями, запускать ваши вычисления и даже создавать отчет или динамическую панель мониторинга, что сэкономит вам массу времени. Excel, с другой стороны, требует слишком много ручного труда и не может автоматизировать обновления.

Воспроизводимость
Воспроизводимость означает, что любые аналитические данные или визуализации, которые вы создаете, должны быть простыми и понятными, чтобы их мог воспроизвести кто-то другой. Мало того, что кто-то должен иметь возможность повторно запустить ваш процесс и получить тот же результат; они также должны быть в состоянии пройти ваши шаги, чтобы гарантировать точность. Эта концепция чрезвычайно важна, если вы начнете полагаться на автоматизацию. Автоматизация прекрасна, когда она работает правильно, но когда это не так, автоматические отчеты могут стать кошмаром.
Воспроизводимость в Excel очень сложна. Расчеты Excel в ячейках практически невозможно проверить в любом масштабе. Типы данных очень сбивают с толку, потому что то, что вы видите, не всегда то, что представлено в необработанных данных. Хотя VBA немного улучшает воспроизводимость, на этом этапе вам гораздо лучше инвестировать в изучение Python.
Взгляните на этот документ Excel:

Вы знаете, что столбец sum
должен быть суммой a и b, но как вы это подтвердите? Вы можете проверить одну из формул и увидеть, что это на самом деле сумма, но поскольку каждая ячейка может быть собственной формулой, как мы узнаем, что все они верны? Если бы вы не обращали внимания, вы могли бы пропустить, что строка x была неправильной.
Но в Python ваша сумма выглядела бы так:
a = [1,2,3,4] b = [ 5,6,7,8] sum = [] для i в диапазоне (len (a)): sum.append (a [i] + b [i]) print (sum)
Этот код понятен, и легко убедиться, что сумма всегда вычисляется правильно.
С Python вы получаете все инструменты, разработанные для улучшения воспроизводимости и совместной работы для инженеров-программистов. Кроме того, Python лучше всего подходит для подключения к данным, что позволяет нам анализировать данные в облаке и мгновенно повторять процесс. Git, модульное тестирование, документация и стандарты форматирования кода широко распространены в сообществе Python.
С Python 3
вы даже можете добавить статическая типизация , чтобы сделать код более понятным. Все эти инструменты упрощают обеспечение того, чтобы ваш код был написан хорошо и правильно, таким образом, в следующий раз, когда вы посмотрите на свой код или кто-то другой его возьмет, его легко воспроизвести и понять.
Передаваемые навыки
Если вы знаете Excel, вы знаете Excel. Хотя приобретенные вами навыки полезны, их нельзя передать ни на что другое.
Python гораздо ближе к другим языкам программирования, чем Excel, что значительно упрощает освоение других языков, с которыми вы можете столкнуться. путь. Когда вы изучаете Python, вы открываете гораздо больше возможностей, чем только с Excel.
Кроме того, спрос на Python невероятно высок. По данным StackOverflow, в 2019 году он был признан 4-м по популярности языком программирования в мире среди профессиональных разработчиков программного обеспечения, а также первым наиболее востребованным языком программирования. Неплохо.
Расширенные возможности
В Excel есть множество встроенных формул, но он бледнеет по сравнению с возможностями Python. Python не только предлагает сотни библиотек для упрощения расширенной статистики и аналитики, но также может вывести ваши визуализации на новый уровень. Такие инструменты, как Matplotlib, Plotly, Streamlit и Seaborn, позволяют создавать красивые визуализации данных, интерактивные информационные панели и графики.
Numpy и scipy обладают потрясающей поддержкой научных вычислений, линейной алгебры и векторизованных вычислений. . Кроме того, scikit-learn позволяет обучать алгоритмы машинного обучения от деревьев решений до машин для повышения градиента.