Язык программирования R невероятно популярен. Если вы посмотрите на 10 000 пакетов, которые он предлагает, или на то, что это шестой по популярности язык программирования, нет сомнений в том, что популярность R растет. По мере роста таких областей, как наука о данных и машинное обучение, использование R следует.
Итак, зачем использовать R? Что вообще такое язык программирования R? Сегодня мы представим вводное руководство по языку программирования R, чтобы вы могли начать использовать этот популярный универсальный язык.
Сегодня мы рассмотрим:
- Краткая история R
- Обзор R
- Использование R в реальном мире
- Инструменты, пакеты и синтаксис R
- Создание вашего первого приложения R
- Что узнать дальше
- Изучите R с нуля.
- Краткая история R
- Обзор R
- Environment
- Почему вы должны использовать R?
- Является ли R трудно выучить?
- Реальный- мир использования R
- Статистические вычисления
- Data science
- Машинное обучение (ML)
- Пример из реальной жизни
- Инструменты, пакеты и синтаксис R
- Workspace
- Графический интерфейс пользователя
- Операторы в R
- Типы данных
- Начните с R для бесплатно.
- Создание переменных
- Методы в R
- Функции
- Строки: print () и cat()
- Векторы
- Импорт данных
- Рисование в R
- Пакеты
- Получение помощи
- Создание вашего первого проекта R: Hello World
- Загрузка R
- Установка RStudio
- Ваше первое приложение
- Чему научиться дальше
- Продолжить чтение о науке о данных и кодировании
Изучите R с нуля.
Секрет изучения языка программирования — это практика. Познакомьтесь с платформой интерактивного обучения Educative.
Изучите R с нуля
Краткая история R
Язык программирования R представляет собой реализацию языка программирования S, созданного Джоном Чемберсом из Bell Labs.
R был создан Робертом Джентльманом и Россом Ихака из Университета Окленда, Новая Зеландия. Команда объединила S с семантикой лексической области видимости для создания R. Проект R был впервые задуман в 1992 году, а затем выпущен в 1995 году. 29 февраля 2000 года была выпущена стабильная бета-версия.
Обзор R
R — это язык программирования и среда, используемые для статистических вычислений и графики . R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, кластеризацию, анализ временных рядов, классификацию и т. Д.) И графических методов. Он также обладает высокой расширяемостью.
Раньше язык S был популярным выбором для исследований в области статистической методологии. Когда был выпущен R, это был путь с открытым исходным кодом для участия в этой деятельности, и с тех пор его популярность возросла.
Environment
R представляет собой набор программных средств и среды, используемых для обработки данных, калькулятора и графиков.. Некоторые из предлагаемых им функций включают:
- Мощное средство обработки и хранения данных
- Набор операторов, которые можно использовать для вычислений на массивы и, в частности, матрицы
- Большой и интегрированный набор инструментов, используемых для анализа данных.
- Графические средства для анализа данных и отображения на экране или в печатной форме
- Надежный, всеобъемлющий и простой язык программирования, который включает в себя условные выражения, циклы, определяемые пользователем рекурсивные функции и средства ввода/вывода.
Термин «среда» намеренно используется для описания R как системы, а не просто языка программирования. R часто используется вместе с другими инструментами анализа данных.
Почему вы должны использовать R?
-
Открытый исходный код и бесплатно: R можно бесплатно скачать по лицензии GNU General Public License. Если вы хотите увидеть, что на самом деле происходит под капотом, вы можете посмотреть исходный код. Кроме того, у вас есть доступ к тонне пакетов R под той же лицензией, которую вы можете использовать. Вы также можете использовать его в коммерческих приложениях.
-
Популярность: IEEE опубликовал список самых популярных языков программирования. , и он был 6-м в 2020 году, который стабилизировался примерно на этом уровне. R более популярен, чем языки общего назначения, такие как C #, что указывает на повышенный интерес к языку программирования R в частности, а также на общий рост таких областей, как наука о данных и машинное обучение.
-
Работает на всех платформах: Вы можете найти дистрибутивы R на всех популярных платформах: Windows, Linux и Mac. Более того, код R, написанный на одной платформе, может быть легко переведен на другую платформу практически без проблем. Межплатформенная совместимость R невероятно важна в сегодняшнем мире вычислений, как это видно по мнению Microsoft, стремящегося сделать свою платформу .NET доступной на всех платформах.
-
Рынок труда: Специалисты по обработке данных в США получают в среднем более 100 000 долларов. Многие роли специалистов по данным требуют от вас знания языка программирования R. Хотя знание R не даст вам автоматически работу, поскольку специалисты по обработке данных должны использовать для своей работы все виды инструментов, опыт программирования на R поможет вам выделиться среди других кандидатов.
-
Принятие технологических гигантов: если технические гиганты переходят на язык программирования, это признак его потенциала и роста. Благодаря простоте и мощности R компании принимают взвешенные решения об использовании языка программирования и среды R. Например, Twitter использует R для отслеживания взаимодействия с пользователем, Ford для анализа социальных сетей и New York Times для инфографики.
Является ли R трудно выучить?
R не сложнее любого другого языка, особенно если у вас уже есть некоторый опыт работы с более старыми языками, такими как C или C ++.
Много лет назад , большинство сказали бы, что R был трудным языком для изучения. Он не только сбивал с толку, но и был плохо структурирован. Для решения этих проблем Хэдли Уикхэм создал набор пакетов под названием tidyverse , что сделало манипуляции с данными более интуитивно понятными.
Теперь лучшие алгоритмы машинного обучения могут быть легко реализованы с помощью R. От пакетов до Keras и TensorFlow до Xgboost, вы предоставили довольно мощную функциональность при использовании языка R.
Помимо этого, R эволюционировал, чтобы разрешить распараллеливание операций для ускорения вычислений. Пакет позволяет выполнять одновременные задачи, а не только одну.
Реальный- мир использования R
Итак, каковы основные применения R в области компьютерной инженерии? R используется для:
- статистического вывода
- анализа данных
- машинного обучения
- Выполнение научного моделирования
- Исследование операций
Статистические вычисления
Изначально язык программирования R был создан статистиками для статистиков. R — безусловно, самый популярный язык программирования, используемый статистиками. Синтаксис R позволяет исследователям легко импортировать, очищать и анализировать свои данные из самых разных источников. Помимо этого, R предлагает широкие и мощные возможности для построения диаграмм, что означает, что вы можете отображать данные и создавать визуализации.
Data science
Во многих отношениях Специалист по обработке данных — это статистик с дополнительным навыком: навыки компьютерного программирования. R позволяет специалистам по обработке данных собирать данные в режиме реального времени, выполнять прогнозные и статистические формы анализа, создавать визуализации, а также сообщать результаты необходимым заинтересованным сторонам. R — излюбленный инструмент специалистов по данным.
Машинное обучение (ML)
R обычно используется в прогнозной аналитике и машинном обучении. Некоторые полезные пакеты, предлагаемые экосистемой R, включают линейную и нелинейную регрессию, деревья решений, линейную и нелинейную классификацию и многое другое. R может реализовывать алгоритмы машинного обучения в таких областях, как розничная торговля, маркетинг, финансы и т. Д.
Пример из реальной жизни
Всего за три строчки кода вы сможете сгенерировать 10 000 чисел в случайном распределении. В этом сила R. Если мы напишем этот код:
n
В правом нижнем углу вы увидите этот график:

-
Первая строка кода генерирует список из 10 000 случайных чисел в шаблоне нормального распределения, где среднее значение этих чисел равно 500, а стандартное отклонение равно 100. Функция
floor
принимает все числа в списке и удаляет десятичную точку . -
Для второй строки кода табличная функция принимает 10 000 чисел и подсчитывает частоту каждого.
-
В третьей строке кода функция штрихового графика принимает эту таблицу частот. s и создает гистограмму из данных.
Инструменты, пакеты и синтаксис R
Теперь, когда мы знаем больше о R и его использовании, давайте начнем с синтаксиса R. Это способ, которым мы на самом деле пишем код на R, чтобы заставить наш компьютер реагировать соответствующим образом. Нам также нужно будет узнать об инструментах и пакетах, необходимых для написания на R. Давайте углубимся.
Чтобы добиться наибольшего успеха с В этом разделе будут полезны некоторые базовые знания терминов программирования. Если вы новичок, я рекомендую прочитать Руководство по программированию для абсолютного новичка, прежде чем продолжить здесь.
Workspace
The workspace — это ваша текущая рабочая среда R, которая включает в себя созданные пользователем объекты, такие как матрицы, векторы, фреймы данных, списки и функции. После сеанса вы можете сохранить изображение текущего рабочего пространства, которое будет автоматически перезагружено, когда вы снова запустите R.
Графический интерфейс пользователя
Помимо встроенной консоли R, RStudio — самый популярный редактор R, который может взаимодействовать с R с платформами Windows, MacOS и Linux.
Операторы в R
Операторы R выглядят похож на другие языки программирования. Некоторые арифметические операторы включают:
-
+
— сложение -
-
— вычитание -
*
— умножение -
/
— деление -
^
— возведение в степень
Логические операторы включают:
-
>
— больше -
> =
— больше или равно -
= =
— точно равно -
! =
— не равно
Типы данных
R имеет пять основных типов данных. В языке R, если вы измените данные в переменной, предыдущая информация будет удалена. Итак, каждому типу данных требуется уникальное имя.
Начните с R для бесплатно.
Пройдите наш вводный курс R и эффективно улучшите свои навыки. Текстовые курсы Educative просты в использовании и содержат среду программирования в реальном времени, что делает обучение быстрым и эффективным.
Изучите R с нуля
Создание переменных
Переменные используются для хранения данных. Их стоимость может быть изменена, использована и изменена в соответствии с потребностями. Уникальное имя, присвоенное переменной (функции или объекту), называется идентификатором
.
Примечание: В R идентификаторы могут иметь комбинацию букв, цифр и одной точки. и одно подчеркивание. Однако они должны начинаться с буквы или точки. Если он начинается с точки, за ним не может следовать цифра.
Чтобы объявить переменную, нам нужно присвоить переменной идентификатор. Используйте оператор присваивания для создания новой переменной.
# Пример вычисления среднего с переменными mydata $ sum
Методы в R
Методы как встроенные операции, которые мы можем применить к нашему коду. Давайте рассмотрим два популярных метода, чтобы познакомиться с тем, как они работают в R.
Переменные списка
Мы можем проверить все переменные, которые были созданы в рабочей области с помощью ключевого слова ls ()
. Попробуйте это ниже.
myRealNumeric
Удаление переменных
Мы можем удалить определенную переменную из рабочей области. Ключевое слово rm ()
может помочь нам навсегда удалить один или несколько объектов из рабочей области. Попробуйте это ниже.
myRealNumeric
Функции
Практически все i n R выполняется через функции. Функция — это блок кода, написанный для конкретной задачи или серии задач. Он может принимать параметры и может возвращать значение, если оно определено. Функция в R определена ниже. Код между фигурными скобками — это тело функции.
function (arglist) {body}
Строки: print ()
и cat()
В R мы можем выразить символьные строки, окружив текст двойным кавычки или одинарные кавычки. Для записи строк мы используем синтаксис cat ()
. Мы также можем найти длину строки с помощью метода nchar ()
.
кошка ("Привет, мир n") nchar ("Привет, мир")
Вы заметите, что наша строка заканчивается на /n
. Последовательность, которая начинается с
в строке, называется escape-последовательностью . Это позволяет нам включать в наши строки специальные символы. Распространенные escape-последовательности:
Мы также можем использовать метод print ()
, который может показаться вам знакомым если вы работаете с другими языками. Между ними есть небольшие различия:
print ()
возвращает вектор символов. Вектор — это объект на языке R. cat ()
возвращает объект NULL. Если вы хотите узнать об этом больше, вам следует изучить атомарные типы в R.
Но на самом базовом уровне:
cat ()
печатает свои аргументы без кавычек, аprint ()
отображает их.
Векторы
Вектор — это базовая структура данных в R. Она содержит элементы одного типа. по каждому индексу. Ключевое слово vector ()
используется для создания вектора фиксированного типа и фиксированной длины. Типы данных могут быть:
- Логический
- Целочисленный
- Числовой
- Символ
- Сложный
Тип вектора можно проверить с помощью
typeof ()
, и количество элементов в векторе можно проверить с помощьюlength()
.
vector ("numeric", 5) # числовой вектор с O в каждом indexvector ("complex", 5) # комплексный вектор с O + 0i в каждом indexvector ("logic", 5) # логический вектор с FALSE в каждом indexvector ("character", 5) # символьный вектор с "" в каждом индексе
Импорт данных
Импортировать данные в R относительно просто, поскольку R предлагает множество опций для импорта включенного CSV. Это важная функция для науки о данных.
Ниже приведен пример импорта файла CSV в ваш проект R.
# первая строка содержит имена переменных, запятая является разделителем # присвоить идентификатор переменной именам строк # обратите внимание на/вместо в mswindows systemsmydata
Рисование в R
В R графика создается в интерактивном режиме, как показано ниже.
# Создание графика Graphattach (mtcars) (wt, mpg) abline (lm (mpg ~ wt)) title («Регрессия MPG от веса»)
iv>
Функция plot ()
позволяет вам , чтобы открыть окно графика, в котором будет отображаться зависимость веса от миль на галлон. Следующая строка добавляет на график линию регрессии. Наконец, последняя строка добавляет заголовок для завершения.
Пакеты
Пакеты обычно используются в языке программирования R, их коллекции тысячи. Пакеты содержат набор функций R, данных и скомпилированного кода в определенной форме. R поставляется со стандартным набором пакетов, другие пакеты доступны для загрузки. Вы можете загружать пакеты в сеансе, как показано ниже.
.libPaths () # получить библиотеку locationlibrary () # увидеть все пакеты, установленныеsearch () # увидеть пакеты, загруженные в данный момент
Получение помощи
При установке R у вас будет доступ к комплексной встроенной справочной системе. Вы можете использовать любой из следующих кодов.
справка. start () # общая справкаhelp (foo) # справка о функции foo? foo # same thingapropos ("foo") # перечислить все функции, содержащие строку fooexample (foo) # показать пример функции foo
Создание вашего первого проекта R: Hello World
Теперь мы знать базовый синтаксис R и инструменты, необходимые для его использования. Давайте познакомимся с R и узнаем, как создать приложение на этом языке.
Загрузка R
На Mac :
- Перейти на сайт R
- Щелкните ссылку CRAN.
- Выберите зеркало
- Нажмите «Загрузить R для (Mac) OS X».
- Загрузите последний двоичный файл pkg
- Запустите файл и следуйте инструкциям. при установке R
В Windows:
- Перейдите на сайт R
- Щелкните ссылку CRAN.
- Выберите зеркало
- Нажмите «Загрузить R для Windows».
- Нажмите по ссылке, загружающей базовый дистрибутив.
- Запустите файл и следуйте инструкциям по установке R
Установка RStudio
Как указано выше, RStudio — самая популярная IDE для запуска программ R. Вы можете скачать его здесь для Windows, Linux и Mac OS.
Ваше первое приложение
R известен тем, что может создавать приложения с маленький код. Давайте попробуем два проекта, начиная с Hello World
. Пытаться. сделайте это самостоятельно, прежде чем проверять решение. Помните: вы можете использовать cat
или print()
.
# напишите здесь свой код
Как видите, R довольно прост! На самом деле, давайте попробуем другую программу.
В этом программы, мы хотим использовать два отдельных оператора cat ()
для отображения текста на экране, один для высокого уровня, а второй для низкого уровня.
- Наш вход — это
testVariable
, содержащий проверяемую переменную. - Наш вывод — это типы данных высокого и низкого уровня этой переменной.
#input1.9
# outputnumericdouble
Давайте рассмотрим это шаг за шагом. Во-первых, нам нужно определить нашу переменную.
testVariable
Теперь, чтобы найти тип данных высокого уровня для данной testVariable
, мы используем class ()
ключевое слово с заданной testVariable
. Мы передаем это методу cat ()
для печати, а также добавляем n
для новой строки.
cat (class (testVariable), " n") # тип данных высокого уровня
Класс похож на чертеж, который помогает создать объект и содержит свою переменную-член вместе с атрибутами.
Теперь нам нужно распечатать низкоуровневый тип данных testVariable, и для этого мы используем typeof ()
с testVariable
.
cat (typeof (testVariable), " n") # низкий уровень переменной
Давайте соберем все вместе и запустим наш код!
# напишите здесь свой код R
iv>
Чему научиться дальше
Поздравляем! Вы изучили основы R и написали две программы! Теперь вы готовы приступить к изучению более сложных понятий. Следующие шаги для освоения R следующие:
- Списки и массивы
- Матрицы и фреймы данных
- Операторы и нотация
- Условные операторы
- Обработка исключений
- и многое другое
Чтобы получить вы начали изучать эти сложные темы, компания Educative создала бесплатный курс Learn R from Scratch . Вы будете использовать практические занятия и примеры из реальной жизни, чтобы освоить R с нуля. К концу вы станете специалистом по обработке данных!
Удачного обучения!
Продолжить чтение о науке о данных и кодировании
- Простой анализ данных: учебное пособие по Python Pandas
- Машинное обучение 101 и наука о данных: советы от отраслевой эксперт
- Учебное пособие по Python для начинающих: создание проекта с нуля