Цель: научиться считать описательные статистики для количественной и категориальной переменных, строить доверительный интервал, а также графики плотности вероятности.
В RStudio создайте RMarkdown-файл и загрузите датасет pima
.
pima.xlsx
В первых двух заданиях вам необходимо посчитать описательные статистики. Для количественной переменной рассчитайте число наблюдений, среднее, стандартное отклонение, 1-й и 3-й квартили, минимум и максимум. Для категориальной переменной определите абсолютную и относительные частоты.
-
Рассчитайте описательные статистики для переменных glucose, pressure, mass. — 1 балл
-
Рассчитайте описательную статистику для переменной diabetes. Создайте на основе переменной age новую переменную age_group, которая будет отражать следующие возрастные группы: 21–35, 36–49 и 50+. Посчитайте описательную статистику для новой переменной. — 1 балл
-
Определите 90% доверительный интервал для переменной pedigree. — 2 балла
-
Постройте график плотности вероятности для переменной glucose и отметьте на нем среднее значение. Для той же переменной постройте гистограмму. Постройте два ящика с усами для значений pos и neg соответственно переменной diabetes. — 3 балла
-
Постройте на одном графике две диаграммы рассеяния для наличия или отсутствия диабета. По оси X представьте значения обхвата трицепса, а по оси Y — массу тела. Выполните окрашивание, заливку и группирование по переменной diabetes. — 3 балла
Обратите внимание:
- Для подсчета описательных статистик удобно воспользоваться функцией
summarise()
пакетаdplyr
. - Для решения 5-го задания удобно воспользоваться функцией
facet_grid()
пакетаggplot2
.