Описательная статистика — мощный инструмент анализа данных, позволяющий понять основные характеристики набора данных: среднее значение, медиану, моду, разброс и распределение. Это важный этап анализа, помогающий сделать предварительные выводы и определить дальнейшие шаги.
Основные метрики
Ключевые метрики описательной статистики:
- Среднее значение (Mean): Среднее арифметическое всех чисел в наборе данных. Определяет центральное значение.
- Медиана (Median): Центральное значение в отсортированном наборе данных. Разделяет данные на две равные части.
- Мода (Mode): Наиболее часто встречающееся значение. Полезно для выявления наиболее распространенных значений.
- Дисперсия (Variance) и стандартное отклонение (Standard Deviation): Показывают, насколько сильно данные отклоняются от среднего значения. Стандартное отклонение выражено в тех же единицах, что и сами данные.
- Квантили и процентили: Значения, разделяющие данные на определенные части. Медиана — 50-й процентиль.
Библиотеки Pandas и SciPy
Для работы с описательной статистикой в Python используются библиотеки Pandas и SciPy. Pandas предоставляет удобные структуры данных (DataFrame) и функции для обработки информации. SciPy, расширяющая возможности NumPy, предназначена для научных и технических вычислений, включая статистический анализ (модуль scipy.stats), численное интегрирование и оптимизацию. Она написана на языке C, обеспечивая высокую скорость вычислений.
Анализ данных о возрасте: пример
Рассмотрим анализ данных о возрасте людей с использованием Pandas и SciPy. Мы рассчитаем среднее значение, медиану, моду, дисперсию, стандартное отклонение, а также квантили и процентили.
Статистические тесты: t-тест и тест Манна-Уитни
SciPy предоставляет инструменты для статистических тестов. Например:
- t-тест: Проверяет, отличается ли среднее значение в одном или нескольких наборах данных от определенного значения или друг от друга. Применяется для сравнения средних значений двух групп.
- Тест Манна-Whitney (Mann-Whitney U test): Проверяет, отличаются ли распределения двух независимых выборок, особенно полезен для данных, не соответствующих нормальному распределению.
Примеры использования
Для t-теста используется функция scipy.stats.ttest_ind. Она возвращает статистику теста и p-значение. p-значение < 0.05 указывает на статистически значимое различие. Тест Манна-Уитни использует функцию scipy.stats.mannwhitneyu, также возвращая статистику и p-значение.
Объединение описательной статистики и статистических тестов
Рассмотрим пример анализа данных о возрасте людей в двух городах. Мы рассчитаем основные характеристики возрастов в каждом городе и проверим, отличаются ли средние значения возрастов между городами с помощью t-теста. p-значение < 0.05 укажет на статистически значимое различие в среднем возрасте.
Использование описательной статистики и статистических тестов в Python с Pandas и SciPy позволяет проводить глубокий анализ данных, делать обоснованные выводы и принимать решения на основе полученных результатов. Практическое применение поможет освоить эти важные инструменты.