Co je metoda describe() v pandas DataFrame?
Funkce Python pandas DataFrame.describe() se používá k vytvoření statistického souhrnu numerických sloupců v DataFrame. Tento souhrn obsahuje klíčové statistické metriky, jako je průměr, směrodatná odchylka, minimum, maximum a různé percentily.
Jaká je syntaxe funkce describe() v pandas?
Základní syntaxe describe() pro DataFrames je jednoduchá. Vypadá takto:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonDůležité parametry pro pandas DataFrame.describe()
Pomocí následujících parametrů můžete upravit výstup describe():
| Parametr | Popis | Výchozí hodnota |
|---|---|---|
percentiles
|
Seznam percentilů, které by měly být zahrnuty do souhrnu | [.25, .5, .75]
|
include
|
Určuje, které typy dat mají být zahrnuty do popisu; možné hodnoty jsou numpy.number, numpy.object, all nebo None.
|
None
|
exclude
|
Určuje, které datové typy mají být z popisu vyloučeny; funguje stejně jako parametr include.
|
None
|
Příklady použití pandas describe()
Pokud potřebujete rychlý přehled klíčových statistických metrik datového souboru, funkce pandas DataFrame.describe() je velmi užitečná.
Příklad 1: Statistický souhrn číselných údajů
V následujícím příkladu se podíváme na DataFrame df, který obsahuje různé typy prodejních dat.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNyní můžete pomocí pandas describe() získat statistický souhrn číselných údajů ve sloupcích:
summary = df.describe()
print(summary)pythonVýstup funkce pandas DataFrame.describe() je následující:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Klíčové metriky zobrazené ve výstupu jsou:
count: Počet položek, které nejsou NaN (Not a Number)mean: Průměr hodnot (přístupný také přes DataFrame.mean())std: Směrodatná odchylka hodnotmin,25%,50%,75%,max: Minimální, 25. percentil, medián (50. percentil), 75. percentil a maximální hodnoty
Příklad 2: Přizpůsobení percentilů
Procentily ve výstupu pandas DataFrame.describe() můžete přizpůsobit pomocí parametru percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonToto volání funkce poskytuje následující výstup:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Ve výstupu jsou místo standardních percentilů z předchozího příkladu zahrnuty hodnoty 10%, 50 % a 90 %.