Co je metoda describe() v pandas DataFrame?

Obsah

Funkce Python pandas DataFrame.describe() se používá k vytvoření statistického souhrnu numerických sloupců v DataFrame. Tento souhrn obsahuje klíčové statistické metriky, jako je průměr, směrodatná odchylka, minimum, maximum a různé percentily.

Jaká je syntaxe funkce `describe()` v pandas?

Základní syntaxe describe() pro DataFrames je jednoduchá. Vypadá takto:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Důležité parametry pro pandas `DataFrame.describe()`

Pomocí následujících parametrů můžete upravit výstup describe():

Parametr	Popis	Výchozí hodnota
`percentiles`	Seznam percentilů, které by měly být zahrnuty do souhrnu	`[.25, .5, .75]`
`include`	Určuje, které typy dat mají být zahrnuty do popisu; možné hodnoty jsou `numpy.number`, `numpy.object`, `all` nebo `None`.	`None`
`exclude`	Určuje, které datové typy mají být z popisu vyloučeny; funguje stejně jako parametr `include`.	`None`

Příklady použití pandas `describe()`

Pokud potřebujete rychlý přehled klíčových statistických metrik datového souboru, funkce pandas DataFrame.describe() je velmi užitečná.

Příklad 1: Statistický souhrn číselných údajů

V následujícím příkladu se podíváme na DataFrame df, který obsahuje různé typy prodejních dat.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nyní můžete pomocí pandas describe() získat statistický souhrn číselných údajů ve sloupcích:

summary = df.describe()
print(summary)

python

Výstup funkce pandas DataFrame.describe() je následující:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Klíčové metriky zobrazené ve výstupu jsou:

count: Počet položek, které nejsou NaN (Not a Number)
mean: Průměr hodnot (přístupný také přes DataFrame.mean())
std: Směrodatná odchylka hodnot
min, 25%, 50%, 75%, max: Minimální, 25. percentil, medián (50. percentil), 75. percentil a maximální hodnoty

Příklad 2: Přizpůsobení percentilů

Procentily ve výstupu pandas DataFrame.describe() můžete přizpůsobit pomocí parametru percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Toto volání funkce poskytuje následující výstup:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Ve výstupu jsou místo standardních percentilů z předchozího příkladu zahrnuty hodnoty 10%, 50 % a 90 %.

Související články

Jak načíst soubory do Pythonu pomocí pandas read_csv()

Python pandas read_csv() je výkonná funkce pro rychlý a efektivní přístup k obsahu souborů CSV v Pythonu. Funkce je flexibilní a nabízí řadu parametrů, takže můžete proces načítání přizpůsobit svým potřebám. Porozumění funkci pandas read_csv() je nezbytné pro práci s tabulkovými…

Číst více

Mr. Kosalshutterstock

Jak indexovat pandas DataFrames

Indexování DataFrame v pandas je výkonný nástroj pro efektivní a účinnou práci s daty. Pomocí různých metod můžete cílit na konkrétní data a podsady vašeho DataFrame. V tomto článku se podíváme na to, co je index DataFrame v pandas, jak přistupovat k datům ve sloupcích a řádcích…

Číst více

BEST-BACKGROUNDSShutterstock

Jak vyčistit data v pandas pomocí dropna()

Funkce pandas DataFrame.dropna() je výkonný nástroj pro čištění datových sad. Tato funkce efektivně odstraňuje chybějící hodnoty a lze ji použít s různými parametry, což programátorům umožňuje specifikovat různé požadavky na čištění dat. Zde se dozvíte více o syntaxi, parametrech…

Číst více

ESB Professionalshutterstock

Jak používat Pandas DataFrame k rychlé manipulaci s tabulkami v Pythonu

Modul Pandas je jedním z nejvýkonnějších nástrojů pro manipulaci s daty v jazyce Python. Jednou z ústředních datových struktur v Pandas je DataFrame. DataFrames lze použít k efektivní manipulaci s dvourozměrnými strukturovanými daty. Vysvětlíme strukturu datové struktury, stejně…

Číst více

BEST-BACKGROUNDSShutterstock

Jak procházet DataFrames pomocí pandas iterrows()

Pandas DataFrame.iterrows() je užitečná funkce pro procházení řádků v DataFrame, zejména pokud potřebujete zpracovávat data řádek po řádku. To je zvláště užitečné pro výpočty nebo podmíněnou logiku. V tomto článku se budeme zabývat syntaxí panda iterrows() a ukážeme vám, jak…

Číst více

Co je vlastnost iloc[] v Pythonu pandas?

Při práci s datovými rámci v Pythonu pandas nejsou pro analýzu dat vždy relevantní všechny řádky nebo sloupce datového rámce. Vlastnost pandas DataFrame iloc[] je užitečným nástrojem pro výběr řádků nebo sloupců pomocí jejich indexů. V tomto článku se podíváme na syntaxi iloc[] a…

Číst více

Co je metoda describe() v pandas DataFrame?

Jaká je syntaxe funkce describe() v pandas?

Důležité parametry pro pandas DataFrame.describe()

Příklady použití pandas describe()

Příklad 1: Statistický souhrn číselných údajů

Příklad 2: Přizpůsobení percentilů

Jaká je syntaxe funkce `describe()` v pandas?

Důležité parametry pro pandas `DataFrame.describe()`

Příklady použití pandas `describe()`