Jak filtrovat odlišné hodnoty pomocí pandas DataFrame[].unique()

Obsah

V Python pandas můžete použít funkci unique() k identifikaci jedinečných hodnot ve sloupci DataFrame. To usnadňuje získání rychlého přehledu o různých hodnotách ve vašem datovém souboru.

Jaká je syntaxe pandas `DataFrame[].unique()`?

Základní syntaxe pro použití pandas unique() je jednoduchá. Je to proto, že funkce nepřijímá žádné parametry:

DataFrame['column_name'].unique()

python

Mějte na paměti, že unique() lze použít pouze na jeden sloupec. Před voláním funkce je třeba určit, který sloupec chcete vyhodnotit. Funkce unique() vrací pole numpy obsahující všechny různé hodnoty v pořadí, v jakém se vyskytují, přičemž duplicitní hodnoty ve sloupci jsou odstraněny. Hodnoty však netřídí.

Poznámka

Pokud již nějakou dobu pracujete s Pythonem, možná znáte ekvivalent pandas unique() v numpy. Z důvodu efektivity je obecně vhodnější používat verzi pandas.

Jak používat pandas DataFrame[].unique()

Chcete-li použít unique() v pandas DataFrame, musíte nejprve určit sloupec, který chcete zkontrolovat. V následujícím příkladu použijeme DataFrame, který obsahuje informace o věku a městě bydliště skupiny osob.

import pandas as pd
# Create a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)

python

Výsledný DataFrame vypadá takto:

Name  	Age       City
0    Alice    	24    	Newcastle
1    Bob    	27  		London
2  Charlie    	22    	Newcastle
3    David    	32    	Cardiff
4   Edward    	29  		London

Řekněme, že chceme vytvořit seznam všech měst, ve kterých žijí lidé v DataFrame. Můžeme použít funkci pandas unique() na sloupec, který obsahuje města.

# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)

python

Výstupem je pole numpy, které obsahuje jedno záznam pro každé město a ukazuje, že jednotlivci v DataFrame pocházejí celkem ze tří měst: Newcastle, Londýn a Cardiff.

['Newcastle' 'London' 'Cardiff']

Související články

Jak vybrat data z pandas DataFrames pomocí loc[]

Funkce DataFrame pandas loc[] nabízí snadný způsob extrakce dat pomocí štítků. Je obzvláště užitečná při práci s daty, kde pozice řádků a sloupců nejsou vždy předvídatelné. V tomto článku si projdeme syntaxi pandas loc[], jak ji používat a v čem se liší od funkce iloc[].

Číst více

BEST-BACKGROUNDSShutterstock

Jak procházet DataFrames pomocí pandas iterrows()

Pandas DataFrame.iterrows() je užitečná funkce pro procházení řádků v DataFrame, zejména pokud potřebujete zpracovávat data řádek po řádku. To je zvláště užitečné pro výpočty nebo podmíněnou logiku. V tomto článku se budeme zabývat syntaxí panda iterrows() a ukážeme vám, jak…

Číst více

Mr. Kosalshutterstock

Jak indexovat pandas DataFrames

Indexování DataFrame v pandas je výkonný nástroj pro efektivní a účinnou práci s daty. Pomocí různých metod můžete cílit na konkrétní data a podsady vašeho DataFrame. V tomto článku se podíváme na to, co je index DataFrame v pandas, jak přistupovat k datům ve sloupcích a řádcích…

Číst více

BEST-BACKGROUNDSShutterstock

Jak vyčistit data v pandas pomocí dropna()

Funkce pandas DataFrame.dropna() je výkonný nástroj pro čištění datových sad. Tato funkce efektivně odstraňuje chybějící hodnoty a lze ji použít s různými parametry, což programátorům umožňuje specifikovat různé požadavky na čištění dat. Zde se dozvíte více o syntaxi, parametrech…

Číst více

Ranjit Karmakarshutterstock

Co je metoda describe() v pandas DataFrame?

Metoda pandas DataFrame.describe() nabízí rychlý způsob, jak vygenerovat komplexní statistický souhrn numerických dat v DataFrame. Díky možnosti upravit percentily a specifikovat datové typy je velmi flexibilní a vhodná pro širokou škálu analýz. V tomto článku si projdeme, co…

Číst více

Jak filtrovat odlišné hodnoty pomocí pandas DataFrame[].unique()

Jaká je syntaxe pandas DataFrame[].unique()?

Jak používat pandas DataFrame[].unique()

Jaká je syntaxe pandas `DataFrame[].unique()`?