Jak filtrovat odlišné hodnoty pomocí pandas DataFrame[].unique()
V Python pandas můžete použít funkci unique() k identifikaci jedinečných hodnot ve sloupci DataFrame. To usnadňuje získání rychlého přehledu o různých hodnotách ve vašem datovém souboru.
Jaká je syntaxe pandas DataFrame[].unique()?
Základní syntaxe pro použití pandas unique() je jednoduchá. Je to proto, že funkce nepřijímá žádné parametry:
DataFrame['column_name'].unique()pythonMějte na paměti, že unique() lze použít pouze na jeden sloupec. Před voláním funkce je třeba určit, který sloupec chcete vyhodnotit. Funkce unique() vrací pole numpy obsahující všechny různé hodnoty v pořadí, v jakém se vyskytují, přičemž duplicitní hodnoty ve sloupci jsou odstraněny. Hodnoty však netřídí.
Pokud již nějakou dobu pracujete s Pythonem, možná znáte ekvivalent pandas unique() v numpy. Z důvodu efektivity je obecně vhodnější používat verzi pandas.
Jak používat pandas DataFrame[].unique()
Chcete-li použít unique() v pandas DataFrame, musíte nejprve určit sloupec, který chcete zkontrolovat. V následujícím příkladu použijeme DataFrame, který obsahuje informace o věku a městě bydliště skupiny osob.
import pandas as pd
# Create a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [24, 27, 22, 32, 29],
'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)pythonVýsledný DataFrame vypadá takto:
Name Age City
0 Alice 24 Newcastle
1 Bob 27 London
2 Charlie 22 Newcastle
3 David 32 Cardiff
4 Edward 29 LondonŘekněme, že chceme vytvořit seznam všech měst, ve kterých žijí lidé v DataFrame. Můžeme použít funkci pandas unique() na sloupec, který obsahuje města.
# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)pythonVýstupem je pole numpy, které obsahuje jedno záznam pro každé město a ukazuje, že jednotlivci v DataFrame pocházejí celkem ze tří měst: Newcastle, Londýn a Cardiff.
['Newcastle' 'London' 'Cardiff']