Jak načíst soubory do Pythonu pomocí pandas read_csv()

Obsah

Python pandas read_csv() je jednou z nejčastěji používaných metod pro načítání souborů CSV do pandas a jejich ukládání jako DataFrames. Soubory CSV (hodnoty oddělené čárkami) jsou široce používaným formátem pro ukládání tabulkových dat a jsou podporovány mnoha aplikacemi.

Jaká je syntaxe pro Python pandas `read_csv()`?

pandas.read_csv() vytvoří pandas DataFrame z CSV souboru. Základní syntaxe funkce vypadá takto:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Jaké jsou nejdůležitější parametry pro `pandas.read_csv()`?

pandas.read_csv() může přijímat širokou škálu parametrů. Abychom to zjednodušili, zaměříme se na nejdůležitější argumenty. Zde je přehled klíčových parametrů, které můžete použít k určení chování funkce:

Parametr	Význam	Výchozí hodnota
`filepath_or_buffer`	Jedná se o řetězec Pythonu představující cestu k souboru CSV nebo datovému bufferu, například URL.
`sep`	Určuje oddělovač mezi hodnotami.	`,`
`header`	Určuje, který řádek se má použít jako záhlaví.	`infer` (první řádek)
`names`	Pokud je nastaveno `header=None`, můžete použít `names` k poskytnutí seznamu názvů sloupců v Pythonu.
`index_col`	Určuje, který sloupec se má použít jako index.	`None`
`usecols`	Tento parametr umožňuje vybrat sloupce, které chcete načíst do DataFrame.	`None`
`dtype`	Určuje datový typ sloupců.	`None`

Kompletní seznam parametrů této funkce najdete v dokumentaci pandas.

Jak krok za krokem přistupovat k souborům CSV

Pomocí pandas.read_csv() můžete snadno přenést data ze souborů CSV do Pythonu v několika málo krocích.

V následujících příkladech budeme pracovat s CSV souborem, který má následující strukturu:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Krok 1: Importujte pandas

Nejprve importujte knihovnu pandas do svého skriptu Python.

import pandas as pd

python

Krok 2: Načtěte soubor CSV

Nyní můžete načíst svůj CSV soubor do Python pandas pomocí funkce read_csv(). Jednoduše předávejte cestu k souboru do funkce. V následujícím kódu použijeme soubor s názvem data.csv, který je uložen ve stejném adresáři jako skript:

df = pd.read_csv('data.csv')

python

Výše uvedený kód uloží soubor do objektu DataFrame (df), se kterým pak budeme moci pracovat. Pandas automaticky interpretuje první řádek jako záhlaví sloupců, pokud neurčíte jinak.

Krok 3: Zobrazení souboru CSV

Je dobré se podívat na prvních několik řádků DataFrame, abyste se ujistili, že byl soubor načten správně. K tomu můžete použít funkci DataFrame.head(). Ve výchozím nastavení zobrazuje prvních pět řádků DataFrame, což vám poskytne rychlý přehled o struktuře dat:

print(df.head())

python

Výstup vypadá takto:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Krok 4: Změňte názvy sloupců (volitelné)

Pokud váš soubor CSV nemá záhlaví, můžete názvy sloupců definovat ručně:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])

python

V tomto příkladu jsme sloupce pojmenovali ID, Jméno, Věk, Město a Plat. Výsledek vypadá takto:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000

Související články

BEST-BACKGROUNDSShutterstock

Jak procházet DataFrames pomocí pandas iterrows()

Pandas DataFrame.iterrows() je užitečná funkce pro procházení řádků v DataFrame, zejména pokud potřebujete zpracovávat data řádek po řádku. To je zvláště užitečné pro výpočty nebo podmíněnou logiku. V tomto článku se budeme zabývat syntaxí panda iterrows() a ukážeme vám, jak…

Číst více

Mr. Kosalshutterstock

Jak indexovat pandas DataFrames

Indexování DataFrame v pandas je výkonný nástroj pro efektivní a účinnou práci s daty. Pomocí různých metod můžete cílit na konkrétní data a podsady vašeho DataFrame. V tomto článku se podíváme na to, co je index DataFrame v pandas, jak přistupovat k datům ve sloupcích a řádcích…

Číst více

BEST-BACKGROUNDSShutterstock

Jak vyčistit data v pandas pomocí dropna()

Funkce pandas DataFrame.dropna() je výkonný nástroj pro čištění datových sad. Tato funkce efektivně odstraňuje chybějící hodnoty a lze ji použít s různými parametry, což programátorům umožňuje specifikovat různé požadavky na čištění dat. Zde se dozvíte více o syntaxi, parametrech…

Číst více

Mr. Kosalshutterstock

Co je Python pandas any() a jak funguje?

V pandách je metoda DataFrame any() účinným nástrojem pro rychlou kontrolu, zda existuje alespoň jedna pravdivá hodnota podél osy DataFrame. Tato metoda je obzvláště užitečná pro analýzu a ověřování dat. V tomto článku vám ukážeme, jaká je syntaxe této funkce, jak ji používat a…

Číst více

ESB Professionalshutterstock

Jak používat Pandas DataFrame k rychlé manipulaci s tabulkami v Pythonu

Modul Pandas je jedním z nejvýkonnějších nástrojů pro manipulaci s daty v jazyce Python. Jednou z ústředních datových struktur v Pandas je DataFrame. DataFrames lze použít k efektivní manipulaci s dvourozměrnými strukturovanými daty. Vysvětlíme strukturu datové struktury, stejně…

Číst více

Co je vlastnost iloc[] v Pythonu pandas?

Při práci s datovými rámci v Pythonu pandas nejsou pro analýzu dat vždy relevantní všechny řádky nebo sloupce datového rámce. Vlastnost pandas DataFrame iloc[] je užitečným nástrojem pro výběr řádků nebo sloupců pomocí jejich indexů. V tomto článku se podíváme na syntaxi iloc[] a…

Číst více

Jak načíst soubory do Pythonu pomocí pandas read_csv()

Jaká je syntaxe pro Python pandas read_csv()?

Jaké jsou nejdůležitější parametry pro pandas.read_csv()?

Jak krok za krokem přistupovat k souborům CSV

Krok 1: Importujte pandas

Krok 2: Načtěte soubor CSV

Krok 3: Zobrazení souboru CSV

Krok 4: Změňte názvy sloupců (volitelné)

Jaká je syntaxe pro Python pandas `read_csv()`?

Jaké jsou nejdůležitější parametry pro `pandas.read_csv()`?