Jak načíst soubory do Pythonu pomocí pandas read_csv()
Python pandas read_csv() je jednou z nejčastěji používaných metod pro načítání souborů CSV do pandas a jejich ukládání jako DataFrames. Soubory CSV (hodnoty oddělené čárkami) jsou široce používaným formátem pro ukládání tabulkových dat a jsou podporovány mnoha aplikacemi.
Jaká je syntaxe pro Python pandas read_csv()?
pandas.read_csv() vytvoří pandas DataFrame z CSV souboru. Základní syntaxe funkce vypadá takto:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonJaké jsou nejdůležitější parametry pro pandas.read_csv()?
pandas.read_csv() může přijímat širokou škálu parametrů. Abychom to zjednodušili, zaměříme se na nejdůležitější argumenty. Zde je přehled klíčových parametrů, které můžete použít k určení chování funkce:
| Parametr | Význam | Výchozí hodnota |
|---|---|---|
filepath_or_buffer
|
Jedná se o řetězec Pythonu představující cestu k souboru CSV nebo datovému bufferu, například URL. | |
sep
|
Určuje oddělovač mezi hodnotami. | ,
|
header
|
Určuje, který řádek se má použít jako záhlaví. | infer (první řádek)
|
names
|
Pokud je nastaveno header=None, můžete použít names k poskytnutí seznamu názvů sloupců v Pythonu.
|
|
index_col
|
Určuje, který sloupec se má použít jako index. | None
|
usecols
|
Tento parametr umožňuje vybrat sloupce, které chcete načíst do DataFrame. | None
|
dtype
|
Určuje datový typ sloupců. | None
|
Kompletní seznam parametrů této funkce najdete v dokumentaci pandas.
Jak krok za krokem přistupovat k souborům CSV
Pomocí pandas.read_csv() můžete snadno přenést data ze souborů CSV do Pythonu v několika málo krocích.
V následujících příkladech budeme pracovat s CSV souborem, který má následující strukturu:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Krok 1: Importujte pandas
Nejprve importujte knihovnu pandas do svého skriptu Python.
import pandas as pdpythonKrok 2: Načtěte soubor CSV
Nyní můžete načíst svůj CSV soubor do Python pandas pomocí funkce read_csv(). Jednoduše předávejte cestu k souboru do funkce. V následujícím kódu použijeme soubor s názvem data.csv, který je uložen ve stejném adresáři jako skript:
df = pd.read_csv('data.csv')pythonVýše uvedený kód uloží soubor do objektu DataFrame (df), se kterým pak budeme moci pracovat. Pandas automaticky interpretuje první řádek jako záhlaví sloupců, pokud neurčíte jinak.
Krok 3: Zobrazení souboru CSV
Je dobré se podívat na prvních několik řádků DataFrame, abyste se ujistili, že byl soubor načten správně. K tomu můžete použít funkci DataFrame.head(). Ve výchozím nastavení zobrazuje prvních pět řádků DataFrame, což vám poskytne rychlý přehled o struktuře dat:
print(df.head())pythonVýstup vypadá takto:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Krok 4: Změňte názvy sloupců (volitelné)
Pokud váš soubor CSV nemá záhlaví, můžete názvy sloupců definovat ručně:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonV tomto příkladu jsme sloupce pojmenovali ID, Jméno, Věk, Město a Plat. Výsledek vypadá takto:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000