Panda .baca_csv

Saya telah membincangkan beberapa sejarah dan kegunaan untuk panda perpustakaan Python. panda dirancang kerana memerlukan perpustakaan analisis dan manipulasi data kewangan yang cekap untuk Python. Untuk memuatkan data untuk analisis dan manipulasi, panda menyediakan dua kaedah, Pembaca Data dan baca_csv. Saya merangkumi yang pertama di sini. Yang terakhir adalah tajuk tutorial ini.

.baca_csv

Terdapat sebilangan besar repositori data percuma dalam talian yang merangkumi maklumat mengenai pelbagai bidang. Saya telah memasukkan beberapa sumber tersebut di bahagian rujukan di bawah. Kerana saya telah menunjukkan API terbina dalam untuk menarik data kewangan dengan cekap di sini, saya akan menggunakan sumber data lain dalam tutorial ini.

Data.gov menawarkan banyak pilihan data percuma mengenai semua perkara dari perubahan iklim hingga U.S. statistik pembuatan. Saya telah memuat turun dua set data untuk digunakan dalam tutorial ini. Yang pertama adalah suhu maksimum maksimum harian untuk Bay County, Florida. Data ini dimuat turun dari U.S. Kit Ketahanan Iklim untuk tempoh 1950 hingga sekarang.

Yang kedua adalah Kajian Aliran Komoditi yang mengukur mod dan jumlah import ke negara ini dalam jangka masa 5 tahun.

Kedua-dua pautan untuk set data ini disediakan di bahagian rujukan di bawah. The .baca_csv kaedah, seperti yang jelas dari namanya, akan memuatkan maklumat ini dari fail CSV dan memberi contoh a DataFrame daripada set data itu.

Penggunaan

Bila-bila masa anda menggunakan perpustakaan luaran, anda perlu memberitahu Python bahawa ia perlu diimport. Berikut adalah garis kod yang mengimport perpustakaan panda.

import panda sebagai pd

Penggunaan asas .baca_csv kaedah ada di bawah. Ini mewujudkan dan mengisi a DataFrame df dengan maklumat dalam fail CSV.

df = pd.read_csv ('12005-tahunan-hist-obs-tasmax.csv ')

Dengan menambahkan beberapa baris lagi, kita dapat memeriksa 5 baris pertama dan terakhir dari DataFrame yang baru dibuat.

df = pd.read_csv ('12005-tahunan-hist-obs-tasmax.csv ')
mencetak (df.kepala (5))
mencetak (df.ekor (5))

Kod tersebut telah memuatkan lajur selama setahun, suhu harian rata-rata dalam Celsius (tasmax), dan membina skema pengindeksan berdasarkan 1 yang meningkat untuk setiap baris data. Penting juga untuk diperhatikan bahawa tajuk diisi dari fail. Dengan penggunaan asas kaedah yang ditunjukkan di atas, tajuk disimpulkan berada di baris pertama fail CSV. Ini dapat diubah dengan meneruskan set parameter yang berbeda ke metode tersebut.

Parameter

Saya telah memberikan pautan ke panda .baca_csv dokumentasi dalam rujukan di bawah. Ada beberapa parameter yang dapat digunakan untuk mengubah cara data dibaca dan diformat dalam DataFrame.

Terdapat sebilangan besar parameter untuk .baca_csv kaedah. Sebilangan besar tidak diperlukan kerana kebanyakan set data yang anda muat turun akan mempunyai format standard. Itu adalah lajur di baris pertama dan pembatas koma.

Terdapat beberapa parameter yang akan saya ketengahkan dalam tutorial kerana ia boleh berguna. Tinjauan yang lebih komprehensif dapat diambil dari halaman dokumentasi.

index_col

index_col adalah parameter yang boleh digunakan untuk menunjukkan lajur yang memegang indeks. Beberapa fail mungkin mengandungi indeks dan beberapa mungkin tidak. Dalam kumpulan data pertama kami, saya membiarkan python membuat indeks. Ini adalah standard .baca_csv tingkah laku.

Dalam set data kedua kami, terdapat indeks yang disertakan. Kod di bawah memuatkan DataFrame dengan data dalam file CSV, tetapi bukannya membuat indeks berdasarkan bilangan bulat tambahan, ia menggunakan lajur SHPMT_ID yang termasuk dalam set data.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ')
mencetak (df.kepala (5))
mencetak (df.ekor (5))

Walaupun set data ini menggunakan skema yang sama untuk indeks, set data lain mungkin mempunyai indeks yang lebih berguna.

nrows, skiprows, usecols

Dengan set data yang besar, anda mungkin hanya ingin memuatkan bahagian data. The mengekang, anak panah, dan usecols parameter akan membolehkan anda mengiris data yang disertakan dalam fail.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ', nrows = 50)
mencetak (df.kepala (5))
mencetak (df.ekor (5))

Dengan menambahkan mengekang parameter dengan nilai integer 50, the .panggilan ekor kini mengembalikan garis hingga 50. Selebihnya data dalam fail tidak diimport.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', skiprows = 1000)
mencetak (df.kepala (5))
mencetak (df.ekor (5))

Dengan menambahkan anak panah parameter, kami .kepala col tidak menunjukkan indeks permulaan 1001 dalam data. Kerana kami melewatkan baris tajuk, data baru kehilangan tajuk dan indeks berdasarkan data fail. Dalam beberapa kes, mungkin lebih baik memotong data anda di DataFrame dan bukannya sebelum memuatkan data.

The usecols adalah parameter berguna yang membolehkan anda mengimport hanya subkumpulan data mengikut lajur. Ia boleh dilalui indeks nol atau senarai rentetan dengan nama lajur. Saya menggunakan kod di bawah untuk mengimport empat lajur pertama ke yang baru DataFrame.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID',
nrows = 50, usecols = [0,1,2,3])
mencetak (df.kepala (5))
mencetak (df.ekor (5))

Dari baru kami .kepala panggilan, kami DataFrame kini hanya mengandungi empat lajur pertama dari set data.

enjin

Satu parameter terakhir yang saya rasa akan berguna dalam beberapa set data adalah enjin parameter. Anda boleh menggunakan enjin berasaskan C atau kod berasaskan Python. Enjin C secara semula jadi akan lebih laju. Ini penting jika anda mengimport set data yang besar. Kelebihan penghuraian Python adalah set yang lebih kaya dengan ciri. Manfaat ini mungkin kurang bermakna jika anda memasukkan data besar ke dalam memori.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID', mesin = 'c')
mencetak (df.kepala (5))
mencetak (df.ekor (5))

Susulan

Terdapat beberapa parameter lain yang dapat memperluas tingkah laku lalai .baca_csv kaedah. Mereka boleh didapati di halaman dokumen yang saya rujuk di bawah. .baca_csv adalah kaedah yang berguna untuk memuatkan set data ke dalam panda untuk analisis data. Kerana banyak set data percuma di internet tidak memiliki API, ini akan terbukti paling berguna untuk aplikasi di luar data kewangan di mana API yang kuat disediakan untuk mengimport data ke panda.

Rujukan

https: // panda.pydata.org / pandas-docs / stabil / dihasilkan / panda.baca_csv.html
https: // www.data.kerajaan /
https: // alatan.iklim.gov / # peneroka iklim
https: // www.bancian.gov / econ / cfs / pum.html

Tutorial baca_csv Pandas