Python Series : Mengenal Pandas pada Python

Tentang Artikel :

Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi.


Apa itu Pandas?

Wakool.id - Pandas adalah sebuah library di Python yang bersifat open source dengan lisensi BSD pandas biasa digunakan untuk menganalisis data, manipulasi data, mengubah dimensi data, mengecek data dan masih banyak lagi. Pandas memudahkan kita untuk membaca file dengan banyak format file seperti .txt, .csv, .json, dan masih banyak lagi, untuk lebih lengkapnya bisa baca dokumentasinya disini. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami pandas langsung saja kita melakukan praktik pada google colaboration dengan menggunakan dataset: Adult Income

Catatan : setiap kita sudah selesai membuat kode baru, kita harus menekan tombol   pada setiap blok kode untuk menjalankan kode yang kita buat, dan menekan tombol   untuk menambahkan blok kode baru, untuk memudahkan kita dalam proses belajar setiap proses yang kita buat sekarang harus dijalankan pada blok kode baru supaya kita dapat melihat hasil dari setiap proses.

 

  1. Pertama kita membuat notebook baru dengan menekan tombol Notebook Baru

Setelah itu kita perlu mengimport dataset yang sudah kita download tadi, dengan menekan tombol  lalu tekan tombol  dan pilih file yang sudah kita download tadi

 

  2. Untuk menggunakan pandas, import pandas sebagai pd

import pandas as pd


  3. Setelah itu kita akan mengubah file csv tadi menjadi dataframe

df = pd.read_csv('adult.data.csv')
df.head()

 

Pada baris kode di atas kita mengubah file csv menggunakan fungsi pd.read_csv() pada library pandas yang kita simpan pada variable df. Untuk melihat hasil konversi kita dapat menggunakan fungsi head() pada dataframe. Fungsi secara default akan menampilkan 5 data teratas dari dataframe, kita dapat mengubah jumlah data yang akan di tampilkan dengan menambahkan angka pada fungsi head() sebagai contoh : df.head(10) maka akan menampilkan 10 data teratas. Jika hasilnya seperti ini maka Anda berhasil melakukan konversi.

Adapun fungsi dasar pada pandas antara lain : 

Sample Data

Penggunaan fungsi tail() sama seperti fungsi head() yang membedakannya hanya outputnya saja, fungsi tail() hanya untuk melihat data terakhir dari dataframe

df.tail()

Fungsi sample() pada Pandas dapat digunakan jika kita ingin menampilkan data secara acak.

df.sample(5)

Jika ingin menampilkan seluruh data yang ada pada dataframe.

df

Jumlah Data

Untuk melihat jumlah data pada setiap kolom menggunakan perintah count()

df.count() 

Informasi Struktur Data

Fungsi shape() digunakan untuk melihat berapa banyak baris dan kolom pada dataframe

df.shape()

 

Output :

(25775, 15)

Artinya dataframe memiliki 25775 baris/data dan 15 kolom

Untuk mendapatkan informasi kolom, datatype dan informasi struktur lainnya 

df.info() 

 

Informasi Statistik

Informasi statistik untuk setiap kolom seperti nilai minimum, nilai maksimum, standar deviasi, rata-rata dan sebagainya, dapat ditampilkan dengan mengikuti perintah berikut

df.describe(include='all')

 

Semoga bermanfaat.

 

wkid/dqlab.id/hub.idbigdata.com/hilmanfjrsy

 

Baca Juga :

Python Series : Mengenal Statistik Dasar pada Python


ARTIKEL TERKAIT