Proses mengolah data pada data science

Tentang Artikel :

Pada artikel kali ini saya akan membahas tentang bagaimana sih proses mengolah data pada data science, buat kalian yang penasaran yuk kita bahas pada artikel ini.


WAKOOL.ID - Setelah kemarin saya membahas tentang Apa itu Data Science kali ini saya akan membahas bagaimana sih tahapan yang harus di lalui dalam mengolah data pada data science? Dalam data science secara garis besarnya ada 4 tahapan yang biasa di lalui oleh para data scientist dalam mengolah data hingga menampilkannya supaya mudah untuk dibaca dan enak untuk dilihat. Tanpa berlama-lama lagi langsung saja kita bahas apa saja sih 4 tahapan tersebut:

Data Collection.

Data collection atau pengumpulan data adalah proses mengumpulkan data dari banyak sumber, seperti survei, hasil lalu lintas web, pos media sosial yang diberi tag, dan transaksi keuangan. Dalam proses pengumpulan data kita perlu memastikan data yang telah kita kumpulkan itu akurat dan valid, proses ini menjadi langkah utama dan sangat penting dalam melakukan penelitian. Semakin akurat dan valid data yang kita kumpulkan maka semakin baik juga hasil yang akan kita dapatkan nantinya.

Tujuan dari pengumpulan data ini merupakan untuk mengukur dan mendapatkan informasi secara lengkap dan akurat dari bidang tersebut. Hal ini dapat membantu kita dalam mengevaluasi dan memprediksi data tersebut tentang kemungkinan dan trend di masa yang akan datang. Pada titik ini data yang kita dapatkan masih dalam bentuk mentah, jadi langkah selanjutnya adalah memproses data yang telah kita kumpulkan.

Data Preparation & Processing.

Setelah kita mengumpulkan data, selanjutnya kita menyiapkan dan memproses data tersebut. Karena tidak selamanya data yang didapatkan itu sesuai dengan apa yang kita inginkan, terkadang pada data tersebut banyak permasalahan yang akan mengganggu hasil dari analisis itu sendiri seperti nilai yang hilang, outliers, data duplikat ataupun format data yang tidak sesuai dengan sistem. Oleh karena itu untuk mengatasinya kita perlu tahapan preprocessing untuk menghilangkan permasalahan tersebut dengan mengonversi data ke dalam format yang lebih teratur.

Exploration Data

Exploration data atau eksplorasi data bertujuan untuk memahami karakteristik dari data yang kita miliki untuk menemukan gambaran dari data-data tersebut supaya kita bisa menentukan model analisis yang tepat. 

Visualization Data.

Visualization data atau visualisasi data adalah proses untuk mengkomunikasikan atau menampilkan data dengan format grafik atau gambar. Hal ini bertujuan supaya informasi atau data yang di tampilkan dapat dengan mudah di pahami oleh pengguna. 

Sekian penjelasan pada artikel kali ini, selanjutnya akan saya bahas bagaimana cara implementasi proses di atas dengan python.

Semoga bermanfaat.

 

Baca Juga :

Python Series : Mengenal Pandas pada Python

Python Series : Mengenal Statistik Dasar pada Python

Python Series : Apa itu Data Science?

 

wkid/medium/hilmanfjrsy