Analisis Data Eksplorasi dalam Beberapa Detik – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Juhi Sharma

Analisis data

EDA melalui Analisis Visual Pandas

Foto oleh lynn lynum di Unsplash

EDA adalah cara untuk memahami tentang apa data itu. Ini sangat penting karena membantu kita memahami pencilan, hubungan fitur di dalam data dengan bantuan grafik dan plot.

EDA adalah proses yang memakan waktu karena kita perlu membuat visualisasi antara berbagai fitur menggunakan pustaka seperti Matplot, seaborn, dll.

Ada cara untuk mengotomatiskan proses ini dengan satu baris kode menggunakan pustaka Pandas Visual Analysis.

Tentang Analisis Visual Pandas

Ini adalah pustaka python open-source yang digunakan untuk Analisis Data Eksplorasi. Ini membuat antarmuka pengguna interaktif untuk memvisualisasikan kumpulan data di Notebook Jupyter. Visualisasi yang dibuat dapat diunduh sebagai gambar dari antarmuka itu sendiri. Ini memiliki jenis seleksi yang akan membantu untuk memvisualisasikan pola dengan dan tanpa pencilan.

Penerapan

Instalasi

Kami akan mulai dengan menginstal analisis visual pandas menggunakan pip install.

! pip install pandas_visual_analysis

2. Mengimpor Set Data

Kumpulan data yang saya gunakan di sini sudah ada di perpustakaan seaborn yang dapat dengan mudah dimuat menggunakan kode yang diberikan di bawah ini.

import seaborn sebagai sns
df = sns.load_dataset (‘tips’)
df.head ()
Set data (Sumber – Menurut penulis)

3. EDA menggunakan Pandas Visual Analysis

Pada langkah ini, kita akan mengimpor analisis visual panda dan menggunakannya untuk analisis data eksplorasi dari dataset yang kita gunakan.

dari pandas_visual_analysis, impor VisualAnalysis
VisualAnalysis (df)

Ini akan membuat antarmuka pengguna yang berisi semua visualisasi Set Data kami juga hanya dalam beberapa detik. Di sini Anda dapat dengan jelas memvisualisasikan berbagai atribut kumpulan data.

Visualisasi (Sumber oleh penulis)

Memahami Output

Mari kita pahami berbagai bagian di antarmuka pengguna:

Analisis Statistik: Bagian ini akan menunjukkan properti statistik seperti Mean, Median, Mode, dan Kuantil dari semua fitur numerik. Scatter Plot-It menunjukkan Distribusi antara 2 fitur berbeda dengan bantuan plot pencar. Anda dapat memilih fitur yang akan diplot pada sumbu X dan Y dari dropdown. Histogram-Ini menunjukkan distribusi antara 2 fitur berbeda dengan bantuan Histogram.

Ada 3 jenis pemilihan untuk data yang Visualisasinya akan Ditampilkan. Dengan menggunakan tipe pilihan Kurangi Anda bisa menyeret dan memilih titik data yang ingin Anda analisis visualisasi dan dengan menggunakan tipe pilihan Penambahan Anda bisa lagi menyeret dan menambahkan titik data yang dikecualikan.

Fitur ini sangat berguna jika Anda ingin melihat bagaimana visualisasi antara fitur yang berbeda berubah dengan dan tanpa pencilan dalam beberapa detik.

Di sini Anda dapat melihat bahwa saya telah mengecualikan pencilan yang ditandai oleh pena dengan memilih pilihan pengurangan dan itu juga mengubah visualisasi di semua bagian lainnya.

Ini adalah bagaimana Anda dapat menggunakan analisis visual panda untuk EDA. Salah satu keuntungan utama menggunakan pustaka ini dibandingkan pustaka lain adalah Anda bisa mengkustomisasi pemilihan titik data Anda.

Sebelum kamu pergi

Terima kasih sudah membaca! Jika Anda ingin menghubungi saya, silakan hubungi saya di [email protected] atau Profil LinkedIn saya. Selain itu, Anda dapat menemukan kode untuk artikel ini dan beberapa proyek sains data yang sangat berguna di akun GitHub saya.

Analisis Data Eksplorasi dalam Beberapa Detik awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI

Leave a Reply