Farih.co.id
Home Programming Pengantar PandasAI: Perpustakaan Python AI Generatif

Pengantar PandasAI: Perpustakaan Python AI Generatif

manipulating datasets and dataframes with pandasai featured image

Pandas adalah perpustakaan yang paling dominan untuk memanipulasi kumpulan data dan kerangka data. Ini sudah menjadi norma sejak lama. Tetapi dengan kemajuan dalam kecerdasan buatan, perpustakaan sumber terbuka baru yang disebut PandasAI dikembangkan yang menambahkan kemampuan AI generatif ke Panda.


PandasAI tidak menggantikan Pandas. Sebaliknya, itu memberikan kemampuan AI generatifnya. Dengan cara ini, Anda dapat melakukan analisis data dengan mengobrol dengan PandasAI. Ini kemudian mengabstraksi apa yang terjadi di latar belakang dan memberi Anda hasil kueri Anda.


Menginstal PandasAI

PandaAI tersedia melalui PyPI (Python Package Index). Buat lingkungan virtual baru jika Anda menggunakan IDE lokal. Kemudian gunakan manajer paket pip untuk menginstalnya.

 pip install pandasai 

Anda mungkin mengalami error konflik ketergantungan yang serupa dengan yang ditunjukkan di bawah ini jika Anda menggunakan Google Colab.

Kesalahan konflik ketergantungan

Jangan downgrade versi IPython. Mulai ulang runtime Anda dan jalankan blok kode lagi. Ini akan menyelesaikan masalah.

Memahami Sampel Dataset

Kumpulan data sampel yang akan Anda manipulasi dengan PandasAI adalah kumpulan data Harga Perumahan California dari Kaggle. Kumpulan data ini berisi informasi tentang perumahan dari sensus California tahun 1990. Ini memiliki sepuluh kolom yang menyediakan statistik tentang rumah-rumah ini. Kartu data untuk membantu Anda mempelajari lebih lanjut tentang kumpulan data ini tersedia di Kaggle. Di bawah ini adalah lima baris pertama dari kumpulan data.

lima baris pertama dari kumpulan data

Setiap kolom mewakili satu statistik rumah.

Menghubungkan PandasAI ke Model Bahasa Besar

Untuk menghubungkan PandasAI ke model bahasa besar (LLM) seperti OpenAI, Anda memerlukan akses ke kunci API-nya. Untuk mendapatkannya, lanjutkan ke Platform AI terbuka. Kemudian masuk ke akun Anda. Pilih API di bawah halaman opsi yang muncul berikutnya.

Buka halaman beranda masuk AI

Setelah itu, klik profil Anda dan pilih Lihat kunci API pilihan. Pada halaman yang muncul klik berikutnya Buat kunci rahasia baru tombol. Terakhir, beri nama kunci API Anda.

Halaman kunci OpenAI API

OpenAI akan menghasilkan kunci API Anda. Salin karena Anda akan membutuhkannya saat menghubungkan PandasAI dengan OpenAI. Pastikan Anda merahasiakan kuncinya karena siapa pun yang memiliki akses ke sana dapat melakukan panggilan ke OpenAI atas nama Anda. OpenAI kemudian akan menagih akun Anda untuk panggilan tersebut.

Sekarang setelah Anda memiliki kunci API, buat skrip Python baru dan rekatkan kode di bawah ini. Anda tidak perlu mengubah kode ini karena sebagian besar waktu Anda akan membuatnya.

 import pandas as pd
from pandasai import PandasAI


df = pd.read_csv("/content/housing.csv")


from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="your API token")

pandas_ai = PandasAI(llm)

Kode di atas mengimpor PandasAI dan Pandas. Kemudian membaca dataset. Terakhir, ini menginstansiasi OpenAI LLM.

Anda sekarang siap untuk berkomunikasi dengan data Anda.

Melakukan Tugas Sederhana Menggunakan PandasAI

Untuk mengkueri data Anda, teruskan kerangka data dan permintaan Anda ke instance kelas PandasAI. Mulailah dengan mencetak lima baris pertama dari kumpulan data Anda.

 pandas_ai(df, prompt='What are the first five rows of the dataset?') 

Output dari prompt di atas adalah sebagai berikut:

lima baris pertama dari kumpulan data

Output ini identik dengan ikhtisar dataset sebelumnya. Hal ini menunjukkan bahwa PandasAI memberikan hasil yang benar dan dapat diandalkan.

Kemudian, periksa jumlah kolom yang ada di kumpulan data Anda.

 pandas_ai(df, prompt='How many columns are in the dataset? ') 

Ini mengembalikan 10 yang merupakan jumlah kolom yang benar dalam kumpulan data Perumahan California.

Memeriksa apakah ada nilai yang hilang dalam dataset.

 pandas_ai(df, prompt='Are there any missing values in the dataset?') 

PandasAI mengembalikan itu total_kamar tidur kolom memiliki 207 nilai yang hilang, yang sekali lagi benar.

Ada banyak tugas sederhana yang dapat Anda capai menggunakan PandasAI, Anda tidak terbatas pada yang di atas.

Melakukan Query Kompleks Menggunakan PandasAI

PandasAI tidak hanya mendukung tugas-tugas sederhana. Anda juga dapat menggunakannya untuk melakukan kueri kompleks pada kumpulan data. Misalnya, dalam dataset perumahan, jika Anda ingin menentukan jumlah rumah yang terletak di sebuah pulau, bernilai lebih dari 100.000 dolar, dan memiliki lebih dari 10 kamar, Anda dapat menggunakan prompt di bawah ini.

 pandas_ai(df,prompt= "How many houses have a value greater than 100000,"
                    " are in an island and total bedrooms is more than 10?")

Output yang benar adalah lima. Ini adalah hasil yang sama dengan keluaran PandasAI.

Kueri kompleks mungkin membutuhkan waktu bagi analis data untuk menulis dan men-debug. Prompt di atas hanya membutuhkan dua baris bahasa alami untuk menyelesaikan tugas yang sama. Anda hanya perlu memikirkan dengan tepat apa yang ingin Anda capai, dan PandasAI akan mengurus sisanya.

Menggambar Bagan Menggunakan PandasAI

Bagan adalah bagian penting dari setiap proses analisis data. Ini membantu analis data memvisualisasikan data dengan cara yang ramah manusia. PandasAI juga memiliki fitur menggambar grafik. Anda hanya perlu melewati kerangka data dan instruksinya.

Mulailah dengan membuat histogram untuk setiap kolom dalam kumpulan data. Ini akan membantu Anda memvisualisasikan distribusi variabel.

 pandas_ai(df, prompt= "Plot a histogram for each column in the dataset") 

Outputnya adalah sebagai berikut:

output histogram pandasai untuk semua kolom

PandasAI dapat menggambar histogram dari semua kolom tanpa harus memberikan nama mereka di prompt.

PandasAI juga dapat memplot bagan tanpa Anda memberi tahu secara eksplisit bagan mana yang akan digunakan. Misalnya, Anda mungkin ingin mengetahui korelasi data dalam kumpulan data perumahan. Untuk mencapai ini, Anda dapat melewati prompt sebagai berikut:

 pandas_ai(df, prompt= "Plot the correlation in the dataset") 

PandasAI memplot matriks korelasi seperti yang ditunjukkan di bawah ini:

plot matriks korelasi pandasai

Pustaka memilih peta panas dan memplot matriks korelasi.

Meneruskan Beberapa Bingkai Data ke Instans PandasAI

Bekerja dengan banyak kerangka data bisa jadi rumit. Terutama untuk orang yang baru dalam analisis data. PandasAI menjembatani celah ini karena yang perlu Anda lakukan hanyalah meneruskan kedua kerangka data dan mulai menggunakan perintah untuk memanipulasi data.

Buat dua kerangka data menggunakan Pandas.

 employees_data = {
   'EmployeeID': [1, 2, 3, 4, 5],
   'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
   'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance']
}

salaries_data = {
   'EmployeeID': [1, 2, 3, 4, 5],
   'Salary': [5000, 6000, 4500, 7000, 5500]
}

employees_df = pd.DataFrame(employees_data)
salaries_df = pd.DataFrame(salaries_data)

Anda dapat mengajukan pertanyaan kepada PandasAI yang melintasi kedua kerangka data. Anda hanya perlu meneruskan kedua kerangka data ke instance PandasAI.

 pandas_ai([employees_df, salaries_df], "Which employee has the largest salary?")

Itu kembali Olivia yang sekali lagi merupakan jawaban yang benar.

Melakukan analisis data tidak pernah semudah ini, PandasAI memungkinkan Anda mengobrol dengan data dan menganalisisnya dengan mudah.

Memahami Teknologi Yang Mendukung PandasAI

PandasAI menyederhanakan proses analisis data sehingga menghemat banyak waktu bagi analis data. Tapi itu mengabstraksi apa yang terjadi di latar belakang. Anda perlu membiasakan diri dengan AI generatif sehingga Anda dapat memiliki gambaran umum tentang bagaimana PandasAI beroperasi di bawah tenda. Ini juga akan membantu Anda mengikuti inovasi terbaru dalam domain AI generatif.

Comment
Share:

Leave a Reply

Your email address will not be published. Required fields are marked *

Ad