poles.id – DSAEval adalah sebuah benchmark inovatif yang memperkenalkan metode baru untuk mengevaluasi agen data science berbasis model bahasa besar (LLM). Dengan semakin berkembangnya teknologi ini, agen-agen tersebut berupaya untuk mengotomatisasi berbagai tugas dalam ilmu data, mulai dari analisis data hingga penerapan pembelajaran mendalam. Namun, tantangan besar muncul akibat sifat masalah data science di dunia nyata yang seringkali bersifat terbuka dan tidak memiliki jawaban standar. Melalui pengembangan DSAEval, para peneliti berharap dapat memberikan solusi yang tepat untuk evaluasi dalam konteks ini.

Inovasi dalam Evaluasi Data Science

DSAEval mencakup 641 masalah data science yang berakar dari 285 dataset yang beragam, baik yang terstruktur maupun yang tidak terstruktur, seperti gambar dan teks. Dengan demikian, benchmark ini dirancang untuk mencakup berbagai masalah yang dihadapi oleh para praktisi di lapangan. Salah satu fitur utama dari DSAEval adalah Kemampuan Persepsi Lingkungan Multimodal, yang memungkinkan agen untuk menginterpretasikan observasi dari berbagai modalitas, termasuk teks dan visual. Ini sangat penting, mengingat banyak tugas data science melibatkan data dari berbagai sumber.

Iteratif dan Kumulatif dalam Proyek Data Science

Fitur lainnya adalah Interaksi Multi-Kueri, yang mencerminkan sifat iteratif dan kumulatif dari proyek-proyek data science di dunia nyata. Hal ini memungkinkan agen untuk belajar dan beradaptasi seiring berjalannya waktu, meningkatkan efektivitas dalam menyelesaikan masalah yang lebih kompleks. Metode ini menjadi langkah maju dalam mengevaluasi bagaimana agen dapat berfungsi di dunia nyata, di mana solusi tidak selalu langsung terlihat.

Dampak Hasil Evaluasi

Dalam laporan evaluasi yang dilakukan terhadap 13 LLM canggih menggunakan DSAEval, hasilnya menunjukkan bahwa model Claude-Sonnet-4.5 mencapai performa terbaik secara keseluruhan. Model lainnya, seperti MiMo-V2-Pro dan GPT-5.2, unggul dalam efisiensi waktu dan langkah, sementara MiMo-V2-Flash tercatat sebagai yang paling hemat biaya. Temuan ini menunjukkan bahwa meskipun agen data science saat ini dapat beroperasi dengan baik pada data terstruktur dan alur kerja analisis yang rutin, tantangan signifikan tetap ada dalam domain yang tidak terstruktur.

Performa Multimodal dan Implikasin Ke Depan

Menariknya, penerapan persepsi multimodal terbukti secara konsisten meningkatkan performa pada tugas-tugas terkait visual. Peningkatan kinerja ini bervariasi antara 2,04% hingga 11,30%. Penemuan ini tidak hanya menyoroti potensi teknologi saat ini, tetapi juga membuka peluang bagi penelitian lebih lanjut di masa depan. Para peneliti mendorong eksplorasi lebih dalam mengenai bagaimana agen dapat beradaptasi dengan berbagai jenis data dan konteks yang kompleks.

Kesimpulan

Secara keseluruhan, pengembangan DSAEval merupakan langkah maju yang signifikan dalam mengevaluasi agen-agen berbasis LLM dalam konteks masalah data science yang nyata. Dengan tantangan yang masih ada di domain data tidak terstruktur, penelitian dan pengembangan lebih lanjut dibutuhkan untuk meningkatkan efektivitas agen dalam menyelesaikan berbagai masalah ini. DSAEval tidak hanya menjadi alat evaluasi, tetapi juga pendorong inovasi di bidang ilmu data.

By admin poles.id