Perplexity AI Rilis Unigram Tokenizer Dengan Latensi 5x Lebih Rendah

admin poles.id

7 days ago

poles.id – Perplexity AI, perusahaan teknologi yang fokus pada pengembangan kecerdasan buatan, baru-baru ini mengumumkan bahwa mereka telah berhasil melakukan rekayasa ulang terhadap tokenizer Unigram mereka. Dokumentasi hasil penelitian ini telah dipublikasikan secara terbuka melalui repositori mereka, yang dikenal sebagai pplx-garden. Tokener ini dioptimalkan dengan menggunakan bahasa pemrograman Rust, yang diharapkan tidak hanya meningkatkan performa, tetapi juga efisiensi sistem dalam penggunaan daya CPU saat melakukan inferensi.

Table of Contents

Toggle

Pemangkasan Latensi dan Penggunaan Sumber Daya CPU

Dalam pengembangan ini, tim riset Perplexity berhasil mengurangi latensi hingga lima kali lebih cepat dibandingkan dengan pustaka tokenizer terkenal dari Hugging Face. Tokener baru ini juga mencatat pengurangan pemakaian CPU dalam stack inferensi hingga lima hingga enam kali lipat tanpa melakukan alokasi heap yang berkelanjutan. Hal ini tentunya memberikan dampak yang signifikan pada kinerja sistem, terutama dalam aplikasi yang membutuhkan kecepatan dan efisiensi tinggi.

Analisis kinerja menunjukkan bahwa pada panjang input yang umum, penurunan latensi dari 349 mikrodetik (µs) menjadi lebih kurang 63 µs setelah penerapan tiga optimasi utama di dalam sistem. Keberhasilan ini membuat tokenizer Unigram dari Perplexity menjadi salah satu yang paling efisien di kelasnya dalam pengelolaan sumber daya.

Tokenisasi Unigram: Latar Belakang dan Pentingnya

Tokenisasi Unigram sendiri merupakan metode yang diperkenalkan oleh Taku Kudo pada tahun 2018 dan diimplementasikan dalam pustaka SentencePiece. Metode ini memperlakukan segmentasi sebagai masalah jalur paling mungkin, di mana setiap token vocab memiliki log-probabilitas yang dipelajari. Bagi banyak model pembelajaran mesin, terutama yang berkaitan dengan bahasa, kecepatan dalam memproses input sangat penting.

Proses tokenisasi biasanya dijalankan pada CPU sebelum input diteruskan ke GPU, dan hal ini menjadi hambatan yang signifikan jika ukuran batch cukup besar. Model kecil, seperti model embedding dan pengklasifikasi, dapat memiliki waktu eksekusi yang sangat cepat jika menggunakan GPU, tetapi waktu tokenisasi pada CPU dapat menjadi hambatan besar dan menyita sumber daya, sehingga meningkatkan latensi total.

Perbaikan yang Dilakukan: Inovasi dalam Struktur Data

Sebelum melakukan perubahan besar pada struktur trie, tim Perplexity bertujuan untuk mengidentifikasi biaya dari pekerjaan yang tidak perlu. Dalam penelitian ini, mereka berhasil menyusun pola baru yang lebih hemat memori, menggunakan struktur yang dikenal sebagai Double-Array Trie. Dengan pendekatan ini, dua array integer digunakan untuk mengkodekan seluruh trie dalam memori yang berdekatan, memungkinkan pengurangan yang signifikan pada latensi.

Tiga optimasi utama yang diterapkan adalah:

Double-array trie: Menggantikan struktur HashMap yang berat dengan array sederhana, mengurangi waktu akses selama pencarian token.
Bitmap dan pengemasan inline: Memungkinkan pengujian yang lebih cepat untuk memastikan transisi valid antar token tanpa harus menggunakan array tambahan.
Penggunaan huge pages: Menciptakan efisiensi lebih dalam manajemen memori, sehingga memperkecil jumlah kesalahan TLB (Translation Lookaside Buffer) dan mengurangi latensi lebih jauh.

Kesimpulan

Inovasi yang dilakukan oleh Perplexity dalam pengembangan tokenizer Unigram-nya tidak hanya menghasilkan peningkatan performa yang signifikan, tetapi juga menjawab kebutuhan industri untuk solusi yang lebih efisien dan responsif. Dengan menciptakan rekayasa yang ramah CPU dan mengurangi latensi yang terkait dengan tokenisasi, mereka menunjukkan potensi besar dalam pengembangan model-model bahasa yang lebih cepat dan efisien. Hasil penelitian ini memberikan wawasan berharga bagi para pengembang dan peneliti di bidang kecerdasan buatan, mendorong penerapan teknologi yang lebih canggih dalam pengolahan bahasa alami.