poles.id – Microsoft baru-baru ini mengumumkan peluncuran model terbaru mereka dalam keluarga pengenalan suara otomatis, yaitu MAI-Transcribe-1.5. Model ini dirancang untuk meningkatkan akurasi transkripsi suara dengan kemampuan mendukung 43 bahasa, serta beradaptasi dengan berbagai aksen dan kondisi akustik yang bising. Dikenalkan sebagai solusi yang ditujukan untuk kebutuhan transkripsi dalam lingkungan produksi, Microsoft berharap model ini dapat memberikan manfaat yang signifikan bagi berbagai sektor, mulai dari media hingga layanan pelanggan.

Apa Itu MAI-Transcribe-1.5?

MAI-Transcribe-1.5 merupakan model pengenalan suara otomatis (ASR) yang dikembangkan secara in-house oleh Microsoft. Berbeda dengan sistem lain yang mungkin bergantung pada teknologi pihak ketiga, model ini menawarkan kemampuan untuk mengubah audio menjadi teks secara langsung. Dengan dukungan untuk 43 bahasa dalam satu sistem, MAI-Transcribe-1.5 dioptimalkan untuk menangani berbagai aksen dan dialek dengan lebih baik, serta untuk berfungsi dalam kondisi akustik dunia nyata.

Model ini juga telah diintegrasikan ke dalam berbagai platform Microsoft seperti Copilot, Teams, GitHub, dan Dynamics 365 Contact Centre. Selain itu, akses ke model ini juga tersedia melalui Microsoft Foundry, yaitu platform untuk pengembangan model AI Microsoft.

Akurasi MAI-Transcribe-1.5

Akurasi model ini diukur menggunakan Word-Error-Rate (WER), di mana angka yang lebih rendah menunjukkan lebih sedikit kesalahan dalam hasil transkripsi. Microsoft melaporkan bahwa MAI-Transcribe-1.5 memiliki kinerja WER yang sangat baik di antara 43 bahasa, berdasarkan tolok ukur FLEURS, yang merupakan standar transkripsi multibahasa. Di leaderboard Artificial Analysis, model ini mencapai WER sebesar 2,4%, menempatkannya di peringkat ketiga di antara kompetitor.

Peningkatan kemampuan model ini terlihat dari perluasan jumlah bahasa yang dapat ditangani, dari semula 25 menjadi 43. Dengan penambahan 18 bahasa baru, termasuk sepuluh bahasa dari Asia Selatan seperti Bengali dan Tamil, akurasi tetap terjaga. Ini adalah langkah penting mengingat kompleksitas bahasa dan aksen yang ada di seluruh dunia.

Kecepatan Transkripsi

Berdasarkan laporan dari Microsoft, MAI-Transcribe-1.5 tidak hanya unggul dalam hal akurasi tetapi juga kecepatan. Model ini diklaim mampu melakukan transkripsi hingga lima kali lebih cepat dibandingkan dengan model lama atau alternatif lainnya yang setara. Dalam prakteknya, model ini dapat mentranskripsi satu jam audio dalam waktu kurang dari 15 detik, terutama efektif pada file audio yang panjang.

Kecepatan ini menjadi keuntungan tersendiri untuk berbagai aplikasi, terutama dalam situasi di mana waktu adalah hal yang krusial, seperti dalam rapat atau panggilan telepon yang membutuhkan analisis cepat.

Fitur Biasing Kata Kunci

Salah satu inovasi menarik dalam MAI-Transcribe-1.5 adalah penambahan fitur keyword biasing, yang memungkinkan pengguna untuk memberikan daftar kata kunci spesifik untuk bisnis mereka. Dengan cara ini, model ini dapat lebih akurat mengenali istilah khusus, nama produk, dan istilah medis yang kerap digunakan dalam sektor mereka. Menurut Microsoft, ketika menggunakan biasing, WER dapat berkurang hingga 30% pada tolok ukur FLEURS.

Misalnya, tanpa fitur biasing, nama tertentu mungkin diubah menjadi versi yang salah. Namun, dengan menyediakan daftar nama yang tepat, model ini dapat mengenali dan mentranskripsi dengan lebih akurat. Hal ini berpotensi sangat bermanfaat dalam konteks pertemuan, layanan kesehatan, atau pusat panggilan yang memiliki kosakata khusus.

Penggunaan MAI-Transcribe-1.5

MAI-Transcribe-1.5 diproyeksikan untuk berbagai penggunaan di dunia nyata, termasuk:

  • Caption Video untuk platform media dan konten.
  • Alat Aksesibilitas yang memerlukan caption yang akurat.
  • Transkripsi Rapat untuk alat kolaborasi seperti Teams.
  • Analisis Panggilan untuk pusat kontak dan analitik dukungan.
  • Alur Kerja Pembuatan Konten yang membutuhkan transkripsi cepat.
  • Agen Suara yang mengubah ucapan menjadi teks sebelum pemrosesan lebih lanjut.

Mengidentifikasi bahasa secara otomatis juga menjadi fitur unggulan, sehingga model dapat mendeteksi bahasa yang digunakan tanpa pengaturan manual.

Perbandingan MAI-Transcribe-1.5 dan Versi Sebelumnya

Dalam perbandingan antara MAI-Transcribe-1.5 dan versi sebelumnya, MAI-Transcribe-1, ada beberapa peningkatan signifikan. MAI-Transcribe-1.5 mampu mendukung lebih banyak bahasa, menambahkan fitur biasing kata kunci, serta meningkatkan kecepatan inferensi untuk audio panjang menjadi lebih efisien.

Namun, terdapat beberapa batasan, seperti kurangnya fitur diarization untuk label pembicara dan tidak adanya API streaming bawaan untuk penggunaan yang real-time. Sekalipun demikian, keunggulan-keunggulan tersebut menempatkan MAI-Transcribe-1.5 sebagai pilihan yang kuat di pasar pengenalan suara.

Kesimpulan

Perkembangan terbaru dari Microsoft dengan peluncuran MAI-Transcribe-1.5 menjanjikan banyak keunggulan dalam dunia transkripsi suara. Dengan akurasi tinggi, kecepatan yang jauh lebih baik, dan kemampuan untuk menyesuaikan dengan kebutuhan spesifik pengguna, model ini diharapkan dapat meningkatkan efisiensi operasional di berbagai sektor. Meskipun masih ada beberapa keterbatasan, inovasi ini menjadi langkah positif dalam menghadirkan solusi teknologi terbaik bagi penggunanya.

By admin poles.id