Google Rilis TurboQuant, Hemat Memori LLM 6x Tanpa Penurunan Kualitas
Google telah meluncurkan algoritma kompresi AI terbarunya, TurboQuant, yang diklaim mampu mengurangi penggunaan memori model bahasa besar (LLM) hingga enam kali lipat. Inovasi ini memungkinkan model AI beroperasi lebih efisien tanpa mengorbankan kualitas keluaran, mengatasi kendala signifikan yang sering ditemukan pada metode kompresi sejenis sebelumnya.
Penggunaan memori yang masif merupakan tantangan utama dalam pengembangan dan penyebaran LLM. Model-model ini, yang seringkali berisi miliaran parameter, membutuhkan kapasitas RAM atau VRAM yang sangat besar, membatasi kemampuan implementasinya pada perangkat keras dengan sumber daya terbatas atau meningkatkan biaya operasional pada infrastruktur cloud. Metode kompresi AI tradisional, seperti kuantisasi (quantization) yang mengurangi presisi angka (misalnya dari FP32 ke INT8 atau INT4), seringkali mengakibatkan penurunan akurasi atau kualitas keluaran model. Keunggulan TurboQuant terletak pada kemampuannya mencapai rasio kompresi 6x tersebut sambil mempertahankan integritas dan kinerja model, sebuah pencapaian yang signifikan dalam optimasi AI.
Ketersediaan TurboQuant diperkirakan akan membawa dampak transformatif bagi industri AI. Bagi pengembang dan perusahaan, ini berarti pengurangan drastis pada biaya infrastruktur komputasi, memungkinkan penyebaran LLM yang lebih luas dan efisien. Model AI yang sebelumnya hanya dapat berjalan pada server kelas atas kini berpotensi diimplementasikan pada perangkat edge, perangkat seluler, atau sistem dengan daya rendah. Selain itu, peningkatan efisiensi ini dapat mempercepat waktu inferensi dan membuka jalan bagi pengembangan aplikasi AI baru yang membutuhkan respons real-time atau integrasi mendalam pada perangkat konsumen. Inovasi seperti TurboQuant sangat krusial dalam mendemokratisasi akses terhadap teknologi AI canggih dan mendorong gelombang inovasi berikutnya.