Optimalisasi Inferensi Large Language Models (LLM) pada Perangkat Keras Terbatas: Pendekatan Edge AI dan Komparasinya dengan Efisiensi Memori Skala Industri

Perkembangan Large Language Models (LLM) menuntut sumber daya komputasi yang masif, membatasi aksesibilitasnya untuk pengembang independen dan institusi dengan infrastruktur terbatas. Penelitian ini mengevaluasi implementasi Edge AI menggunakan RAM fisik 8GB dan GPU generasi lama melalui framework Ollama. Eksperimen ini menggunakan arsitektur server kustom berbasis Node.js pada lingkungan Linux. Hasil penelitian menyoroti kendala spesifik pada GPU seri Polaris (seperti Radeon RX 580), di mana arsitektur ROCm terkini tidak mendukung agregasi VRAM untuk tugas AI, sehingga memaksa komputasi berjalan murni pada CPU. Kendati demikian, melalui penerapan kuantisasi 4-bit, pembatasan KV Cache (n_ctx 8192), dan Flash Attention, model tetap dapat dieksekusi. Metodologi ini sejalan dengan inisiatif efisiensi memori yang baru-baru ini diterapkan oleh Google pada model skala kecil (SLM). Riset ini membuktikan kelayakan operasional Small Language Models pada spesifikasi perangkat keras minimum untuk integrasi sistem layanan pelanggan otomatis.

1. Pendahuluan

Adopsi Artificial Intelligence (AI) generatif, khususnya Large Language Models (LLM), telah merevolusi otomasi sistem informasi. Namun, hambatan terbesar dalam implementasinya secara lokal (on-premise) adalah kebutuhan Random Access Memory (RAM) dan Video RAM (VRAM) yang sangat tinggi. Perusahaan teknologi besar seperti Google telah menginisiasi pengembangan Small Language Models (SLM) seperti seri Gemma dan optimalisasi hardware-aware inference untuk mengatasi bottleneck ini.

Penelitian ini memaparkan implementasi nyata dari konsep efisiensi tersebut pada infrastruktur dengan keterbatasan ekstrem: RAM fisik sebesar 8GB dan penggunaan GPU generasi lama. Tujuan dari penelitian ini adalah merancang dan menganalisis arsitektur backend yang efisien untuk asisten AI, dengan membandingkan teknik pemrosesan yang dilakukan secara independen terhadap standar efisiensi industri saat ini.

2. Metodologi Penelitian

Eksperimen dilakukan menggunakan arsitektur perangkat lunak yang disederhanakan untuk mengurangi overhead komputasi.

2.1 Infrastruktur Perangkat Keras dan Keterbatasan Lingkungan uji menggunakan spesifikasi memori utama 8GB. Evaluasi perangkat keras menunjukkan adanya limitasi spesifik pada arsitektur GPU lawas, khususnya seri Polaris (seperti arsitektur Radeon RX 580). Ditemukan bahwa pada versi ROCm saat ini di distribusi Linux yang digunakan, VRAM gabungan tidak didukung untuk beban kerja AI. Hal ini mengakibatkan anomali komputasi di mana model secara regresif dieksekusi sepenuhnya oleh CPU, meskipun sistem mendeteksi adanya multi-GPU yang aktif.

2.2 Arsitektur Perangkat Lunak Untuk menghindari beban tambahan (overhead) dari platform otomasi visual (seperti n8n), sistem dibangun menggunakan skrip backend kustom server.js berbasis Node.js di lingkungan operasi Linux. Engine inferensi yang digunakan adalah Ollama, yang memfasilitasi komunikasi API secara langsung (/api/generate) dengan latensi yang dapat dikontrol.

2.3 Parameter Efisiensi Model Implementasi ini mengadopsi tiga teknik efisiensi yang ekuivalen dengan pendekatan industri:

  1. Kuantisasi Bobot (Weight Quantization): Penurunan presisi parameter model menjadi 4-bit, memungkinkan model yang secara teori membutuhkan belasan gigabyte memori dikompresi agar muat dalam alokasi RAM 8GB.

  2. Manajemen KV Cache: Penyesuaian n_ctx_seq dibatasi secara ketat pada angka 8192 parameter untuk mencegah Memory Overflow, mengorbankan sebagian kapasitas retensi konteks panjang demi stabilitas sistem.

  3. Aktivasi Flash Attention: Pengaturan otomatis untuk mengoptimalkan bandwidth memori saat melakukan komputasi matriks attention.

3. Hasil dan Pembahasan

3.1 Analisis Log Eksekusi dan Stabilitas Berdasarkan log eksekusi PM2 pada servis ollama-gpu, sistem menunjukkan tingkat respons yang fluktuatif. Terdapat eksekusi yang berhasil dalam waktu singkat (6-7 detik), namun terjadi lonjakan latensi hingga 49 detik, dan beberapa request mengalami Timeout atau Internal Server Error (Status 500) yang tercatat tepat pada 3 menit 0 detik (3m0s).

Status 500 dan 499 (pemutusan klien) ini mengindikasikan terjadinya fenomena swapping memori yang agresif ke storage sekunder akibat memori RAM fisik 8GB yang telah mencapai batas maksimal, ditambah dengan fakta bahwa model berjalan di CPU akibat isu kompatibilitas ROCm pada GPU Polaris.

3.2 Komparasi dengan Efisiensi Industri (Google/SLM) Pendekatan arsitektural yang dibangun dalam eksperimen ini menunjukkan paritas konsep dengan metodologi Google dalam pengembangan AI terdistribusi:

  • Kuantisasi Proaktif: Serupa dengan teknik yang digunakan Google untuk mengeksekusi model LLM di dalam peramban web (WebGPU), sistem ini membuktikan bahwa kuantisasi 4-bit adalah prasyarat mutlak untuk komputasi pada memori <16GB.

  • Pembatasan Konteks Terukur: Peringatan n_ctx_seq (8192) < n_ctx_train (32768) mengonfirmasi bahwa menekan panjang jendela konteks (KV Cache) adalah metode efektif untuk menjaga sistem tetap bernapas tanpa memicu Kernel Panic atau proses Out-of-Memory (OOM) Killer dari Linux.

4. Kesimpulan

Penelitian ini membuktikan bahwa implementasi Edge AI untuk pemrosesan Language Model sangat dimungkinkan pada perangkat keras dengan RAM 8GB melalui pemanfaatan Ollama dan server kustom Node.js. Kendati terdapat rintangan arsitektural berupa kegagalan pemanfaatan VRAM pada GPU generasi Polaris oleh sistem ROCm yang memaksa transisi beban ke CPU, teknik efisiensi seperti kuantisasi 4-bit, limitasi jendela konteks, dan Flash Attention berhasil menjaga model tetap beroperasi. Konsep ini sejalan dengan arah industri teknologi global yang mulai memfokuskan pengembangan pada SLM yang hardware-aware, memvalidasi pendekatan bahwa arsitektur perangkat lunak yang disesuaikan secara presisi dapat menutupi kelemahan spesifikasi perangkat keras.