Penawaran Inferensi Cepat dan Berbiaya Rendah Kunci AI yang Menguntungkan

Share this post

Bisnis di setiap industri medusa88 meluncurkan layanan AI tahun ini. Bagi Microsoft, Oracle, Perplexity, Snap, dan ratusan perusahaan terkemuka lainnya, penggunaan platform inferensi AI NVIDIA — rangkaian lengkap yang terdiri dari silikon, sistem, dan perangkat lunak kelas dunia — adalah kunci untuk menghasilkan inferensi dan latensi throughput tinggi dan rendah. memungkinkan pengalaman pengguna yang luar biasa sekaligus menurunkan biaya.

Kemajuan NVIDIA dalam pengoptimalan perangkat lunak inferensi dan platform NVIDIA Hopper membantu industri menyajikan model AI generatif terbaru, memberikan pengalaman pengguna yang luar biasa sekaligus mengoptimalkan total biaya kepemilikan. Platform Hopper juga membantu memberikan efisiensi energi hingga 15x lebih banyak untuk beban kerja inferensi dibandingkan generasi sebelumnya.

Inferensi AI terkenal sulit karena memerlukan banyak langkah untuk mencapai keseimbangan yang tepat antara throughput dan pengalaman pengguna.

Namun tujuan dasarnya sederhana: menghasilkan lebih banyak token dengan biaya lebih rendah. Token mewakili kata-kata dalam sistem model bahasa besar (LLM) — dan dengan layanan inferensi AI yang biasanya membebankan biaya untuk setiap juta token yang dihasilkan, tujuan ini menawarkan laba atas investasi AI dan energi yang digunakan per tugas.

Pengoptimalan perangkat lunak full-stack menawarkan kunci untuk meningkatkan kinerja inferensi AI dan mencapai tujuan ini.

Throughput Pengguna yang Hemat Biaya
Bisnis sering kali tertantang dalam menyeimbangkan kinerja dan biaya beban kerja inferensi. Meskipun beberapa pelanggan atau kasus penggunaan mungkin bekerja dengan model siap pakai atau model yang dihosting, pelanggan atau kasus lainnya mungkin memerlukan penyesuaian. Teknologi NVIDIA menyederhanakan penerapan model sekaligus mengoptimalkan biaya dan performa untuk beban kerja inferensi AI. Selain itu, pelanggan dapat merasakan fleksibilitas dan kemampuan penyesuaian dengan model yang mereka pilih untuk diterapkan.

Layanan mikro NVIDIA NIM, Server Inferensi NVIDIA Triton, dan pustaka NVIDIA TensorRT adalah beberapa solusi inferensi yang ditawarkan NVIDIA untuk memenuhi kebutuhan pengguna:

Layanan mikro inferensi NVIDIA NIM telah dikemas dan dioptimalkan kinerjanya untuk menerapkan model fondasi AI dengan cepat di infrastruktur apa pun — cloud, pusat data, edge, atau stasiun kerja.
NVIDIA Triton Inference Server, salah satu proyek sumber terbuka paling populer milik perusahaan, memungkinkan pengguna mengemas dan melayani model apa pun, apa pun kerangka AI yang dilatihnya.
NVIDIA TensorRT adalah pustaka inferensi pembelajaran mendalam berperforma tinggi yang mencakup waktu proses dan pengoptimalan model untuk menghasilkan inferensi latensi rendah dan throughput tinggi untuk aplikasi produksi.
Tersedia di semua pasar cloud utama, platform perangkat lunak NVIDIA AI Enterprise mencakup semua solusi ini dan memberikan dukungan, stabilitas, pengelolaan, dan keamanan tingkat perusahaan.

Dengan platform inferensi AI NVIDIA tanpa kerangka kerja, perusahaan menghemat biaya produktivitas, pengembangan, infrastruktur, dan penyiapan. Penggunaan teknologi NVIDIA juga dapat meningkatkan pendapatan bisnis dengan membantu perusahaan menghindari downtime dan transaksi penipuan, meningkatkan tingkat konversi belanja e-commerce, dan menghasilkan aliran pendapatan baru yang didukung AI.

Inferensi LLM Berbasis Cloud
Untuk memudahkan penerapan LLM, NVIDIA telah berkolaborasi erat dengan setiap penyedia layanan cloud besar untuk memastikan bahwa platform inferensi NVIDIA dapat diterapkan secara lancar di cloud dengan minimal atau tanpa memerlukan kode apa pun. NVIDIA NIM terintegrasi dengan layanan cloud-native seperti:

Amazon SageMaker AI, Amazon Bedrock Marketplace, Layanan Amazon Elastic Kubernetes
Vertex AI Google Cloud, Mesin Google Kubernetes
Microsoft Azure AI Foundry segera hadir, Layanan Azure Kubernetes
Alat ilmu data Oracle Cloud Infrastructure, Oracle Cloud Infrastructure Kubernetes Engine
Selain itu, untuk penerapan inferensi yang disesuaikan, NVIDIA Triton Inference Server terintegrasi secara mendalam ke semua penyedia layanan cloud utama.

Misalnya, dengan menggunakan platform OCI Data Science, penerapan NVIDIA Triton semudah menyalakan tombol di argumen baris perintah selama penerapan model, yang secara instan meluncurkan titik akhir inferensi NVIDIA Triton.

Demikian pula dengan Azure Machine Learning, pengguna dapat menerapkan NVIDIA Triton baik dengan penerapan tanpa kode melalui Azure Machine Learning Studio atau penerapan kode lengkap dengan Azure Machine Learning CLI. AWS menyediakan penerapan sekali klik untuk NVIDIA NIM dari SageMaker Marketplace dan Google Cloud menyediakan opsi penerapan sekali klik di Google Kubernetes Engine (GKE). Google Cloud menyediakan opsi penerapan sekali klik di Google Kubernetes Engine, sementara AWS menawarkan NVIDIA Triton pada kontainer AWS Deep Learning-nya.

Platform inferensi AI NVIDIA juga menggunakan metode komunikasi populer untuk menyampaikan prediksi AI, yang secara otomatis menyesuaikan untuk mengakomodasi kebutuhan pengguna yang terus berkembang dan berubah dalam infrastruktur berbasis cloud.

Mulai dari mempercepat LLM hingga meningkatkan alur kerja kreatif dan mentransformasikan manajemen perjanjian, platform inferensi AI NVIDIA mendorong dampak nyata di seluruh industri. Pelajari bagaimana kolaborasi dan inovasi memungkinkan organisasi di bawah ini mencapai tingkat efisiensi dan skalabilitas baru.

Melayani 400 Juta Permintaan Pencarian Setiap Bulan Dengan Perplexity AI
Perplexity AI, mesin pencari bertenaga AI, menangani lebih dari 435 juta kueri bulanan. Setiap kueri mewakili beberapa permintaan inferensi AI. Untuk memenuhi permintaan ini, tim Perplexity AI beralih ke GPU NVIDIA H100, Triton Inference Server, dan TensorRT-LLM.

Mendukung lebih dari 20 model AI, termasuk variasi Llama 3 seperti 8B dan 70B, Perplexity memproses beragam tugas seperti pencarian, ringkasan, dan menjawab pertanyaan. Dengan menggunakan model pengklasifikasi yang lebih kecil untuk merutekan tugas ke pod GPU, yang dikelola oleh NVIDIA Triton, perusahaan memberikan layanan yang hemat biaya dan responsif berdasarkan perjanjian tingkat layanan yang ketat.

Melalui paralelisme model, yang membagi LLM ke seluruh GPU, Perplexity mencapai pengurangan biaya tiga kali lipat dengan tetap mempertahankan latensi rendah dan akurasi tinggi. Kerangka kerja praktik terbaik ini menunjukkan bagaimana tim TI dapat memenuhi permintaan AI yang terus meningkat, mengoptimalkan total biaya kepemilikan, dan melakukan penskalaan secara lancar dengan komputasi terakselerasi NVIDIA.

Mengurangi Waktu Respons Dengan Drafter Berulang (ReDrafter)
Kemajuan penelitian sumber terbuka membantu mendemokratisasi inferensi AI. Baru-baru ini, NVIDIA memasukkan Redrafter, sebuah pendekatan sumber terbuka untuk decoding spekulatif yang diterbitkan oleh Apple, ke dalam NVIDIA TensorRT-LLM.

ReDrafter menggunakan modul “draf” yang lebih kecil untuk memprediksi token secara paralel, yang kemudian divalidasi oleh model utama. Teknik ini secara signifikan mengurangi waktu respons untuk LLM, khususnya selama periode lalu lintas rendah.

Melayani 400 Juta Permintaan Pencarian Setiap Bulan Dengan Perplexity AI
Perplexity AI, mesin pencari bertenaga AI, menangani lebih dari 435 juta kueri bulanan. Setiap kueri mewakili beberapa permintaan inferensi AI. Untuk memenuhi permintaan ini, tim Perplexity AI beralih ke GPU NVIDIA H100, Triton Inference Server, dan TensorRT-LLM.

Mendukung lebih dari 20 model AI, termasuk variasi Llama 3 seperti 8B dan 70B, Perplexity memproses beragam tugas seperti pencarian, ringkasan, dan menjawab pertanyaan. Dengan menggunakan model pengklasifikasi yang lebih kecil untuk merutekan tugas ke pod GPU, yang dikelola oleh NVIDIA Triton, perusahaan memberikan layanan yang hemat biaya dan responsif berdasarkan perjanjian tingkat layanan yang ketat.

Melalui paralelisme model, yang membagi LLM ke seluruh GPU, Perplexity mencapai pengurangan biaya tiga kali lipat dengan tetap mempertahankan latensi rendah dan akurasi tinggi. Kerangka kerja praktik terbaik ini menunjukkan bagaimana tim TI dapat memenuhi permintaan AI yang terus meningkat, mengoptimalkan total biaya kepemilikan, dan melakukan penskalaan secara lancar dengan komputasi terakselerasi NVIDIA.

Mengurangi Waktu Respons Dengan Drafter Berulang (ReDrafter)
Kemajuan penelitian sumber terbuka membantu mendemokratisasi inferensi AI. Baru-baru ini, NVIDIA memasukkan Redrafter, sebuah pendekatan sumber terbuka untuk decoding spekulatif yang diterbitkan oleh Apple, ke dalam NVIDIA TensorRT-LLM.

ReDrafter menggunakan modul “draf” yang lebih kecil untuk memprediksi token secara paralel, yang kemudian divalidasi oleh model utama. Teknik ini secara signifikan mengurangi waktu respons untuk LLM, khususnya selama periode lalu lintas rendah.