Jangan Biarkan Penyimpanan Menjadi Hambatan Utama dalam Pelatihan Model

Dikatakan bahwa perusahaan teknologi berebut GPU atau di jalur untuk mendapatkannya.Pada bulan April, CEO Tesla Elon Musk membeli 10.000 GPU dan menyatakan bahwa perusahaan akan terus membeli GPU dalam jumlah besar dari NVIDIA.Di sisi perusahaan, personel TI juga berusaha keras untuk memastikan bahwa GPU terus digunakan untuk memaksimalkan laba atas investasi.Namun, beberapa perusahaan mungkin menemukan bahwa meskipun jumlah GPU meningkat, kemalasan GPU menjadi lebih parah.

Jika sejarah telah mengajarkan kita sesuatu tentang komputasi kinerja tinggi (HPC), penyimpanan dan jaringan tidak boleh dikorbankan dengan mengorbankan terlalu banyak fokus pada komputasi.Jika penyimpanan tidak dapat mentransfer data secara efisien ke unit komputasi, bahkan jika Anda memiliki GPU paling banyak di dunia, Anda tidak akan mencapai efisiensi optimal.

Menurut Mike Matchett, seorang analis di Small World Big Data, model yang lebih kecil dapat dijalankan di memori (RAM), sehingga lebih fokus pada komputasi.Namun, model yang lebih besar seperti ChatGPT dengan miliaran node tidak dapat disimpan di memori karena tingginya biaya.

“Anda tidak dapat memuat miliaran node dalam memori, sehingga penyimpanan menjadi semakin penting,” kata Matchett.Sayangnya, penyimpanan data sering diabaikan selama proses perencanaan.

Secara umum, terlepas dari kasus penggunaan, ada empat poin umum dalam proses pelatihan model:

1. Model Pelatihan
2. Aplikasi Inferensi
3. Penyimpanan Data
4. Komputasi yang Dipercepat

Saat membuat dan menerapkan model, sebagian besar persyaratan memprioritaskan pembuktian konsep cepat (POC) atau lingkungan pengujian untuk memulai pelatihan model, dengan kebutuhan penyimpanan data tidak menjadi pertimbangan utama.

Namun, tantangannya terletak pada fakta bahwa pelatihan atau penerapan inferensi dapat berlangsung selama berbulan-bulan atau bahkan bertahun-tahun.Banyak perusahaan dengan cepat meningkatkan ukuran model mereka selama ini, dan infrastruktur harus diperluas untuk mengakomodasi model dan kumpulan data yang berkembang.

Riset dari Google tentang jutaan beban kerja pelatihan ML mengungkapkan bahwa rata-rata 30% waktu pelatihan dihabiskan untuk saluran data masukan.Sementara penelitian sebelumnya berfokus pada pengoptimalan GPU untuk mempercepat pelatihan, masih banyak tantangan dalam mengoptimalkan berbagai bagian pipa data.Saat Anda memiliki daya komputasi yang signifikan, hambatan sebenarnya menjadi seberapa cepat Anda dapat memasukkan data ke dalam komputasi untuk mendapatkan hasil.

Secara khusus, tantangan dalam penyimpanan dan pengelolaan data memerlukan perencanaan untuk pertumbuhan data, memungkinkan Anda untuk terus mengekstraksi nilai data seiring kemajuan Anda, terutama saat Anda menjelajahi kasus penggunaan yang lebih canggih seperti pembelajaran mendalam dan jaringan saraf, yang memberikan tuntutan lebih tinggi pada penyimpanan dalam hal kapasitas, kinerja, dan skalabilitas.

Secara khusus:

Skalabilitas
Pembelajaran mesin membutuhkan penanganan data dalam jumlah besar, dan seiring bertambahnya volume data, akurasi model juga meningkat.Ini berarti bisnis harus mengumpulkan dan menyimpan lebih banyak data setiap hari.Saat penyimpanan tidak dapat diskalakan, beban kerja intensif data menciptakan kemacetan, membatasi kinerja, dan mengakibatkan waktu idle GPU yang mahal.

Fleksibilitas
Dukungan fleksibel untuk banyak protokol (termasuk NFS, SMB, HTTP, FTP, HDFS, dan S3) diperlukan untuk memenuhi kebutuhan sistem yang berbeda, daripada terbatas pada satu jenis lingkungan.

Latensi
Latensi I/O sangat penting untuk membangun dan menggunakan model karena data dibaca dan dibaca ulang berkali-kali.Mengurangi latensi I/O dapat mempersingkat waktu pelatihan model beberapa hari atau bulan.Pengembangan model yang lebih cepat secara langsung berarti keuntungan bisnis yang lebih besar.

Hasil
Throughput sistem penyimpanan sangat penting untuk pelatihan model yang efisien.Proses pelatihan melibatkan sejumlah besar data, biasanya dalam terabyte per jam.

Akses Paralel
Untuk mencapai throughput yang tinggi, model pelatihan membagi aktivitas menjadi beberapa tugas paralel.Ini sering kali berarti bahwa algoritme pembelajaran mesin mengakses file yang sama dari beberapa proses (berpotensi di beberapa server fisik) secara bersamaan.Sistem penyimpanan harus menangani permintaan bersamaan tanpa mengorbankan kinerja.

Dengan kemampuannya yang luar biasa dalam latensi rendah, throughput tinggi, dan I/O paralel berskala besar, Dell PowerScale merupakan pelengkap penyimpanan yang ideal untuk komputasi yang dipercepat GPU.PowerScale secara efektif mengurangi waktu yang diperlukan untuk model analisis yang melatih dan menguji kumpulan data multi-terabyte.Dalam penyimpanan all-flash PowerScale, bandwidth meningkat 18 kali lipat, menghilangkan hambatan I/O, dan dapat ditambahkan ke kluster Isilon yang ada untuk mempercepat dan membuka nilai sejumlah besar data tidak terstruktur.

Selain itu, kemampuan akses multi-protokol PowerScale memberikan fleksibilitas tak terbatas untuk menjalankan beban kerja, memungkinkan data disimpan menggunakan satu protokol dan diakses menggunakan protokol lainnya.Secara khusus, fitur canggih, fleksibilitas, skalabilitas, dan fungsionalitas tingkat perusahaan dari platform PowerScale membantu mengatasi tantangan berikut:

- Mempercepat inovasi hingga 2,7 kali, mengurangi siklus pelatihan model.

- Hilangkan kemacetan I/O dan berikan pelatihan dan validasi model yang lebih cepat, akurasi model yang ditingkatkan, produktivitas ilmu data yang ditingkatkan, dan laba atas investasi komputasi yang dimaksimalkan dengan memanfaatkan fitur tingkat perusahaan, kinerja tinggi, konkurensi, dan skalabilitas.Tingkatkan akurasi model dengan kumpulan data beresolusi lebih tinggi dan lebih dalam dengan memanfaatkan kapasitas penyimpanan efektif hingga 119 PB dalam satu kluster.

- Mencapai penerapan dalam skala besar dengan memulai komputasi dan penyimpanan berskala kecil dan mandiri, memberikan opsi perlindungan dan keamanan data yang kuat.

- Tingkatkan produktivitas ilmu data dengan analitik di tempat dan solusi yang telah divalidasi sebelumnya untuk penyebaran yang lebih cepat dan berisiko rendah.

- Memanfaatkan desain yang telah terbukti berdasarkan teknologi terbaik, termasuk akselerasi GPU NVIDIA dan arsitektur referensi dengan sistem NVIDIA DGX.Kinerja tinggi dan konkurensi PowerScale memenuhi persyaratan kinerja penyimpanan di setiap tahap pembelajaran mesin, mulai dari akuisisi dan persiapan data hingga pelatihan model dan inferensi.Bersama dengan sistem operasi OneFS, semua node dapat beroperasi dengan mulus dalam cluster yang digerakkan oleh OneFS yang sama, dengan fitur tingkat perusahaan seperti manajemen kinerja, manajemen data, keamanan, dan perlindungan data, memungkinkan penyelesaian pelatihan model dan validasi yang lebih cepat untuk bisnis.


Waktu posting: Jul-03-2023