Jangan Biarkan Penyimpanan Menjadi Hambatan Utama dalam Pelatihan Model

Dikatakan bahwa perusahaan teknologi sedang berebut GPU atau sedang dalam proses mengakuisisinya. Pada bulan April, CEO Tesla Elon Musk membeli 10,000 GPU dan menyatakan bahwa perusahaan akan terus membeli GPU dalam jumlah besar dari NVIDIA. Di sisi perusahaan, personel TI juga berupaya keras untuk memastikan bahwa GPU terus digunakan untuk memaksimalkan laba atas investasi. Namun, beberapa perusahaan mungkin mendapati bahwa meskipun jumlah GPU meningkat, kemalasan GPU menjadi lebih parah.

Jika sejarah telah mengajarkan kita sesuatu tentang komputasi kinerja tinggi (HPC), maka penyimpanan dan jaringan tidak boleh dikorbankan dengan mengorbankan terlalu banyak fokus pada komputasi. Jika penyimpanan tidak dapat mentransfer data ke unit komputasi secara efisien, meskipun Anda memiliki GPU terbanyak di dunia, Anda tidak akan mencapai efisiensi optimal.

Menurut Mike Matchett, seorang analis di Small World Big Data, model yang lebih kecil dapat dieksekusi dalam memori (RAM), sehingga memungkinkan lebih banyak fokus pada komputasi. Namun, model yang lebih besar seperti ChatGPT dengan miliaran node tidak dapat disimpan dalam memori karena biayanya yang tinggi.

“Anda tidak dapat memasukkan miliaran node ke dalam memori, sehingga penyimpanan menjadi lebih penting,” kata Matchett. Sayangnya, penyimpanan data seringkali diabaikan selama proses perencanaan.

Secara umum, apa pun kasus penggunaannya, ada empat poin umum dalam proses pelatihan model:

1. Pelatihan Model
2. Aplikasi Inferensi
3. Penyimpanan Data
4. Komputasi yang Dipercepat

Saat membuat dan menerapkan model, sebagian besar persyaratan memprioritaskan pembuktian konsep cepat (POC) atau lingkungan pengujian untuk memulai pelatihan model, tanpa kebutuhan penyimpanan data yang menjadi pertimbangan utama.

Namun, tantangannya terletak pada kenyataan bahwa pelatihan atau penerapan inferensi dapat memakan waktu berbulan-bulan atau bahkan bertahun-tahun. Banyak perusahaan dengan cepat meningkatkan ukuran model mereka selama masa ini, dan infrastruktur harus diperluas untuk mengakomodasi model dan kumpulan data yang terus berkembang.

Penelitian dari Google terhadap jutaan beban kerja pelatihan ML mengungkapkan bahwa rata-rata 30% waktu pelatihan dihabiskan pada saluran data masukan. Meskipun penelitian sebelumnya berfokus pada pengoptimalan GPU untuk mempercepat pelatihan, masih banyak tantangan dalam mengoptimalkan berbagai bagian saluran data. Ketika Anda memiliki kekuatan komputasi yang signifikan, hambatan sebenarnya adalah seberapa cepat Anda dapat memasukkan data ke dalam komputasi untuk mendapatkan hasil.

Secara khusus, tantangan dalam penyimpanan dan pengelolaan data memerlukan perencanaan pertumbuhan data, sehingga Anda dapat terus mengekstraksi nilai data seiring kemajuan Anda, terutama ketika Anda memasuki kasus penggunaan yang lebih canggih seperti pembelajaran mendalam dan jaringan saraf, yang memberikan tuntutan lebih tinggi pada penyimpanan dan pengelolaan data. penyimpanan dalam hal kapasitas, kinerja, dan skalabilitas.

Secara khusus:

Skalabilitas
Pembelajaran mesin memerlukan penanganan data dalam jumlah besar, dan seiring dengan meningkatnya volume data, keakuratan model juga meningkat. Artinya, bisnis harus mengumpulkan dan menyimpan lebih banyak data setiap hari. Ketika penyimpanan tidak dapat diskalakan, beban kerja yang intensif data akan menciptakan hambatan, membatasi kinerja, dan mengakibatkan waktu idle GPU yang mahal.

Fleksibilitas
Dukungan fleksibel untuk beberapa protokol (termasuk NFS, SMB, HTTP, FTP, HDFS, dan S3) diperlukan untuk memenuhi kebutuhan sistem yang berbeda, daripada terbatas pada satu jenis lingkungan saja.

Latensi
Latensi I/O sangat penting untuk membangun dan menggunakan model karena data dibaca dan dibaca ulang beberapa kali. Mengurangi latensi I/O dapat mempersingkat waktu pelatihan model dalam hitungan hari atau bulan. Pengembangan model yang lebih cepat secara langsung menghasilkan keuntungan bisnis yang lebih besar.

Hasil
Throughput sistem penyimpanan sangat penting untuk pelatihan model yang efisien. Proses pelatihan melibatkan data dalam jumlah besar, biasanya dalam terabyte per jam.

Akses Paralel
Untuk mencapai throughput yang tinggi, model pelatihan membagi aktivitas menjadi beberapa tugas paralel. Hal ini sering kali berarti bahwa algoritme pembelajaran mesin mengakses file yang sama dari beberapa proses (berpotensi di beberapa server fisik) secara bersamaan. Sistem penyimpanan harus menangani permintaan secara bersamaan tanpa mengurangi kinerja.

Dengan kemampuannya yang luar biasa dalam latensi rendah, throughput tinggi, dan I/O paralel berskala besar, Dell PowerScale merupakan pelengkap penyimpanan ideal untuk komputasi berakselerasi GPU. PowerScale secara efektif mengurangi waktu yang diperlukan untuk model analisis yang melatih dan menguji kumpulan data multi-terabyte. Dalam penyimpanan all-flash PowerScale, bandwidth meningkat 18 kali lipat, menghilangkan kemacetan I/O, dan dapat ditambahkan ke cluster Isilon yang ada untuk mempercepat dan membuka nilai data tidak terstruktur dalam jumlah besar.

Selain itu, kemampuan akses multi-protokol PowerScale memberikan fleksibilitas tak terbatas untuk menjalankan beban kerja, memungkinkan data disimpan menggunakan satu protokol dan diakses menggunakan protokol lain. Secara khusus, fitur canggih, fleksibilitas, skalabilitas, dan fungsionalitas tingkat perusahaan dari platform PowerScale membantu mengatasi tantangan berikut:

- Mempercepat inovasi hingga 2,7 kali lipat, mengurangi siklus pelatihan model.

- Menghilangkan hambatan I/O dan memberikan pelatihan dan validasi model yang lebih cepat, meningkatkan akurasi model, meningkatkan produktivitas ilmu data, dan memaksimalkan laba atas investasi komputasi dengan memanfaatkan fitur tingkat perusahaan, kinerja tinggi, konkurensi, dan skalabilitas. Tingkatkan akurasi model dengan kumpulan data yang lebih dalam dan beresolusi lebih tinggi dengan memanfaatkan kapasitas penyimpanan efektif hingga 119 PB dalam satu cluster.

- Mencapai penerapan dalam skala besar dengan memulai komputasi dan penyimpanan skala kecil dan mandiri, memberikan opsi perlindungan dan keamanan data yang kuat.

- Meningkatkan produktivitas ilmu data dengan analisis yang ada dan solusi yang telah divalidasi sebelumnya untuk penerapan yang lebih cepat dan berisiko rendah.

- Memanfaatkan desain yang telah terbukti berdasarkan teknologi terbaik, termasuk akselerasi GPU NVIDIA dan arsitektur referensi dengan sistem NVIDIA DGX. Performa tinggi dan konkurensi PowerScale memenuhi persyaratan performa penyimpanan di setiap tahap pembelajaran mesin, mulai dari akuisisi dan persiapan data hingga pelatihan model dan inferensi. Bersama dengan sistem operasi OneFS, semua node dapat beroperasi dengan lancar dalam cluster berbasis OneFS yang sama, dengan fitur tingkat perusahaan seperti manajemen kinerja, manajemen data, keamanan, dan perlindungan data, memungkinkan penyelesaian pelatihan model dan validasi untuk bisnis dengan lebih cepat.


Waktu posting: 03-Juli-2023