[China, Shenzhen, 14 Juli 2023] Hari ini, Huawei meluncurkan solusi penyimpanan AI terbarunya untuk era model berskala besar, memberikan solusi penyimpanan optimal untuk pelatihan model dasar, pelatihan model khusus industri, dan inferensi dalam skenario tersegmentasi, sehingga melepaskan kemampuan AI baru.
Dalam pengembangan dan implementasi aplikasi model skala besar, perusahaan menghadapi empat tantangan utama:
Pertama, waktu yang diperlukan untuk penyiapan data lama, sumber data tersebar, dan agregasi lambat, sehingga memerlukan waktu sekitar 10 hari untuk melakukan pra-pemrosesan data yang berukuran ratusan terabyte. Kedua, untuk model multi-modal besar dengan kumpulan data teks dan gambar yang sangat besar, kecepatan pemuatan saat ini untuk file kecil yang sangat besar kurang dari 100MB/dtk, sehingga menghasilkan efisiensi yang rendah untuk pemuatan set pelatihan. Ketiga, penyesuaian parameter yang sering dilakukan pada model besar, serta platform pelatihan yang tidak stabil, menyebabkan gangguan pelatihan kira-kira setiap 2 hari, sehingga mekanisme Checkpoint harus melanjutkan pelatihan, dan pemulihan membutuhkan waktu lebih dari satu hari. Terakhir, ambang batas implementasi yang tinggi untuk model besar, pengaturan sistem yang rumit, tantangan penjadwalan sumber daya, dan pemanfaatan sumber daya GPU seringkali di bawah 40%.
Huawei menyelaraskan tren pengembangan AI di era model berskala besar, dengan menawarkan solusi yang disesuaikan untuk berbagai industri dan skenario. Ini memperkenalkan Penyimpanan Data Lake Pembelajaran Mendalam OceanStor A310 dan Peralatan Super-Konvergensi Pelatihan/Inferensi FusionCube A3000. OceanStor A310 Deep Learning Data Lake Storage menargetkan skenario data lake model besar tingkat dasar dan industri, mencapai manajemen data AI yang komprehensif mulai dari agregasi data, pra-pemrosesan hingga pelatihan model, dan aplikasi inferensi. OceanStor A310, dalam satu rak 5U, mendukung bandwidth 400GB/s yang terdepan di industri dan hingga 12 juta IOPS, dengan skalabilitas linier hingga 4096 node, memungkinkan komunikasi lintas protokol yang lancar. Global File System (GFS) memfasilitasi pengumpulan data cerdas di seluruh wilayah, menyederhanakan proses agregasi data. Komputasi penyimpanan dekat mewujudkan prapemrosesan dekat data, mengurangi pergerakan data, dan meningkatkan efisiensi prapemrosesan sebesar 30%.
Peralatan Super-Konvergensi Pelatihan/Inferensi FusionCube A3000, dirancang untuk skenario pelatihan/inferensi model besar tingkat industri, melayani aplikasi yang melibatkan model dengan miliaran parameter. Ini mengintegrasikan node penyimpanan berkinerja tinggi OceanStor A300, node pelatihan/inferensi, peralatan switching, perangkat lunak platform AI, serta perangkat lunak manajemen dan operasi, memberikan pengalaman penerapan plug-and-play kepada mitra model besar untuk pengiriman terpadu. Siap digunakan, dapat diterapkan dalam waktu 2 jam. Node pelatihan/inferensi dan penyimpanan dapat diperluas secara independen dan horizontal agar sesuai dengan berbagai persyaratan skala model. Sementara itu, FusionCube A3000 menggunakan container berkinerja tinggi untuk mengaktifkan beberapa pelatihan model dan tugas inferensi untuk berbagi GPU, sehingga meningkatkan pemanfaatan sumber daya dari 40% menjadi lebih dari 70%. FusionCube A3000 mendukung dua model bisnis yang fleksibel: Huawei Ascend One-Stop Solution dan solusi one-stop mitra pihak ketiga dengan perangkat lunak komputasi terbuka, jaringan, dan platform AI.
President of Data Storage Product Line Huawei, Zhou Yuefeng, menyatakan, “Di era model berskala besar, data menentukan puncak kecerdasan AI. Sebagai pembawa data, penyimpanan data menjadi infrastruktur dasar utama untuk model AI berskala besar. Huawei Data Storage akan terus berinovasi, menyediakan solusi dan produk yang terdiversifikasi untuk era model besar AI, berkolaborasi dengan mitra untuk mendorong pemberdayaan AI di berbagai industri.”
Waktu posting: 01 Agustus-2023