Sekali Lagi Meta (Induk Facebook) Lebih memilih untuk membeli daripada membuat SuperKomputer mereka
Sumber : CNN Indonesia |
Sumber : Timothy Prickett Morgan - TheNextPlatfrom
Untuk perusahaan yang sangat antusias merancang dan membangun infrastruktur dan pusat datanya sendiri, Meta Platforms, perusahaan induk untuk Facebook serta WhatsApp dan Instagram dan salah satu juara realitas virtual metaverse, banyak dari kita yang pertama kali membaca di Membakar Chrome, tentu saja belum membangun superkomputer AI sendiri belakangan ini. Dan itu membingungkan.
Kembali pada bulan Januari, Meta Platforms mengumumkan bahwa mereka memperoleh mesin lengkap dari Nvidia, yang disebut Research Super Computer, atau disingkat RSC, yang akan terdiri dari 2.000 node DGX A100 dengan sepasang AMD “Rome” 64-core Epyc 7742 masing-masing prosesor (untuk total 4.000 CPU) dan dengan satu okto akselerator GPU Nvidia “Ampere” A100 masing-masing untuk total 16.000 GPU). 760 node awal sudah masuk, dan sisanya diharapkan akan diinstal pada bulan Oktober – tepat pada waktunya untuk menjalankan benchmark Linpack Kinerja Tinggi untuk peringkat superkomputer Top 500 musim gugur. Setiap DGX A100 memiliki delapan antarmuka jaringan Quantum InfiniBand 200 Gb/dtk, dan node saling berhubungan dalam topologi kain Clos dua tingkat.
Dengan 768 node dalam fase satu, kinerja teoritis puncak dari potongan mesin RSC ini akan dinilai pada 59,6 petaflops dengan unit FP64 dan 119,8 petaflops dengan pemrosesan 64-bit pada unit Tensor Core di 6.144 GPU dalam fase ini . Jika A100 digunakan di setiap node pada mesin – baik Meta Platform maupun Nvidia tidak mengatakan seperti apa GPU di fase dua – sistem RSC akan dinilai sekitar 155,2 petaflops menggunakan unit FP64 dan 312 petaflops menggunakan unit TensorCore pada GPU (yang memiliki 2X throughput 64-bit). Ini adalah mesin yang terhormat, bahkan di awal era exascale. Pada presisi FP16 atau BF16, itu hanya di bawah 5 exaflops dari "kinerja AI" seperti yang dikatakan Nvidia, dan itu memetakan apa yang dikatakan Meta Platforms yang akan dimiliki mesin ketika selesai.
Jadi kita tahu mesin RSC seperti yang diumumkan pada bulan Januari tidak memiliki akselerator GPU Hopper H100 di dalamnya. Tetapi jika kami adalah Platform Meta, dengan GPU Hopper diumumkan, kami akan kembali dan meminta modifikasi.
Inilah alasannya. Jika 9.920 GPU yang tersisa di fase dua buildout RSC didasarkan pada akselerator GPU H100 “Hopper”, maka mesin RSC akan jauh lebih bertenaga pada bulan Oktober. 1.232 node tambahan fase dua yang dilengkapi dengan H100 akan dinilai pada 295,7 petaflops pada unit FP64 dan 591,4 petaflops pada unit Tensor Core menggunakan data 64-bit. Jika ini bisa terjadi, maka RSC akan menimbang 355,3 petaflops di FP64 dan 711,2 petaflops menggunakan Tensor Cores. Jika HPL berjalan pada Tensor Cores, RSC akan menjadi salah satu superkomputer tercepat di dunia pada daftar November 2022 – bahkan di depan peringkat teratas saat ini dengan 537,2 petaflops peak (442 petaflops berkelanjutan) dari superkomputer “Fugaku” di RIKEN Lab di Jepang.
Di mana peringkat mesin RSC sebenarnya tergantung pada berapa banyak mesin exascale yang dipasang antara sekarang dan November, dan itu akan menjadi angka yang jauh lebih rendah daripada jika memiliki Hopper alih-alih GPU Ampere. Ini hanya bulan Mei. Masih lama sampai Oktober. Ini bisa berubah.
Seperti yang kami katakan pada bulan Januari ketika RSC diumumkan oleh Meta Platforms, akuisisi mesin RSC, daripada membuat Facebook mendesain, membeli, dan membangunnya, dilakukan karena kebutuhan. Nvidia tidak mendukung faktor bentuk Open Accelerator Module (OAM) Facebook untuk akselerator Ampere atau Hopper dan dua vendor yang mendukung – AMD dengan “Aldebaran” Instinct MI250 dan Intel dengan “Ponte Vecchio” Xe HPC – tidak dikirimkan dalam jumlah banyak , dan volume apa pun yang mereka miliki akan masuk ke sistem "Frontier" masing-masing di Laboratorium Nasional Oak Ridge dan sistem "Aurora" di Laboratorium Nasional Argonne.
Mencari lebih banyak GPU untuk menjalankan beban kerja AI-nya, Meta Platforms mengarahkan pandangan ke satu hyperscaler dan pembuat cloud yang tidak secara langsung bersaing dengannya di pasar periklanan – yaitu Microsoft – dan telah bermitra dengan cloud Azure perusahaan divisi untuk menggunakan kluster Azure khusus yang memiliki 5.400 GPU A100 yang dikirimkan menggunakan instans NDm A100 v4-series di cloud Microsoft.
NDm A100 v4-series ini baru saja dipratinjau kemarin, memiliki sepasang prosesor AMD "Milan" Epyc 7V13 48-core dan 1,85 TB memori utama yang dapat diakses untuk mesin virtual dan delapan akselerator GPU A100 dengan memori HBM2e 80 GB yang semua terhubung bersama menggunakan interkoneksi NVLink 3.0. Node memiliki adaptor HDR InfiniBand 200 GB/dtk dari Nvidia untuk setiap GPU, memberikan bandwidth agregat 1,6 TB/dtk ke interkoneksi. Microsoft mengatakan bahwa ia dapat meningkatkan "hingga ribuan GPU" dalam suatu wilayah, dan itulah yang dilakukan Meta Platforms dengan superkomputernya untuk sewa permanen yang diumumkan minggu ini.
Pada 51,3 petaflops di FP64 di 675 node dalam sistem – yang hampir pasti merupakan sistem HGX dengan komponen yang bersumber dari Nvidia dan dibangun oleh salah satu ODM besardan bukan sistem DGX A100 sebenarnya dari Nvidia sendiri – dan 106,4 petaflops menggunakan Tensor Cores untuk mendorong matematika FP64, mesin di cloud ini hanya memiliki sedikit keuletan daripada fase pertama mesin RSC yang diuraikan di atas.
Kabar di jalan adalah bahwa Microsoft mungkin tidak akan pindah ke 400 Gb/dtk NDR Quantum 2 InfiniBand sampai tahun depan, dan kami menduga bahwa itu akan menyebarkan interkoneksi ini pada klaster bergaya HPC di Azure yang memiliki GPU Hopper.
Akan lucu – dan ilustratif – jika di masa depan Meta Platform dapat menyewa GPU Nvidia berkinerja lebih tinggi dan interkoneksi dari Microsoft daripada yang bisa masuk ke pusat datanya sendiri. . . .
Akan lebih lucu lagi jika Meta Platform terus mendapat kecaman di banyak bidang, melihat pertumbuhan pengguna terus mandek, merasakan biaya TI di bawah tekanan, dan Microsoft memutuskan untuk mengakuisisi atau bergabung dengannya.
Sulit untuk mengatakan berapa biaya Meta Platform, dengan kapitalisasi pasar sebesar $490,6 miliar saat kita menulis, sementara Microsoft memiliki kapitalisasi pasar sebesar $1,94 triliun. Microsoft memiliki $130,6 miliar dalam bentuk tunai dan investasi, dan sementara akuisisi oleh Microsoft akan membutuhkan sejumlah besar uang tunai di luar ini, merger tidak akan. Mungkin membutuhkan banyak pengacara untuk berdebat dengan otoritas antimonopoli. Tapi itu tidak menutup kemungkinan, meskipun kesepakatan seperti itu akan mengerdilkan $297,7 miliar yang disesuaikan dengan inflasi yang dibayarkan Vodafone untuk Mannesmann pada tahun 1999, $286,4 miliar yang dibayarkan AOL untuk Time Warner adalah tahun 2000, dan $151,2 miliar yang dibayar Verizon untuk saham Vodafone di Verizon Wireless pada tahun 2013.
Pemikiran yang aneh, bukan, memiliki dua kontributor utama Open Compute Project di bawah payung perusahaan yang sama?
Bagaimanapun, Meta Platforms telah menyewa kapasitas di Azure cloud untuk melatih model AI sejak tahun lalu, dan Microsoft menggembar-gemborkan fakta bahwa interkoneksi antara server Azure adalah 4X dari rekan-rekannya di cloud yang menjual kapasitas GPU Nvidia dan ini memungkinkan pelatihan yang lebih cepat untuk model yang lebih besar, seperti model bahasa alami OPT-175B Meta Platform.
Di bawah kemitraan yang diperluas, Microsoft akan terus memberikan dukungan tingkat perusahaan untuk kerangka pembelajaran mesin PyTorch untuk Python yang telah dibantu oleh Facebook dan kedua perusahaan akan berkolaborasi dalam meningkatkan skala PyTorch pada infrastruktur hyperscale dan meningkatkan alur kerja pembuatan. dan pengujian model AI pada kerangka tersebut.
Komentar