Bisakah IBM kembali ke HPC dengan processor Power10
Sumber : Timothy Prickett Morgan - THENEXTPLATFROM
Prosesor "Cirrus" Power10 dari IBM, yang kami beri nama kode untuk Big Blue karena menolak untuk melakukannya secara publik dan karena kami memahami nilai sinonim di sini di The Next Platform, dikirimkan September lalu di "Denali" Power E1080 besi besar NUMA mesin. Dan hari ini, lini produk Power Systems berbasis Power10 lainnya sedang disempurnakan dengan peluncuran mesin entry dan midrange – banyak di antaranya cocok untuk mendukung beban kerja HPC dan AI serta database dalam memori dan beban kerja lainnya dalam jumlah besar. perusahaan.
Pertanyaannya adalah, akankah IBM peduli dengan simulasi dan pemodelan HPC tradisional lagi dengan semangat yang sama seperti yang dimilikinya dalam beberapa dekade terakhir? Dan dapatkah Power10 membantu menghidupkan kembali bisnis HPC dan AI di IBM. Kami tidak yakin tentang jawaban atas pertanyaan pertama, dan mendapat kesan berbeda dari Ken King, manajer umum bisnis Sistem Tenaga, bahwa HPC bukan prioritas utama ketika kami berbicara dengannya pada bulan Februari tentang hal ini. Namun kami terus percaya bahwa platform Power10 memiliki beberapa atribut yang membuatnya menarik untuk analitik data dan beban kerja lain yang perlu ditingkatkan di seluruh mesin kecil atau ditingkatkan di seluruh mesin besar.
Hari ini, kita hanya akan berbicara tentang lima mesin Power10 masuk, yang memiliki satu atau dua soket prosesor dalam faktor bentuk 2U atau 4U standar, dan kemudian kita akan menindaklanjuti dengan analisis Power E1050, yang merupakan soket empat. mesin yang cocok dengan faktor bentuk 4U. Dan pertanyaan yang ingin kami jawab sederhana: Dapatkah prosesor Power10 bertahan melawan chip server X86 dari Intel dan AMD dalam hal komputasi floating point dasar CPU saja.
Ini adalah pertanyaan penting karena ada banyak beban kerja yang belum dipercepat oleh GPU di arena HPC, dan untuk beban kerja ini, arsitektur Power10 terbukti sangat menarik jika IBM sedikit berpikir di luar kotak. Hal ini terutama benar ketika mempertimbangkan fitur yang disebut memori awal, yang pada dasarnya adalah kemampuan untuk membangun jaringan area memori di seluruh kelompok mesin dan yang telah kita bahas sedikit di masa lalu.
Kami masuk jauh ke dalam arsitektur chip Power10 dua tahun lalu ketika dipresentasikan pada konferensi Hot Chip, dan kami tidak akan membahas hal itu lagi di sini. Cukuplah untuk mengatakan bahwa chip ini dapat bertahan melawan "Ice Lake" Xeon SPs Intel saat ini, diluncurkan pada April 2021, dan AMD "Milan" Epyc 7003s saat ini, diluncurkan pada Maret 2021. Dan ini masuk akal karena rencana awalnya adalah untuk memiliki chip Power10 di lapangan dengan 24 inti gemuk dan 48 inti kurus, menggunakan modul chip ganda, menggunakan proses 10 nanometer dari mantan mitra pengecoran IBM, Globalfoundries, sekitar tahun 2021, tiga tahun setelah chip Power9 diluncurkan pada 2018. Globalfoundries melakukannya tidak membuat proses 10 nanometer bekerja, dan itu merusak lompatan ke 7 nanometer dan meningkatkannya, dan itu membuat IBM melompat ke Samsung untuk menjadi mitra chip server pertama untuk pengecorannya menggunakan proses 7 nanometer. IBM mengambil kesempatan penundaan Power10 untuk mengimplementasikan kembali Power ISA dalam inti Power10 baru dan kemudian menambahkan beberapa matriks matematika overlay ke unit vektornya untuk menjadikannya mesin inferensi AI yang baik.
IBM juga menciptakan inti yang lebih besar dan menurunkan jumlah inti kembali ke 16 pada die dalam mode SMT8, yang merupakan implementasi multithreading simultan yang memiliki hingga delapan utas pemrosesan per inti, dan juga sedang memikirkan desain SMT4 yang akan menggandakan jumlah inti hingga 32 per chip. Tapi kita belum melihatnya hari ini, dan dengan IBM tidak mengejar Google dan hyperscaler lainnya dengan Power10, kita mungkin tidak akan pernah melihatnya. Tapi itu ada di peta jalan saat itu.
Apa yang telah dilakukan IBM di mesin entri adalah menempatkan dua chip Power10 di dalam satu soket untuk meningkatkan jumlah inti, tetapi sepertinya hasil pada chip tidak setinggi yang mungkin diinginkan IBM. Ketika IBM pertama kali mulai berbicara tentang chip Power10, dikatakan bahwa chip tersebut akan memiliki 15 atau 30 core, yang merupakan angka yang aneh, dan itu karena chip tersebut menyimpan satu atau dua core SMT8 sebagai cadangan sebagai lindung nilai terhadap hasil yang buruk. Dalam produk yang diluncurkan IBM hari ini, sebagian besar untuk akun perusahaan AIX Unix dan IBM i (sebelumnya OS/400) yang ada, jumlah inti pada cetakan jauh lebih rendah, dengan 4, 8, 10, atau 12 dari 16 inti aktif. Core Power10 memiliki kinerja sekitar 70 persen lebih banyak daripada core Power9 di mesin entri ini, dan itu banyak kinerja untuk banyak pelanggan perusahaan – cukup untuk melewati beberapa tahun pertumbuhan pada beban kerja mereka. IBM membebankan sedikit lebih banyak untuk mesin Power10 dibandingkan dengan mesin Power9, menurut Steve Sibley, wakil presiden manajemen produk Power di IBM, tetapi keuntungan pasti meningkat dari generasi ke generasi. Pada ujung yang sangat rendah dengan mesin Power S1014 yang ditujukan untuk usaha kecil dan menengah yang menjalankan beban kerja ERP pada tumpukan perangkat lunak IBM i, peningkatan itu berada dalam kisaranf 40 persen, memberi atau menerima, dan kenaikan harga berkisar antara 20 persen dan 25 persen tergantung pada konfigurasi.
Harga belum tersedia pada salah satu mesin Power10 entri ini, yang dikirimkan pada 22 Juli. Ketika kami mengetahui lebih lanjut, kami akan melakukan analisis lebih lanjut tentang harga/kinerja.
Ada enam mesin Power10 entri baru, umpan dan kecepatannya ditunjukkan di bawah ini:
Untuk kelompok HPC, Power L1022 dan Power L1024 mungkin yang paling menarik karena mereka dirancang untuk hanya menjalankan Linux dan, jika mereka seperti mesin diklasifikasikan L sebelumnya dalam keluarga Power8 dan Power9, akan memiliki harga yang lebih rendah untuk CPU, memori, dan penyimpanan, memungkinkan mereka untuk bersaing lebih baik dengan sistem X86 yang menjalankan Linux di lingkungan cluster. Ini akan menjadi sangat penting karena IBM mendorong Red Hat OpenShift sebagai platform wadah untuk tidak hanya beban kerja perusahaan tetapi juga untuk beban kerja analitik HPC dan data yang juga sedang dalam wadah akhir-akhir ini.
Satu hal yang perlu diperhatikan tentang mesin ini: IBM menggunakan Antarmuka Memori OpenCAPI, yang seperti yang kami jelaskan di masa lalu menggunakan interkoneksi I/O “Bluelink” untuk tautan NUMA dan lampiran akselerator sebagai pengontrol memori. IBM sekarang menyebutnya Antarmuka Memori Terbuka, dan sistem ini memiliki saluran memori dua kali lebih banyak daripada chip server X86 biasa dan oleh karena itu memiliki lebih banyak bandwidth agregat yang keluar dari soket. Memori OMI menggunakan faktor bentuk DIMM Diferensial yang menggunakan memori DDR4 yang berjalan pada 3,2 GHz, dan bukan masalah besar bagi IBM untuk menukar chip memori DDR5 ke DDIMM-nya saat mereka keluar dan harganya tidak gila. IBM menawarkan fitur memori dengan kapasitas 32 GB, 64 GB, dan 128 GB hari ini di mesin ini dan akan menawarkan 256 GB DDIMM pada tanggal 14 November, begitulah cara Anda mendapatkan kapasitas maksimum yang ditunjukkan pada tabel di atas. Yang penting bagi pelanggan HPC adalah bahwa IBM memberikan bandwidth memori 409 GB/detik per soket dan memori 2 TB per soket.
Omong-omong, satu-satunya penyimpanan di mesin ini adalah flash drive NVM-Express. Tidak ada disk, tidak ada SSD flash vanilla biasa. Mesin juga mendukung campuran slot PCI-Express 4.0 dan PCI-Express 5.0, dan belum mendukung protokol CXL yang dibuat oleh Intel dan didukung oleh IBM meskipun ia menyukai interkoneksi OpenCAPI Bluelink sendiri untuk menghubungkan memori dan akselerator ke Power mesin komputasi.
Berikut adalah SKU prosesor berbeda yang ditawarkan di mesin entri Power10:
Sejauh yang kami ketahui, fitur 24-core Power10 DCM prosesor EPGK di Power L1024 adalah satu-satunya yang menarik untuk pekerjaan HPC, selain dari apa yang mungkin dapat dilakukan oleh Power10 DCM 32-core secara teoritis. Dan hanya untuk bersenang-senang, kami duduk dan menemukan puncak kinerja teoritis 64-bit floating point, pada kecepatan all-core base dan all-core turbo clock, untuk dua chip Power10 ini dan saingannya di jajaran CPU Intel dan AMD. Coba lihat ini:
Kami tidak tahu berapa harga untuk modul prosesor di mesin Power10 entri ini, jadi kami mencoba berapa biaya varian 24-core untuk bersaing dengan alternatif X86 hanya berdasarkan throughput FP64 dan kemudian memperhitungkan kinerjanya. tentang apa itu Power10 DCM 32-inti penuh.
Jawabannya adalah IBM benar-benar dapat bersaing, dari kegagalan ke kegagalan, dengan Intel dan AMD terbaik yang dimiliki saat ini. Dan ia juga memiliki mesin matematika matriks yang sangat bagus, yang tidak dimiliki oleh chip ini.
Masalahnya adalah, Intel memiliki "Sapphire Rapids" Xeon SPs dalam pengerjaan, yang kami pikir akan memiliki empat chiplet 18-core dengan total 72 core, tetapi hanya 56 dari mereka yang akan diekspos karena masalah hasil yang dimiliki Intel dengannya. Proses SuperFIN 10 nanometer (Intel 7). Dan AMD juga sedang mengerjakan 96-core "Genoa" Epyc 7004s. Power11 beberapa tahun lagi, jadi jika IBM ingin bermain di HPC, Samsung harus meningkatkan hasil pada chip Power10 sehingga IBM dapat menjual lebih banyak inti dalam satu kotak. Big Blue sudah memiliki kapasitas memori dan keunggulan bandwidth memori. Kita akan melihat apakah sistem Power10 kelas L-nya dapat bersaing dalam harga dan kinerja setelah kita mengetahui lebih lanjut. Dan kami juga akan mengeksplorasi bagaimana pengelompokan memori dapat menghasilkan platform komputasi yang sangat menarik berdasarkan campuran NUMA gemuk dan node kurus tanpa memori. Kami memiliki beberapa ide tentang bagaimana ini mungkin terjadi.
Komentar