Prosessor AI DLU Dengan Custom-Built Processor Kinerja Lebih Baik



Prosessor AI DLU Dengan Custom-Built Processor Kinerja Lebih Baik - Meskipun DLU telah bekerja sejak setidaknya 2015, Fujitsu belum banyak membicarakan rancangannya. Namun, bulan lalu di ISC 2017, Takumi Maruyama menyampaikan pembaruan tentang upaya HPC dan AI Fujitsu, dan menawarkan penyamaran yang cukup dalam ke dalam cara kerja dalam chip pembelajaran mendalam yang akan datang. Maruyama, yang merupakan direktur senior Divisi Platform AI Fujitsu, telah terlibat dalam pengembangan prosesor SPARC sejak 1993 dan saat ini mengerjakan proyek DLU.


Menurut Maruyama, seperti banyak prosesor lain yang dibangun untuk pembelajaran mendalam, DLU sangat bergantung pada matematika presisi rendah untuk mengoptimalkan kinerja dan efisiensi energi dalam memproses jaringan syaraf tiruan. Secara khusus, chip tersebut secara native mendukung tipe data FP32, FP16, INT16, dan INT8. Fujitsu telah menunjukkan bahwa format integer presisi rendah (16-bit dan 8-bit) dapat digunakan untuk efek yang baik pada setidaknya beberapa aplikasi pembelajaran yang mendalam, tanpa kehilangan akurasi yang tinggi. Idenya adalah mengembangkan perangkat lunak yang dapat menggeneralisasi kemampuan itu dalam beragam aplikasi pembelajaran yang mendalam.

Pada tingkat tertinggi, chip ini terdiri dari beberapa Unit Pengolahan Pembelajaran Jarak Jauh (DPU), yang terhubung satu sama lain melalui kain berperforma tinggi. Mungkin berguna untuk memikirkan DPU ini sebagai inti pembelajaran yang dalam. Inti master yang terpisah mengelola eksekusi pada DPU dan menegosiasikan akses memori antara DPU dan pengontrol memori on-chip.





Sumber: Fujitsu


Setiap DPU sendiri terdiri dari 16 elemen proses pembelajaran yang mendalam (DPEs), dimana di situlah jumlah sebenarnya terjadi penggoncangan. Menggali masih dalam, masing-masing DPE terdiri dari delapan unit eksekusi SIMD, bersama dengan file register yang sangat besar (RF). Tidak seperti cache, RF berada di bawah kendali perangkat lunak penuh.

Paket DLU akan berisi beberapa memori memori dengan bandwidth generasi kedua (HBM2), yang akan memberi makan data ke prosesor dengan kecepatan tinggi. Paket juga akan menyertakan sebuah antarmuka untuk menghubungkan ke DLU lain melalui interkoneksi Tahu (atau yang serupa). Dengan menggunakan jaringan off-chip ini, Fujitsu membayangkan sistem yang sangat besar sedang dibangun, gagasan untuk menciptakan platform terukur bahkan untuk masalah belajar yang paling rumit dan terbesar sekalipun.

DLU pertama dijadwalkan akan tersedia sekitar tahun FY2018, dan akan ditawarkan sebagai coprocessor, dengan CPU host untuk mengendarainya. Dimulai dengan teknologi generasi berikutnya, Fujitsu berencana menanamkan DPU di sebuah host CPU sejenis. Tidak ada timeline yang ditawarkan untuk produk generasi kedua ini.

Rencana utama perusahaan adalah membuat jalur DLU secara paralel dengan rangkaian prosesor SPARC tujuan umum. Seperti semua pembuat chip, Fujitsu menyadari bahwa pembelajaran AI / mesin akan mendominasi ruang aplikasi dalam waktu yang tidak terlalu lama, dan perusahaan-perusahaan yang gagal menyesuaikan diri dengan kenyataan itu akan terpinggirkan.

Pada titik ini, tidak ada konsensus jika aplikasi ini akan berjalan pada silikon spesifik-domain, seperti DPU, atau lebih banyak lagi arsitektur tujuan umum seperti CPU, GPU, dan FPGAs. Saat ini, NVIDIA, dengan GPU tertipis AI-nya, mendominasi pasar. Tapi di tempat yang bergerak cepat seperti ini, segalanya bisa berubah dengan cepat.

Intel berencana untuk pergi ke pasar dengan prosesor "Lake Crest", yang sedang dibangun khusus untuk kode pembelajaran yang mendalam. Sementara itu, AMD sedang mempersiapkan GPU Radeon Instinct baru untuk rangkaian aplikasi yang sama ini. Lalu ada upstarts seperti Graphcore, yang ingin berlari lebih cepat dari mereka semua dengan Intelligent Processing Unit (IPU). Seperti produk DLU, Intel, AMD, dan Graphcore yang dijadwalkan akan dirilis ke alam bebas selama 6 sampai 12 bulan ke depan.

Tantangan bagi Fujitsu dan para penantang lainnya adalah NVIDIA telah mengembangkan keunggulan yang cukup hebat dalam mendukung dan mempelajari perangkat lunak pembelajaran yang mendalam untuk GPU-nya. Jumlah kerangka kerja perangkat lunak untuk memproses jaringan syaraf tiruan sudah lama dan berkembang, dan NVIDIA mendukung hampir semua dari mereka. Setiap pesaing yang layak di pasar ini harus mendukung setidaknya yang utama: TensorFlow, Caffe, Microsoft CNTK, Theano, MXNet, dan Torch. Alat untuk membantu pengembang membuat aplikasi di sekitar ini juga diperlukan.

Kabar baiknya adalah bahwa walaupun banyak perangkat lunak pembelajaran yang mendalam telah ditulis, ini adalah setetes bucket relatif terhadap apa yang akan dikembangkan selama beberapa tahun ke depan. Itu berarti ada banyak ruang untuk pendatang baru. Dan dengan perusahaan yang mengantongi dalam seperti Fujitsu dan lainnya melompat ke dalam kerutan silikon, ruang itu pasti akan semakin menarik.


Dikutip dari : www.top500.org

By : ikomputert

0 Response to "Prosessor AI DLU Dengan Custom-Built Processor Kinerja Lebih Baik"

Post a Comment