Mengapa prosesor beralih ke multi-core?

Meningkatkan frekuensi clock inti tunggal mencapai batas daya dan panas pada pertengahan 2000-an. Menambahkan lebih banyak inti meningkatkan throughput total dalam anggaran daya yang sama, sehingga multicore menjadi cara dominan untuk menjaga kinerja terus meningkat — meskipun itu mengalihkan beban peningkatan kecepatan ke perangkat lunak paralel.

Bagaimana GPU berbeda dari CPU multicore?

CPU memiliki beberapa inti yang kuat yang dioptimalkan untuk eksekusi tujuan umum dengan latensi rendah. GPU memiliki banyak inti yang lebih sederhana yang dioptimalkan untuk pekerjaan paralel data dengan throughput tinggi, menjalankan operasi yang sama di banyak elemen data, yang cocok untuk grafis dan komputasi numerik padat tetapi tidak semua beban kerja.

Arsitektur Paralel dan Multicore

Arsitektur paralel dan multicore berkaitan dengan perangkat keras yang menjalankan banyak operasi sekaligus — beberapa core pada sebuah chip, unit vektor dan SIMD, serta GPU yang sangat paralel — bersama dengan struktur memori dan komunikasi yang memungkinkan pekerjaan paralel berjalan dengan benar dan efisien.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Arsitektur paralel dan multicore adalah desain perangkat keras komputer yang melakukan beberapa komputasi secara bersamaan melalui core yang direplikasi, unit paralel data yang luas, atau akselerator khusus, bersama dengan mekanisme interkoneksi dan memori yang mengoordinasikannya.

Scope

Area ini mencakup organisasi perangkat keras untuk paralelisme: multiprosesor chip dan desain multi-core, sistem memori bersama dan koherensi serta konsistensi yang mereka butuhkan, prosesor SIMD dan vektor untuk paralelisme tingkat data, dan arsitektur GPU. Ini membahas bagaimana perangkat keras paralel dibangun dan bagaimana kinerja skalanya. Ini tidak termasuk sisi perangkat lunak dari pemrograman paralel dan terdistribusi serta sistem terdistribusi skala klaster, yang tercakup dalam komputasi terdistribusi dan paralel, dan mesin eksekusi inti tunggal yang tercakup dalam mikroarsitektur prosesor.

Sub-topics

Core questions

Bagaimana perangkat keras paralel meningkatkan kinerja, dan apa yang membatasi peningkatan tersebut?
Bagaimana beberapa core diintegrasikan pada sebuah chip dan dihubungkan ke memori bersama?
Jaminan konsistensi dan koherensi memori apa yang harus disediakan oleh perangkat keras memori bersama?
Bagaimana desain SIMD, vektor, dan GPU memanfaatkan paralelisme tingkat data?
Bagaimana arsitektur paralel disesuaikan dengan beban kerja untuk memaksimalkan throughput yang berguna per watt?

Key concepts

multiprosesor chip
paralelisme tingkat thread
paralelisme tingkat data
pemrosesan SIMD dan vektor
GPU dan multi-core
memori bersama dan koherensi
konsistensi memori
jaringan interkoneksi
hukum Amdahl dan skalabilitas
perangkat keras sinkronisasi

Key theories

Hukum Amdahl: Peningkatan kecepatan dari paralelisasi komputasi dibatasi oleh fraksi yang harus berjalan secara sekuensial: bahkan dengan prosesor tak terbatas, bagian serial membatasi peningkatan kecepatan keseluruhan, yang membentuk bagaimana arsitektur paralel dirancang dan dievaluasi.
Taksonomi paralelisme gaya Flynn: Perangkat keras paralel diatur berdasarkan bagaimana instruksi dan aliran data digabungkan — misalnya single-instruction multiple-data (SIMD) untuk paralelisme data dan multiple-instruction multiple-data (MIMD) untuk sistem multicore dan multiprosesor — sebuah klasifikasi yang membingkai pilihan arsitektural.

Mechanisms

Prosesor multicore menempatkan beberapa core pada satu die yang berbagi satu atau lebih tingkat cache dan antarmuka memori, dihubungkan oleh interkoneksi on-chip. Protokol koherensi menjaga cache mereka tetap konsisten, dan model konsistensi memori mendefinisikan urutan operasi memori yang terlihat di seluruh core. Perangkat keras paralel data — unit vektor, jalur SIMD, dan GPU dengan banyak core ringan — menerapkan satu operasi di banyak elemen data, sementara primitif sinkronisasi mengoordinasikan thread paralel.

Clinical relevance

Setelah penskalaan clock single-core terhenti, arsitektur paralel dan multicore menjadi jalur utama untuk kinerja yang lebih tinggi, sehingga hampir semua prosesor modern adalah multicore. GPU dan unit SIMD kini mendukung grafis, komputasi ilmiah, dan operasi matriks yang menjadi inti pembelajaran mendalam, menjadikan perangkat keras paralel sebagai pusat beban kerja kinerja tinggi dan kecerdasan buatan.

History

Mesin paralel berasal dari superkomputer vektor seperti Cray-1 pada tahun 1970-an dan multiprosesor penelitian pada tahun 1980-an dan 1990-an. Berakhirnya penskalaan frekuensi sekitar pertengahan 2000-an mendorong industri menuju chip multicore sebagai standar. GPU berevolusi dari pipeline grafis fungsi tetap menjadi akselerator multi-core yang dapat diprogram, dan arsitektur paralel data menjadi dasar pembelajaran mesin modern.

Debates

Multicore tujuan umum versus akselerator khusus: Dengan berkurangnya keuntungan dari multicore homogen, ada perdebatan tentang seberapa jauh untuk mendukung akselerator khusus domain (GPU, unit tensor) versus core tujuan umum, menukar kemampuan program dan fleksibilitas dengan efisiensi untuk beban kerja tertentu.

Key figures

Gene Amdahl
Michael J. Flynn
John L. Hennessy
David A. Patterson
David E. Culler

Seminal works

hennessy2019
amdahl1967
patterson2020

Frequently asked questions

Mengapa prosesor beralih ke multi-core?: Meningkatkan frekuensi clock inti tunggal mencapai batas daya dan panas pada pertengahan 2000-an. Menambahkan lebih banyak inti meningkatkan throughput total dalam anggaran daya yang sama, sehingga multicore menjadi cara dominan untuk menjaga kinerja terus meningkat — meskipun itu mengalihkan beban peningkatan kecepatan ke perangkat lunak paralel.
Bagaimana GPU berbeda dari CPU multicore?: CPU memiliki beberapa inti yang kuat yang dioptimalkan untuk eksekusi tujuan umum dengan latensi rendah. GPU memiliki banyak inti yang lebih sederhana yang dioptimalkan untuk pekerjaan paralel data dengan throughput tinggi, menjalankan operasi yang sama di banyak elemen data, yang cocok untuk grafis dan komputasi numerik padat tetapi tidak semua beban kerja.