Apache Spark

🌐 🇮🇩 ID 🇺🇸 EN 🇩🇪 DE 🇫🇷 FR 🇪🇸 ES 🇷🇺 RU 🇮🇹 IT 🇵🇱 PL 🇨🇳 ZH 🇯🇵 JA 🇧🇷 PT ↗ Wikipedia

Artikel ini perlu dikembangkan dari artikel terkait di Wikipedia bahasa Inggris. (Februari 2025)

klik [tampil] untuk melihat petunjuk sebelum menerjemahkan.

Lihat versi terjemahan mesin dari artikel bahasa Inggris.
Terjemahan mesin Google adalah titik awal yang berguna untuk terjemahan, tapi penerjemah harus merevisi kesalahan yang diperlukan dan meyakinkan bahwa hasil terjemahan tersebut akurat, bukan hanya salin-tempel teks hasil terjemahan mesin ke dalam Wikipedia bahasa Indonesia.
Jangan menerjemahkan teks yang berkualitas rendah atau tidak dapat diandalkan. Jika memungkinkan, pastikan kebenaran teks dengan referensi yang diberikan dalam artikel bahasa asing.
Setelah menerjemahkan, {{Translated|en|Apache Spark}} harus ditambahkan di halaman pembicaraan untuk memastikan kesesuaian hak cipta.
Untuk panduan lebih lanjut, lihat Wikipedia:Panduan dalam menerjemahkan artikel.

Apache Spark adalah kerangka (framework) komputasi klaster dan pemrosesan dalam penyimpanan (in-memory) yang memperluas model MapReduce untuk mendukung jenis perhitungan lain, seperti kueri interaktif dan pemrosesan aliran. Spark dirancang untuk menangani berbagai beban kerja dengan memperkenalkan konsep Resilient Distributed Datasets (RDDs), yang memungkinkan eksekusi perhitungan di memori secara fault-tolerant.

RDDs adalah kumpulan data yang immutable dan terpartisi, menyediakan antarmuka pemrograman untuk menjalankan operasi seperti map, filter, dan join pada banyak elemen data. Untuk menjamin fault-t^[1]olerance, Spark mencatat semua transformasi yang dilakukan dalam membangun dataset, membentuk graf keturunan (lineage graph) yang memungkinkan pemulihan data secara efisien jika terjadi kegagalan.