Apache Spark adalah kerangka (framework) komputasi klaster dan pemrosesan dalam penyimpanan (in-memory) yang memperluas model MapReduce untuk mendukung jenis perhitungan lain, seperti kueri interaktif dan pemrosesan aliran. Spark dirancang untuk menangani berbagai beban kerja dengan memperkenalkan konsep Resilient Distributed Datasets (RDDs), yang memungkinkan eksekusi perhitungan di memori secara fault-tolerant.

RDDs adalah kumpulan data yang immutable dan terpartisi, menyediakan antarmuka pemrograman untuk menjalankan operasi seperti map, filter, dan join pada banyak elemen data. Untuk menjamin fault-t[1]olerance, Spark mencatat semua transformasi yang dilakukan dalam membangun dataset, membentuk graf keturunan (lineage graph) yang memungkinkan pemulihan data secara efisien jika terjadi kegagalan.

Referensi

sunting
  1. ^ Sakr, Sherif; Zomaya, Albert Y., ed. (2019). Encyclopedia of Big Data Technologies (dalam bahasa Inggris). Cham: Springer International Publishing. doi:10.1007/978-3-319-77525-8. ISBN 978-3-319-77524-1.

📚 Artikel Terkait di Wikipedia

Apache Apex

mirip dengan cara kerja sistem pemrosesan data lainnya seperti Apache Spark dan Apache Flink. Alih-alih menentukan operator satu per satu, pengembang

Apache SystemDS

becomes Apache Incubator project IBM donates machine learning tech to Apache Spark open source community IBM's SystemML Moves Forward as Apache Incubator

BigDL

BigDL adalah kerangka kerja pembelajaran mendalam terdistribusi untuk Apache Spark, yang dibuat oleh Jason Dai di Intel. BigDL memiliki kode sumbernya yang

Apache Mahout

pasang (plug-in) yang dapat diperluas, memungkinkan integrasi dengan Apache Spark, Apache Flink, dan sistem lainnya untuk pemrosesan data skala besar secara

Apache Mesos

menggunakan Mesos untuk menjalankan sistem pemrosesan data seperti Apache Hadoop dan Apache Spark. Situs Website eBay menyatakan pada bulan April 2014 bahwa ia

Python dalam sains data dan kecerdasan buatan

klasifikasi dokumen, dan chatbot. Analitik Big Data: Integrasi Python dengan Apache Spark dan Hadoop memungkinkan pengolahan data dalam skala besar. Pengolahan

Edward A. Murphy Jr.

bekerja di sistem keselamatan pilot dan komputerisasi pada helikopter Apache. Spark, Nick T. (2003). "The Fastest Man on Earth: Why Everything You Know

KNIME

KNIME Server dan KNIME Big Data Extensions, menyediakan dukungan untuk Apache Spark 2.3, Parquet dan penyimpanan tipe HDFS. Pada Gartner Quadrant tahun 2019