Hadoop & Spark nên chọn ai?

GravityModel nhận được một số câu hỏi về Hadoop và Spark. Và có cảm giác một số bạn đang nhầm lẫn giữa Apache Hadoop và Apache Spark, nên ở bài này sẽ tóm tắt gắn gọn vài điểm khác nhau để mọi người đỡ confuse. Từ đó có thể lựa chọn một big-data framework phù hợp.

  • Cả 2 đều là big-data framework

Cả 2 đều là big-data framework, tuy nhiên mục đích của chúng lại khác nhau. Hadoop là một distributed data framework và rất mạnh, nó có thể vừa phân tán các task vụ vừa phân tán lưu trữ tới các commodity servers trong các cụm máy chủ.

Trong khi Spark lại tâp trung vào xử lý dữ liệu (Spark xử lý data real-time ngay trên RAM – nhanh hơn Hadoop cả 10 lần). Lưu ý Spark chỉ có thành phần xử lý dữ liệu chứ không có thành phần phân tán dữ liệu.

Note:
Commodity servers là các máy chủ có mức giá thương mại (rẻ) không giống như mainframe hay các máy chủ chuyên dụng khác.

  • Hadoop và Spark có thể hoạt động độc lập hoặc kết hợp

Hadoop và Spark là 2 framework hoàn toàn độc lập

Hadoop có 2 thành phần là: HDFS giúp phân tán dữ liệu và MapReduce giúp xử lý dữ liệu. Kể từ Hadoop 2.x với sự xuất hiện của YARN, thì việc kết hợp Hadoop với một streaming framework là điều hoàn toàn có thể

  • Spark nói chung là nhanh, nhẹ hơn so với Hadoop bởi vì cách mà nó xử lý data

Cách Hadoop xử lý :

Read data from the cluster >> perform an operation >> write results to the cluster >> read updated data from the cluster>> perform next operation >> write next results to the cluster >> etc.

Cách Spark xử lý như sau:

Read data from the cluster >> perform all of the requisite analytic operations >> write results to the cluster và done.

  • Nếu hệ thống của bạn không yêu cầu real-time bạn không cần Spark.
  • Failure recovery

Cách xử lý data là khác nhau bởi Hadoop là trên disk còn Spark là trên RAM. Tuy nhiên khả năng recovery của cả 2 vẫn được đảm bảo trong trường hợp có xự cố xảy ra.

Qua một vài mục nhỏ này hy vọng các bạn mới tiếp cận bigdata sẽ có thêm thông tin, ở các bài sau chúng ta sẽ đi sâu vào Spark hoặc Hadoop.

Cảm ơn các bạn đã đọc bài

Jaime

Please follow and like us:

Leave a Reply

Your email address will not be published. Required fields are marked *