Trong khóa học này, bạn sẽ học cách xây dựng các giải pháp phân tích dữ liệu hàng loạt bằng Amazon EMR, một dịch vụ được quản lý Apache Spark và Apache Hadoop cấp doanh nghiệp. Bạn sẽ học cách Amazon EMR tích hợp với các dự án nguồn mở như Apache Hive, Hue và HBase, và với các dịch vụ AWS như AWS Glue và AWS Lake Formation. Khóa học đề cập đến các thành phần thu thập, thu thập, lập danh mục, lưu trữ và xử lý dữ liệu trong bối cảnh của Spark và Hadoop. Bạn sẽ học cách sử dụng EMR Notebooks để hỗ trợ cả khối lượng công việc phân tích và học máy. Bạn cũng sẽ học cách áp dụng các biện pháp thực hành tốt nhất về bảo mật, hiệu suất và quản lý chi phí vào hoạt động của Amazon EMR. |
Module A: Overview of Data Analytics and the Data Pipeline
Module 1: Introduction to Amazon EMR
Module 2: Data Analytics Pipeline Using Amazon EMR: Ingestion and Storage
Module 3: High-Performance Batch Data Analytics Using Apache Spark on Amazon EMR
Module 4: Processing and Analyzing Batch Data with Amazon EMR and Apache Hive
Module 5: Serverless Data Processing
Module 6: Security and Monitoring of Amazon EMR Clusters
Module 7: Designing Batch Data Analytics Solutions
Module 8: Developing Modern Data Architectures on AWS
Modern data architectures