Course Summary:
Đối tượng:
Các nhà quản lý, chuyên gia CNTT mong muốn học tập các kỹ năng phân tích để xử lý lượng lớn dữ liệu phi cấu trúc (Data lake như phản hồi của khách hàng, nhận xét của công chúng trên mạng xã hội, bản ghi âm cuộc gọi chăm sóc KH, v.v.) Để có thêm thông tin giúp cải thiện quy trình kinh doanh và ra quyết định.
Những cá nhân chưa có kiến thức nền hoặc kinh nghiệm làm việc về data engineering và phân tích dữ liệu muốn học các kỹ năng thực tế trong lĩnh vực này để họ có thể khám phá các cơ hội làm việc trong lĩnh vực kỹ thuật dữ liệu.
Chuyên gia phân tích dữ liệu, kỹ sư dữ liệu, những người muốn chuyển từ kỹ thuật dữ liệu có cấu trúc sang dữ liệu lớn phi cấu trúc.
Mục tiêu khoá học:
Khoá học nhằm trang bị cho học viên kiến thức và kỹ năng để có thể:
Hiểu được sự phát triển của dữ liệu lớn và nhu cầu về một khung xử lý có thể mở rộng.
Hiểu được đặc điểm cơ bản, kỹ thuật lưu trữ, phân tích và các phân phối có liên quan
Hiểu các yếu tố cần thiết về lưu trữ phân tán, nhu cầu lưu trữ và cơ chế kiến trúc có liên quan trong việc xử lý lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc.
Có được kiến thức chuyên môn với khung tính toán chịu lỗi (fault-tolerant computing framework) VD như YARN.
Xây dựng các tác vụ có thể định cấu hình và thực thi với các frameworks In Memory Processing như Spark Core.
Tổ chức, lưu trữ và thao tác dữ liệu thu thập được bằng cách sử dụng các thư viện xử lý.
Hiểu các cách xử lý dữ liệu, truy vấn và tính bền bỉ.
|
Course Duration: 5 ngày (~40 giờ)
Course Content:
- Introduction to Data Science, Data Engineering and Big Data
- Understand Big Data from an Analytics Perspective
- Architectural Viewpoints in Big Data
- The Hadoop Ecosystem for Big Data
- Distributed File Storage
- nosql Databases for Big Data
- Spark and Functional Programming for Big Data
- Spark and Resilient Distributed Data Sets
- Spark QL for Big Data
- Spark and Real Time Stream Processing
- Management of Big Data initiatives