Mô tả công việc
Mô tả công việc
- Cấu hình và vận hành nền tảng dữ liệu lớn như Cloudera CDP, Databricks, hoặc tương đương;
- Vận hành hệ thống xử lý dữ liệu batch và streaming (ETL pipelines, Kafka, Spark Structured Streaming...);
- Quản lý và tối ưu hiệu năng cụm xử lý dữ liệu;
- Giám sát ETL hàng ngày, xử lý lỗi, đảm bảo hoàn thành đúng SLA;
- Làm việc với đội phát triển dữ liệu để cải tiến pipeline, tối ưu các xử lý;
- Đề xuất cải tiến kiến trúc ETL; Streaming, tối ưu chi phí vận hành và độ ổn định hệ thống;
- Thiết lập cảnh báo và giám sát ETL/Jobs/Cluster qua công cụ như Prometheus, Grafana,...;
- Quản lý truy cập, phân quyền sử dụng dữ liệu và giám sát log truy cập;
- Làm việc với các team bảo mật và kiểm toán để đảm bảo compliance;
- Xây dựng các tự động hóa cải tiến/thay thế công việc vận hành;
- Các công việc khác mà cấp trên giao phó;
- Viết SOP, tài liệu hướng dẫn, quy trình khắc phục sự cố, kiểm thử hệ thống định kỳ;
- Báo cáo cho ban giám đốc về các hoạt động của hệ thống.
Yêu cầu ứng viên
- Đào tạo
- Tốt nghiệp Cao đẳng/Đại học chuyên ngành Công nghệ thông tin, Khoa học máy tính, Điện tử viễn thông, Toán tin...;
- Có chứng chỉ về CSDL;
- Có chứng chỉ Cloud Azure/Google/AWS là một lợi thế.
- Kiến thức/Kỹ năng chuyên môn
- Có kinh nghiệm tối thiểu 2 năm phát triển hoặc vận hành hệ thống ETL (Oracle GoldenGate, ODI, Pentaho,...);
- Hiểu rõ nguyên lý ETL: extract từ nhiều nguồn, mapping, transform, load vào warehouse/lakehouse;
- Kỹ năng thực tế với nền tảng dữ liệu lớn: Spark, Hive, Hadoop, Kafka là lợi thế lớn;
- Kỹ năng SQL nâng cao, hiểu rõ CSDL quan hệ, Performance tuning query trên Oracle, PostgreSQL, SQL Server hoặc tương đương;
- Kỹ năng Scripting để tự động hóa các thao tác vận hành;
- Kỹ năng đọc & phân tích log hệ thống (Spark UI, YARN, Kubernetes, Logstash, Prometheus, Grafana...);
- Kiến thức cơ bản về các hệ quản trị cơ sở dữ liệu;
- Hiểu biết về hạ tầng CI/CD, Cloud và container;
- Hiểu biết về kiến trúc Data Lake, Lakehouse, Data Mesh;
- Có kinh nghiệm làm việc theo các quy trình, tiêu chuẩn Vận hành nền tảng dữ liệu và ứng dụng;
- Có kinh nghiệm làm việc tại ngân hàng là một lợi thế.
- Ưu tiên
- Từng làm với Cloudera Manager hoặc Databricks (UI, CLI, REST API);
- Có kinh nghiệm xử lý job fail, phân tích log, tối ưu load time và resource usage;
- Có chứng chỉ về dữ liệu hoặc quản trị hệ thống là điểm cộng.