Kỹ năng


Mô tả công việc

Job Description: Datacenter Observability and Site Reliability Engineer
Roles and Responsibilities:
Observability and Monitoring:
• Design, implement, and maintain observability solutions for datacenter infrastructure.
• Develop, deploy, and maintain the operational and reliability components of a large-scale Observability and Telemetry collection platform, emphasizing performance at scale, real-time monitoring, logging, and alerting. • Participate in and enhance the entire lifecycle of services, from inception and design to deployment, operation, and refinement.
• Develop and optimize monitoring systems to ensure high availability and performance.
• Create and manage dashboards, alerts, and reports to provide visibility into system health and performance.
Site Reliability Engineering (SRE):
• Implement SRE best practices to improve the reliability, scalability, and performance of datacenter services.
• Develop and maintain automation scripts for infrastructure provisioning, monitoring, and management.
• Conduct root cause analysis and post-mortem reviews to prevent recurrence of incidents.
Performance Optimization:
• Analyze and optimize the performance of datacenter systems and applications.
• Implement best practices for resource utilization and efficiency.
Collaboration:
• Work closely with other engineering teams to understand and meet their observability and reliability requirements.
• Collaborate with hardware and software vendors to evaluate and integrate new technologies.
Security and Compliance:
• Ensure that observability and reliability solutions comply with security policies and industry standards.
• Implement and maintain security measures to protect data and infrastructure. Troubleshooting and Support:
• Provide support for observability and reliability-related issues, including debugging and resolving hardware and software problems.
• Develop and maintain documentation for troubleshooting procedures and best practices.
Continuous Improvement:
• Stay updated with the latest advancements in observability and SRE technologies and integrate them into the infrastructure.
• Continuously improve the reliability, scalability, and performance of datacenter services.

Yêu cầu công việc

Technical Skills:
• Proficiency in observability tools and technologies (e.g., Prometheus, Grafana, ELK Stack).
• Experience with SRE practices and tools (e.g., Kubernetes, Docker, Terraform).
• Strong programming and scripting skills (e.g., Python, Go, Bash).
• Familiarity with cloud platforms (AWS, Azure, GCP) and their observability and
reliability services.
Soft Skills:
• Strong problem-solving skills and attention to detail.
• Excellent communication and collaboration skills.
• Ability to work in a fast-paced, dynamic environment.

Thời gian làm việc

Trong tuần: Từ thứ 2 - thứ 6

Trong ngày: Từ 08:30 giờ - 18:00 giờ


Quyền lợi ứng viên

- No probationary period, full-time job with 100% salary
- Opportunity to work in teams with many leading experts in the IT field domestically and internationally.
- Opportunity to carry out ambitious projects in many countries, access the latest technologies and learn from talented colleagues.
- Work in a young, dynamic, modern and multicultural environment; Communication activities and events on holidays take place regularly.
- Opportunity to advance according to ability with corresponding rank and salary increases.
- Right to participate in soft skills training courses (logical thinking, creative thinking, communication skills, project management skills, negotiation skills ...) and Japanese language classes.
- And many other attractive benefits...

Địa chỉ làm việc

remote

Tiền thưởng

Đăng nhập để xem

Mức lương

20-30 triệu

Thông tin

  • Kinh nghiệm 6 năm
  • Trình độ Không yêu cầu
  • Vị trí Senior
  • Loại công việc
  • Hình thức Full-time
  • Hạn nộp hồ sơ 2025-02-01
  • Số lượng 5 người
  • Phỏng vấn 2 vòng
Hỗ trợ ứng tuyển
Hr Admin

Nguyễn Thanh Thảo

Hr

Đào Thị Thu Phương

Báo cáo lỗi

Sao chép đường dẫn để chia sẻ:


Việc làm cùng kỹ năng

Middle Infrastructure Engineer (remote)

  • 20-40 triệu
  • Hà Nội
- Làm remote - Thời gian làm việc linh động 8 tiếng một ngày - Tiếng Anh chỉ cần đọc hiểu (không sử dụng nhiều đến tiếng Anh) - Thiết kế, xây dựng và duy trì môi trường hạ tầng có thể mở rộng. - Triển khai và quản lý Hạ tầng dưới dạng Mã (IaC) bằng Terraform. - Xây dựng và duy trì môi trường container hóa (containerized) sử dụng AWS ECS và EKS. - Tăng cường các biện pháp bảo mật bằng cách triển khai và quản lý AWS WAF. - Thiết kế và quản lý cấu hình mạng, bao gồm định tuyến, phân vùng con và nhóm bảo mật. - Giám sát môi trường đám mây bằng AWS CloudWatch, New Relic và các công cụ giám sát khác. - Thiết lập và quản lý cơ chế cảnh báo để đảm bảo phát hiện vấn đề kịp thời và tuân thủ SLA.

Tiền thưởng

Đăng nhập để xem