工作内容:
1.负责AI基础平台云原生基础设施架构和研发工作。
2.负责HPC集群搭建、基于K8s的编排调度研发、资源管理和优化,分布式调度框架设计和实现,助力AI算法在平台快速高效落地。
3.对所负责系统进行规划,并结合项目不断优化和升级,提高性能、稳定性、可用性、扩展性。
4.进行技术预研和技术攻关,突破系统和项目中的技术难点。
职位要求:
1.三年以上云原生基础设施研发经验。
2.精通Go编程、K8s原理、有K8s Operator开发经验。
3.熟悉OpenKruise/Argo/Airflow/Volcano/Istio/Knative/Kubeflow等开源项目者加分。
4.有AI场景,如推理/训练方向云原生基础设施研发经历加分。
5.了解分布式计算框架(如Spark/Flink),有实际应用和项目落地经验加分。