職位描述

職位描述
為大規模分布式訓練/推理、llm等多種重計算任務設計和實現分布式計算方案,并對各類任務進行定制化優化。具體工作包括且不限于:
1,搭建分布式高性能計算框架,研究和實驗新的分布式計算技術,基于主流分布式框架進行研發和優化
2,分析和優化訓練計算效率,通過gpu算子優化、異步并發、io優化等方式減少計算耗時
3,設計和優化網絡架構,對各種任務partition和并行方式進行性能調優
4,領導和指導團隊中的研究人員和工程師,共同解決大規模分布式計算中的挑戰
職位要求
1,碩士及以上學歷,計算機/軟件工程等相關專業,3年以上工作經驗(或相關專業博士);
2,對tensorflow/pytorch等主流框架的架構設計及優化技術有比較深入的理解,比如算子融合、量化、xla、計算圖優化等
3,有豐富的c++開發經驗或精通python,有很好的系統基礎和扎實的編碼功底,具有較強的工程實現能力
4,對計算機體系結構有較為深入的理解或豐富的經驗,熟悉大規模并行計算/異構計算/高性能計算;
5,具備較強的溝通能力,團隊驅動能力和獨立工作能力,能帶領和協調團隊推動方案完成
工作地點
地址:杭州余杭區杭州文一西路969號


職位發布者
HR
阿里巴巴(中國)有限公司


-
IT服務·系統集成
-
1000人以上
-
中外合資(合資·合作)
-
杭州濱江區阿里巴巴濱江園區699