職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
工作職責:
1、負責智算平臺業務開發,實現大模型的數據準備、數據處理、模型定義、模型訓練、模型評估等過程;
2、負責分布式訓練編排、斷點續訓、推理加速等面向大規模訓練推理場景的能力實現;
3、負責開源、自有大模型基于不同芯片、不同組網、不同規模場景下的的適配、調優等過程的支撐和專家服務;
4、開發模型一鍵遷移等工具,適配不同生態;
5、開發推理加速等工具,為不同模型適配云、邊、端等不同場景提供加速能力。
任職資格:
1、碩士及以上學歷,計算機相關專業,3年以上相關工作經驗;
2、熟練C 、Python編程語言;熟悉常用的Pytorch/Tensorflow/PaddlePaddle/MindSpore等深度學習算法,掌握Deepspeed/Megatron等分布式訓練框架;
3、具備超大規模(千卡及以上)集群進行大模型(100B )預訓練、微調、推理加速經驗者優先;
4、具備國產化AI芯片開發經驗者優先;
5、熟悉主流的容器技術,對K8s擴展開發熟悉者優先;
6、具有較強的架構設計能力,能夠獨立設計復雜分布式系統,有架構設計經驗者優先;
7、有優秀的英文學術論文寫作能力,在英文期刊和學術頂會上發表過學術論文者優先。
1、負責智算平臺業務開發,實現大模型的數據準備、數據處理、模型定義、模型訓練、模型評估等過程;
2、負責分布式訓練編排、斷點續訓、推理加速等面向大規模訓練推理場景的能力實現;
3、負責開源、自有大模型基于不同芯片、不同組網、不同規模場景下的的適配、調優等過程的支撐和專家服務;
4、開發模型一鍵遷移等工具,適配不同生態;
5、開發推理加速等工具,為不同模型適配云、邊、端等不同場景提供加速能力。
任職資格:
1、碩士及以上學歷,計算機相關專業,3年以上相關工作經驗;
2、熟練C 、Python編程語言;熟悉常用的Pytorch/Tensorflow/PaddlePaddle/MindSpore等深度學習算法,掌握Deepspeed/Megatron等分布式訓練框架;
3、具備超大規模(千卡及以上)集群進行大模型(100B )預訓練、微調、推理加速經驗者優先;
4、具備國產化AI芯片開發經驗者優先;
5、熟悉主流的容器技術,對K8s擴展開發熟悉者優先;
6、具有較強的架構設計能力,能夠獨立設計復雜分布式系統,有架構設計經驗者優先;
7、有優秀的英文學術論文寫作能力,在英文期刊和學術頂會上發表過學術論文者優先。
工作地點
地址:蘇州虎丘區蘇州市高新區昆侖山路58號


職位發布者
劉女士/..HR
中移(蘇州)軟件技術有限公司

-
通信/電信/網絡設備/增值服務
-
500-999人
-
國有企業
-
虎丘區科靈路78號