jingyijun 最近的时间轴更新

jingyijun's repos on GitHub

Go · 60 人关注

MOSS_backend

backend for fastnlp MOSS project

C++ · 44 人关注

sfSnakePro

基于SFML图形库的贪吃蛇小游戏，2022年春季复旦大学面向对象程序设计课程大作业（个人作业版本）

C · 7 人关注

ZerOS

A Zig Operating System. Zig 语言的简易操作系统。

Go · 2 人关注

ICS_Y86

A Y86 simulator project for Fudan ICS 2022 Autumn

1 人关注

JingYiJun

Config files for my GitHub profile.

Python · 0 人关注

ai-fdu.github.io

Rust · 0 人关注

async-runtime

Go · 0 人关注

book_management_system_backend

a backend for Fudan 2023 Spring database course

0 人关注

course_compiler

Course Webpage of COMP130014 Compiler Principles and Techniques @ Fudan University

0 人关注

daily_fudan_actions

daily_fudan的运行器，自动定时执行https://github.com/Limour-dev/daily_fudan_core 的代码

C++ · 0 人关注

DanXi

[Windows / Mac / Android / iOS] Maybe the best all-rounded service app for Fudan University students. 可能是复旦学生最好的第三方校园服务APP。

Kotlin · 0 人关注

DanXi-NG

Next generation DanXi, built with Kotlin & Jetpack Compose.

0 人关注

DanXi-swift

A Swift Reimplementation of DanXi

Python · 0 人关注

FDMJ-tests

Rust · 0 人关注

fdmjc-rs

FDMJ Compiler written in Rust

0 人关注

goAliyunDDNS

阿里云域名动态解析处理golang版

HTML · 0 人关注

jingyijun.github.io

JingYiJun blog, powered by hugo, deployed on Github Pages

0 人关注

llm_shearing

clone from https://github.com/princeton-nlp/LLM-Shearing

0 人关注

MOSS_frontend

Frontend for the MOSS chatbot.

Go · 0 人关注

raft_example

Python · 0 人关注

Sequoia

scalable and robust tree-based speculative decoding algorithm

C++ · 0 人关注

sfSnake

an SFML based Snake program forked from https://github.com/jhpy1024/sfSnake. Changed some bugs and warnings.

Go · 0 人关注

SoftwareDesign-2023Fall

Software Design

0 人关注

vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

Go · 0 人关注

yidun-golang-sdk

jingyijun

🏢 复旦大学

V2EX 第 583768 号会员，加入于 2022-06-04 09:59:30 +08:00

今日活跃度排名 1883

jingyiijun.xyz GitHub

JingYiJun

jingyijun 提问技术话题好玩工作信息交易信息城市相关

实验室 GPU 集群管理经验分享与问题探讨，求建议

程序员 • jingyijun • 17 分钟前 • 最后回复来自 bitllion

» jingyijun 创建的更多主题

jingyijun 最近回复了

6 小时 49 分钟前

回复了 jingyijun 创建的主题 › 程序员 › 实验室 GPU 集群管理经验分享与问题探讨，求建议

@cxz2536818783 感谢！粗略看感觉确实很匹配我们的需求

6 小时 53 分钟前

回复了 jingyijun 创建的主题 › 程序员 › 实验室 GPU 集群管理经验分享与问题探讨，求建议

@runzhliu
1. 没有专职运维，都是实验室感兴趣的同学兼职运维。所以说运维成本高，沟通学习成本也高。但是现在 HPC 专职运维我们一直在招，没有找到能力匹配且酬金合适的。或许可以了解下专职运维市场行情大概是怎样的？
2. Ceph 我们隔壁实验室在用，确实很劝退。我们也在探索 K8s 。
3. slurm 为什么会误删数据？每个用户应该用的是自己的 linux 账号呀，他没道理能删除系统环境里的东西。

6 小时 56 分钟前

回复了 jingyijun 创建的主题 › 程序员 › 实验室 GPU 集群管理经验分享与问题探讨，求建议

@SorryChen 感谢回复！碎片化、调试这块深受启发，交互式这里我们这个 GPU 机器都是可以直接访问到对应机器的端口的，应该问题不大？不过我还有几个问题想问。
1. 灵活性：我们实际运维中还是会遇到一些同学，希望 apt install 的方式在宿主机上装一些软件，可能是需要 follow 一些工作的时候，确保跟 README 里写的环境匹配上。这个时候容器化环境会更加灵活一些，然而 slurm 看起来就是跟容器不太兼容的，用户还是没有办法随意装一些全局的环境。
2. 容器化：容器环境我感觉也没有那么天书？我们所有的用户 HOME 目录都在共享存储 gpfs 上，所以类似 ~/anaconda 这种目录就很自然跨计算节点共享，如果说用容器化方案，挂载共享存储目录/个人环境打包上传到共享容器库之后，数据应该也不会很容易丢失？
3. 我自己后续可能会做一些基于 k8s 的探索、研究，包括 k8s scheduler for ml batch process system / kuberay 等等，供给实验室 scale up 的实验。然而现在基于 slurm 的平台貌似很难和 k8s 协同管理。我也看到过一些基于 k8s 的和 slurm 同类型的平台例如 Kueue 这种，这是否有一个权衡的方案。

42 天前

回复了 noobma 创建的主题 › 程序员 › tts 怎么把文本合成指定城市的方言语音

tts 很依赖于定制数据，越是小地方的方言越是缺少数据，个人的话很难做。

» jingyijun 创建的更多回复