jingyijun 最近的时间轴更新
jingyijun's repos on GitHub
Go · 60 人关注
MOSS_backend
backend for fastnlp MOSS project
C++ · 44 人关注
sfSnakePro
基于SFML图形库的贪吃蛇小游戏,2022年春季复旦大学面向对象程序设计课程大作业(个人作业版本)
C · 7 人关注
ZerOS
A Zig Operating System. Zig 语言的简易操作系统。
Go · 2 人关注
ICS_Y86
A Y86 simulator project for Fudan ICS 2022 Autumn
1 人关注
JingYiJun
Config files for my GitHub profile.
Python · 0 人关注
ai-fdu.github.io
Rust · 0 人关注
async-runtime
Go · 0 人关注
book_management_system_backend
a backend for Fudan 2023 Spring database course
0 人关注
course_compiler
Course Webpage of COMP130014 Compiler Principles and Techniques @ Fudan University
0 人关注
daily_fudan_actions
daily_fudan的运行器,自动定时执行https://github.com/Limour-dev/daily_fudan_core 的代码
C++ · 0 人关注
DanXi
[Windows / Mac / Android / iOS] Maybe the best all-rounded service app for Fudan University students. 可能是复旦学生最好的第三方校园服务APP。
Kotlin · 0 人关注
DanXi-NG
Next generation DanXi, built with Kotlin & Jetpack Compose.
0 人关注
DanXi-swift
A Swift Reimplementation of DanXi
Python · 0 人关注
FDMJ-tests
Rust · 0 人关注
fdmjc-rs
FDMJ Compiler written in Rust
0 人关注
goAliyunDDNS
阿里云域名动态解析处理golang版
HTML · 0 人关注
jingyijun.github.io
JingYiJun blog, powered by hugo, deployed on Github Pages
0 人关注
llm_shearing
clone from https://github.com/princeton-nlp/LLM-Shearing
0 人关注
MOSS_frontend
Frontend for the MOSS chatbot.
Go · 0 人关注
raft_example
Python · 0 人关注
Sequoia
scalable and robust tree-based speculative decoding algorithm
C++ · 0 人关注
sfSnake
an SFML based Snake program forked from https://github.com/jhpy1024/sfSnake. Changed some bugs and warnings.
Go · 0 人关注
SoftwareDesign-2023Fall
Software Design
0 人关注
vllm
A high-throughput and memory-efficient inference and serving engine for LLMs
Go · 0 人关注
yidun-golang-sdk
jingyijun

jingyijun

🏢  复旦大学
V2EX 第 583768 号会员,加入于 2022-06-04 09:59:30 +08:00
今日活跃度排名 1883
jingyijun 最近回复了
6 小时 49 分钟前
回复了 jingyijun 创建的主题 程序员 实验室 GPU 集群管理经验分享与问题探讨,求建议
@cxz2536818783 感谢!粗略看感觉确实很匹配我们的需求
6 小时 53 分钟前
回复了 jingyijun 创建的主题 程序员 实验室 GPU 集群管理经验分享与问题探讨,求建议
@runzhliu
1. 没有专职运维,都是实验室感兴趣的同学兼职运维。所以说运维成本高,沟通学习成本也高。但是现在 HPC 专职运维我们一直在招,没有找到能力匹配且酬金合适的。或许可以了解下专职运维市场行情大概是怎样的?
2. Ceph 我们隔壁实验室在用,确实很劝退。我们也在探索 K8s 。
3. slurm 为什么会误删数据?每个用户应该用的是自己的 linux 账号呀,他没道理能删除系统环境里的东西。
6 小时 56 分钟前
回复了 jingyijun 创建的主题 程序员 实验室 GPU 集群管理经验分享与问题探讨,求建议
@SorryChen 感谢回复!碎片化、调试这块深受启发,交互式这里我们这个 GPU 机器都是可以直接访问到对应机器的端口的,应该问题不大?不过我还有几个问题想问。
1. 灵活性:我们实际运维中还是会遇到一些同学,希望 apt install 的方式在宿主机上装一些软件,可能是需要 follow 一些工作的时候,确保跟 README 里写的环境匹配上。这个时候容器化环境会更加灵活一些,然而 slurm 看起来就是跟容器不太兼容的,用户还是没有办法随意装一些全局的环境。
2. 容器化:容器环境我感觉也没有那么天书?我们所有的用户 HOME 目录都在共享存储 gpfs 上,所以类似 ~/anaconda 这种目录就很自然跨计算节点共享,如果说用容器化方案,挂载共享存储目录/个人环境打包上传到共享容器库之后,数据应该也不会很容易丢失?
3. 我自己后续可能会做一些基于 k8s 的探索、研究,包括 k8s scheduler for ml batch process system / kuberay 等等,供给实验室 scale up 的实验。然而现在基于 slurm 的平台貌似很难和 k8s 协同管理。我也看到过一些基于 k8s 的和 slurm 同类型的平台例如 Kueue 这种,这是否有一个权衡的方案。
42 天前
回复了 noobma 创建的主题 程序员 tts 怎么把文本合成指定城市的方言语音
tts 很依赖于定制数据,越是小地方的方言越是缺少数据,个人的话很难做。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4457 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 09:57 · PVG 17:57 · LAX 01:57 · JFK 04:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.