主要观点总结
本文介绍了关于Slurm作业调度系统的基本知识和使用。提到了生信技能树服务器的问题以及新单位的集群系统的不适应,为了解决这个问题分享了关于Slurm学习笔记的内容,包括基本概念、基本工作流程、功能和使用方法等。
关键观点总结
关键观点1: Slurm简介
Slurm是一个常用的作业调度系统,用于管理计算集群上的资源,并调度和执行作业。它已被全世界的国家超级计算机中心广泛采用。
关键观点2: Slurm的基本概念和术语
介绍了Slurm中的一些基本概念和术语,如作业、节点、登录节点、分配节点、分区、调度器等。
关键观点3: Slurm的基本工作流程
描述了提交作业、资源分配、监控作业、作业输出等Slurm的基本工作流程。
关键观点4: Slurm的功能和使用方法
详细介绍了Slurm的各种功能,如查看集群状态、作业提交、查看作业信息、启动交互式作业等,并给出了相应的使用方法和示例。
关键观点5: Slurm环境变量
介绍了Slurm中的一些环境变量,如作业ID、作业名、队列名称、进程总数等。
文章预览
博士期间我一直用的是生信技能树的服务器【 搭配GPU服务再升级—256线程2Tb内存服务器共享一年仍然是仅需800 】,这个价格非常适合学生党,可以帮助我们低成本快速练习Linux技能,美中不足的是技能树的服务器没有作业调度系统。由于我过去四年没有这方面的使用背景,我完全不适应新单位的集群系统。实际上,大规模以及长期运行的数据需要提交任务至分配节点,如果在登录节点运行较大资源的话,会导致整个服务器卡顿(还可能会被别的用户吐槽,甚至被管理员处罚...)。在这里,我分享一下关于Slurm学习笔记。 Slurm(Simple Linux Utility for Resource Management)是一个常用的作业调度系统,已被全世界的国家超级计算机中心广泛采用,它可以管理计算集群上的资源,并调度和执行作业(例如脚本或分析任务),帮助用户高效地在多个计算节点上运
………………………………