-
Notifications
You must be signed in to change notification settings - Fork 53
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Bug/Help] mis: 设置分区QOS后队列计费不再支持按作业QOS设置 #1461
Comments
请您方便的话,通过 |
以及
|
感谢您的回复。从您分区信息可以看到, 为了解决您现在的问题,我们建议您不指定 如果您有指定默认Qos的需求,我们会考虑后续对此做出完善。 |
但正如本issue的introduction部分介绍, 我们的需求并非指定默认QoS,而是希望对这个队列指定一个独立于其他队列的政策要求。 |
感谢您对问题的补充。 首先,当前OpenSCOW中,我们默认在页面提交作业/创建交互式应用使用GPU分区时,至少需要选择1张以上的GPU卡; 其次,针对您现在遇到的问题,我们当前不支持对Partition下的AllowQos和Qos分别指定,如果您想给GPU分区制定独立于全局的normal 和 long 的qos, 建议您可以通过单独给对应分区指定 normal-long-qos, long-gpu-qos的AllowQos 请确认上述回复能否解决您的问题。 最后,您提到后台作业仍然正常扣费,请您帮助确认该扣费是否是在租户管理和平台管理下未对 GPU分区的 任何qos设置价格时发生的扣费?在您分区配置为 Qos = gpu-qos, AllowQos= normal, long的条件下,集群下写入数据库并发生扣费的 GPU分区下的 Qos 为那个 Qos |
首先谢谢您的回答。 关于前者,首先用户的使用习惯大部分时候还是会通过命令行创建作业,因此我们需要在Slurm层面上做限制。第二,Slurm不支持对分区设置MinTres策略限制,仅可通过配置分区QOS来实现,这点我想或许也是分区QOS功能存在的目的。 独立于原本设置创建新的QOS则会要求用户改变使用习惯,从运营角度我们自然希望尽可能不影响用户,因此在实践上这类影响用户的变更,我们需要内部进一步讨论决定。而从技术上来说,在Slurm策略设置上既然存在推荐的解决方案,削足适履可能也并不一定是最优解。 然后关于后者,我们确实还没有做新设置的变更,即维持了原本GPU分区对应normal和long QOS的定价。目前也是原打算做变更的时候发现这一问题的存在。 |
分区确实不直接支持MinTres设置,感谢提醒。 关于计费推测由于您可能没有在变更Qos配置时重启OpenScow,数据库中保留了原有计费规则,所以导致如果可以正常使用normal和long的 Qos的情况提交作业时,仍然使用了原有计费规则。 目前我们在Slurm适配器中采用的策略是如果设置了PartitionQos默认情况是让用户只使用PartitionQos来提交作业,所以这时只支持对PartitionQos来设置计费规则 如果有迫切的需要您可以在我们提供的Slurm开源适配器的基础上进行改动满足您使用的需求 |
项目内部讨论后,现在定位是当前适配器在取分区QOS的时候逻辑有些问题,后续会在适配器项目中进行更新 |
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
发生了什么 | What happened
由于内部管理的需要,我们通过Slurm对GPU分区设置了分区QOS(
gpu_qos
),独立于全局的作业QOS(normal
和long
),主要用于限制用户每次提交GPU作业至少申请1张GPU卡,尽可能提高效率。由于全局QOS同时作用于CPU分区,故该设置无法在作业QOS中分别设置,在实践上只能采用上述策略。但如图所示,在设置了该QOS后,SCOW系统中无法对GPU分区计费分别针对
normal
和long
进行设置,且查询后台发现系统仍在正常扣费。期望结果 | What did you expect to happen
可以正确对
normal
和long
QOS分别设置计费之前运行正常吗? | Did this work before?
正常。v1.6.3
复现方法 | Steps To Reproduce
进入SCOW的作业价格表设置
运行环境 | Environment
备注 | Anything else?
No response
The text was updated successfully, but these errors were encountered: