关于lsf队列的一些配置

• 为防止计算服务器内存负荷导致宕机,当计算节点的可用内存低于100GB时,LSF将该计算节点关闭,阻止新作业分配到这个计算节点上(bjobs将显示作业状态为PENING),当计算节点的内存低于20GB时,LSF会将该节点上运行的作业逐步挂起(bjobs将显示作业状态为SSUSP)直至恢复。

• 规划一般队列;
常用队列如下,用户可以通过(bqueues -l queue_name)命令来查询每个queue的具体信息;
short_q:用于耗时少于2小时的作业,每个用户最大50个slots,超时作业将会被关闭
long_q:用于耗时超过2小时但少于24小时的作业,每个用户最大50个slots,超时作业将会被关闭
superlong_q:用于耗时超过24小时的作业,每个用户最大50个slots

• 规划专用队列:
de_q: RTL+DV(design verification)团队可用,可以根据项目情况调整资源配置;
be_q: BackEnd(all Physical design and BE jobs)团队可用,可以根据项目情况调整资源配置;
rg_q: RG(release-gate)团队可用,可以根据项目情况调整资源配置;
sp_q: 专用队列

• 内存预留与限制最大内存
bsub内存预留选项:用户提交作业时请指定作业的最小内存需求(bsub -R “rusage[mem=内存大小(MB)]” command),以便lsf可以将其分派到至少有这么多内存的机器。如果未指定内存选项,lsf将使用默认内存选项(10GB);

• bsub防止内存溢出:在提交作业时指定内存大小(bsub -M 内存大小(MB) command)防止作业进程内存漏泄导致影响服务器系统正常运行,切勿直接登录IC服务器运行作业,勿提交 xterm terminal等来启动终端;

• 请勿在登录节点直接运行作业(vim、编辑、查看等日常操作除外),通过bsub运行EDA作业,以免登录服务器负载影响其余用户的正常使用。如果不通过作业调度管理系统直接在计算节点上运行将会被监护进程直接杀掉,

• 登录节点无法获取license,需要通过bsub提交作业获取license,防止直接在登录节点运行EDA

• 关闭长期不用的terminal&工具&窗口;

• bjobs查询异常挂起或pend的作业及时关闭或重新提交,有异常问题请先联系lsf管理员查看;

• 队列调度策略:
优先根据mem,默认是通过slot,ut
RES_REQ = order[mem]
order可选r15s,r1m,r15m,ut,pg,ls,it,tmp,swp,mem,slot

关于lsf队列的一些配置

发表回复

滚动到顶部