Multi-Cluster-und Jobweiterleitung mit Spectrum LSF einrichten
Das folgende Beispiel zeigt eine Anleitung zum Einrichten der Multi-Cluster-und Jobweiterleitung mithilfe von Spectrum LSF. In diesem Beispiel werden allgemeine Situationen erläutert, in denen ein Cluster lokal und ein anderer in der Cloud vorhanden ist.
In diesem Beispiel wird davon ausgegangen, dass der lokale Cluster mit der Bezeichnung "OnPremiseCluster" ein Teilnetz 192.168.0.0/24
und sein Management-Host 192.168.0.4
(on-premises-management) verwendet.
Der mit "HPCCluster" bezeichnete Cloud-Cluster verwendet ein Teilnetz 10.244.128.0/24
und sein Management-Host verwendet 10.244.128.37
(icgen2host-10-244-128-37). Beide Konfigurationsverzeichnisse befinden
sich in /opt/ibm/lsf/conf
, aber Sie können das Verzeichnis abhängig von Ihrer Clusterkonfiguration ändern.
-
Stellen Sie sicher, dass die MTU-Größe die Weiterleitung von Paketen über das Internet ermöglichen kann. Wenn Sie Management-Host-Kandidaten in Ihrem Cluster haben, behalten Sie eine große MTU für die Leistung und Funktionen der Management-Host-Kommunikation bei. Der Management-Host und jeder Kandidat müssen wie folgt konfiguriert werden:
$ sudo ip link set mtu 1500 dev eth0 $ sudo ip route add {management host candidate/management host IP} dev eth0 mtu 9000
-
Das folgende Beispiel zeigt die Datei
/etc/hosts
für den Cloud-Cluster. Sie müssen sicherstellen, dass die Hostnamen für die LSF-Management-Hosts auflösbar sind.... 10.244.128.61 icgen2host-10-244-128-61 10.244.128.62 icgen2host-10-244-128-62 10.244.128.63 icgen2host-10-244-128-63 192.168.0.4 on-premise-management # added
Stellen Sie für die lokale Datei
/etc/hosts
sicher, dass die Informationen zum Management-Host im Cloud-Cluster hinzugefügt werden:10.244.128.37 icgen2host-10-244-128-37 #added
-
Beide Cluster müssen einander erkennen, sodass Sie
/opt/ibm/lsf/conf/lsf.shared
ändern müssen. Diese Konfigurationsdatei sollte in beiden Clustern identisch sein.... Begin Cluster ClusterName Servers # Keyword # modified HPCCluster (icgen2host-10-244-128-37) # modified OnPremiseCluster (on-premise-management) # modified End Cluster ...
-
Die beiden Cluster sind so konfiguriert, dass sie unterschiedliche
lsb.queues
-Dateien haben. Im Cloud-Cluster müssen Sie die folgenden Zeilen an/opt/ibm/lsf/conf/lsbatch/HPCCluster/configdir/lsb.queues
anhängen, um eine Empfangswarteschlange zu registrieren:... Begin Queue QUEUE_NAME=recv_q RCVJOBS_FROM=OnPremiseCluster PRIORITY=30 NICE=20 RC_HOSTS=all End Queue
Der lokale Cluster ist so konfiguriert, dass er eine Sendewarteschlange unter
/opt/ibm/lsf/conf/lsbatch/OnPremiseCluster/configdir/lsb.queues
hat:... Begin Queue QUEUE_NAME=send_q SNDJOBS_TO=recv_q@HPCCluster PRIORITY=30 NICE=20 End Queue
-
Starten Sie beide Cluster erneut, indem Sie den folgenden Befehl ausführen:
$ lsfrestart
-
Nachdem Sie beide Cluster erneut gestartet haben, können Sie jetzt Jobs von lokal an die Cloud weiterleiten. In Ihrem lokalen Cluster können Sie den folgenden Job testen:
$ bsub -q send_q sh -c 'echo $HOSTNAME > /home/lsfadmin/shared/mc-test.txt'
Sie sehen, dass der Job im HPCCluster unter
10.244.128.37
ausgeführt wird.$ bjobs -aw
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME 304 lsfadmin DONE recv_q on-premise-manangement@OnPremiseCluster:911 icgen2host-10-244-128-39 sh -c 'echo $HOSTNAME > /home/lsfadmin/shared/mc-test.txt' Jun 17 02:27
Zusätzliche Ressourcen
Weitere Informationen finden Sie in der folgenden IBM Spectrum LSF-Dokumentation: