IBM Cloud Docs
Multi-Cluster-und Jobweiterleitung mit Spectrum LSF einrichten

Multi-Cluster-und Jobweiterleitung mit Spectrum LSF einrichten

Das folgende Beispiel zeigt eine Anleitung zum Einrichten der Multi-Cluster-und Jobweiterleitung mithilfe von Spectrum LSF. In diesem Beispiel werden allgemeine Situationen erläutert, in denen ein Cluster lokal und ein anderer in der Cloud vorhanden ist.

In diesem Beispiel wird davon ausgegangen, dass der lokale Cluster mit der Bezeichnung "OnPremiseCluster" ein Teilnetz 192.168.0.0/24 und sein Management-Host 192.168.0.4 (on-premises-management) verwendet. Der mit "HPCCluster" bezeichnete Cloud-Cluster verwendet ein Teilnetz 10.244.128.0/24 und sein Management-Host verwendet 10.244.128.37 (icgen2host-10-244-128-37). Beide Konfigurationsverzeichnisse befinden sich in /opt/ibm/lsf/conf, aber Sie können das Verzeichnis abhängig von Ihrer Clusterkonfiguration ändern.

  1. Stellen Sie sicher, dass die MTU-Größe die Weiterleitung von Paketen über das Internet ermöglichen kann. Wenn Sie Management-Host-Kandidaten in Ihrem Cluster haben, behalten Sie eine große MTU für die Leistung und Funktionen der Management-Host-Kommunikation bei. Der Management-Host und jeder Kandidat müssen wie folgt konfiguriert werden:

    $ sudo ip link set mtu 1500 dev eth0
    $ sudo ip route add {management host candidate/management host IP} dev eth0 mtu 9000
    
  2. Das folgende Beispiel zeigt die Datei /etc/hosts für den Cloud-Cluster. Sie müssen sicherstellen, dass die Hostnamen für die LSF-Management-Hosts auflösbar sind.

    ...
    10.244.128.61 icgen2host-10-244-128-61
    10.244.128.62 icgen2host-10-244-128-62
    10.244.128.63 icgen2host-10-244-128-63
    
    192.168.0.4 on-premise-management   # added
    

    Stellen Sie für die lokale Datei /etc/hosts sicher, dass die Informationen zum Management-Host im Cloud-Cluster hinzugefügt werden:

    10.244.128.37 icgen2host-10-244-128-37 #added
    
  3. Beide Cluster müssen einander erkennen, sodass Sie /opt/ibm/lsf/conf/lsf.shared ändern müssen. Diese Konfigurationsdatei sollte in beiden Clustern identisch sein.

    ...
    Begin Cluster
    ClusterName        Servers                       # Keyword             # modified
    HPCCluster         (icgen2host-10-244-128-37)    # modified
    OnPremiseCluster   (on-premise-management)       # modified
    End Cluster
    ...
    
  4. Die beiden Cluster sind so konfiguriert, dass sie unterschiedliche lsb.queues-Dateien haben. Im Cloud-Cluster müssen Sie die folgenden Zeilen an /opt/ibm/lsf/conf/lsbatch/HPCCluster/configdir/lsb.queues anhängen, um eine Empfangswarteschlange zu registrieren:

    ...
    Begin Queue
    QUEUE_NAME=recv_q
    RCVJOBS_FROM=OnPremiseCluster
    PRIORITY=30
    NICE=20
    RC_HOSTS=all
    End Queue
    

    Der lokale Cluster ist so konfiguriert, dass er eine Sendewarteschlange unter /opt/ibm/lsf/conf/lsbatch/OnPremiseCluster/configdir/lsb.queues hat:

    ...
    Begin Queue
    QUEUE_NAME=send_q
    SNDJOBS_TO=recv_q@HPCCluster
    PRIORITY=30
    NICE=20
    End Queue
    
  5. Starten Sie beide Cluster erneut, indem Sie den folgenden Befehl ausführen:

    $ lsfrestart
    
  6. Nachdem Sie beide Cluster erneut gestartet haben, können Sie jetzt Jobs von lokal an die Cloud weiterleiten. In Ihrem lokalen Cluster können Sie den folgenden Job testen:

    $ bsub -q send_q sh -c 'echo $HOSTNAME > /home/lsfadmin/shared/mc-test.txt'
    

    Sie sehen, dass der Job im HPCCluster unter 10.244.128.37 ausgeführt wird.

    $ bjobs -aw
    
    JOBID   USER      STAT   QUEUE    FROM_HOST   EXEC_HOST   JOB_NAME   SUBMIT_TIME
    304     lsfadmin  DONE   recv_q   on-premise-manangement@OnPremiseCluster:911 icgen2host-10-244-128-39 sh -c 'echo $HOSTNAME > /home/lsfadmin/shared/mc-test.txt' Jun 17 02:27
    

Zusätzliche Ressourcen

Weitere Informationen finden Sie in der folgenden IBM Spectrum LSF-Dokumentation: