iSCSI-Performance-Optimierung: 380 MB/s in der VM mit openfiler und ESXi


Hallo, zusammen

(english version)

Zwischen den günstigen iSCSI-Storage-Appliances (QNAP, Thecus, Buffalo, Cisco SMB und Co.) und den „großen“ Storages aus der Fiberchannel-Welt klafft eine große Lücke, sowohl in der Performance, der Features aber insbesondere im Preis. Im WorNet-Labor haben wir eine überzeugende Lösung gefunden, die diese Lücke überbrückt. Natürlich mit OpenSouce-Mitteln!

unsere TestumgebungSchon lange setzen wir den auf Linux basierenden Openfiler für unsere iSCSI-Storage-Server ein. Allerdings waren wir mit der Performance nicht so recht zufrieden. Selbst mit leistungsfähiger Hardware kommt verglichen mit günstigen Appliances (in unserem Fall von QNAP) in den virtuellen Maschinen nur wenig mehr I/O-Leistung an. Die Testphase unseres neuen ESX-Clusters kam uns da sehr gelegen um systematisch an der Performance-Schraube zu drehen.

Hier hat sich ein optimales Vorgehen bei der Optimierung herauskristallisiert, bei dem die Reihenfolge der Optimierungsschritte  entscheidend ist.

Unsere Testumgebung:

  • 1 ESXi 4.1 Server (Fujitsu RX 200 S6, 8 Cores 2,4 GHz, 48 GB RAM, 6 x GBit-Netzwerk Intel)
  • 1 Openfiler 2.3 (Supermicro 8 Cores 2,0 GHz, 8 GB RAM, 3ware 9650SE 8 Ports, 6 x GBit-Netzwerk Intel, 8 Festplatten 2 TB SATA 7200U/min)
  • 1 Switch Cisco Catalyst 2960S (24 Port GBit)

Je 4 GBit Interfaces werden für iSCSI genutzt. Dabei werden 4 VLANs mit verschiedenen IP-Bereichen definiert. Die Interfaces müssen dem iSCSI-HBA zugeordnet werden bevor die Ziele sichtbar werden.  Dann wird ein Volume mit VMFS formatiert und man erhält einen Datastore mit dem man die Tests durchführen kann. Die Verwendung der Pfade wird auf „Round Robin“ konfiguriert.

virtuelle Testmaschine:

Wir haben eine virtuelle Maschine mit 1 vCPU, 2 GB RAM mit Windows 7 installiert. Die Größe der virtuellen Festplatte sollte mindestens 15 GB + 2 * RAM des Storageservers betragen. Zusätzlich wird IOMETER und ein standardisiertes Konfigurationsfile aus dem VMware-Forum installiert. Mit diesem Test erhält man Werte die mit den Ergebnissen anderer Forumsbeiträge vergleichbar sind.

1. Schritt: Ausgangssituation

Zunächst messen wir die Performance des nicht-optimierten Systems. Dabei wählen wir die Größe des Testfiles bewusst kleiner als der Arbeitsspeicher des Storage-Servers, d.h. wir messen zwar die iSCSI-Anbindung, nicht aber das Festplattensystem.

Latency (ms) IO/s MB/s
Max Throughput-100%Read 14,6 4096,1 128,0
RealLife-60%Rand-65%Read 412,3 141,4 1,1
Max Throughput-50%Read 13,4 4302,2 134,4
Random-8k-70%Read 546,1 107,6 0,8

Für 4 GBit Speicheranbindung ist das nicht gerade beeindruckend. Das RAID-System des Storage-Servers liefert lokal im Openfiler gemessen 420 MB/s!

2. Schritt: Optimierung der iSCSI-Speicheranbindung

Jetzt optimiert aggressiv man alle Parameter, die die Speicheranbindung betreffen. Dabei ist es in Ordnung, wenn unsichere Einstellungen (z.B. Write-Cache im RAID-Controller ohne vorhandene BBU) gewählt werden. Auch wählt man die Größe der Testdatei in IOMETER kleiner als den RAM des Storage-Systems, denn wir wollen möglichst wenig Einflüsse der Platten und statt dessen nur den Weg von der virtuellen Maschine bis zum iSCSI-Daemon im Storage-System testen.

Insbesondere konfiguriert man:

  • Netzwerkkartenparameter (Jumbo Frames, TCP-Offload)
  • iSCSI-Parameter (Round-Robin-Parameter)
  • RAID-Controller (Write-Cache einschalten)

Bei uns machte sich das deutlich bemerkbar:

Latency (ms) IO/s MB/s
Max Throughput-100%Read 4,69 12624,71 394,52
RealLife-60%Rand-65%Read 318,66 181,52 1,42
Max Throughput-50%Read 8,08 7030,93 219,72
Random-8k-70%Read 369,51 150,26 1,17

Damit sind wir sehr nahe am theoretischen Maximum (4 GBit entspricht ca. 440 MB/s inkl. iSCSI-Overhead).Leistungsanzeige der iSCSI-Pfade bei sequentiellem Zugriff

Wichtig: Machen sie nicht weiter wenn Sie mit diesen Werten nicht 100%ig zufrieden sind. Ab hier wird es wieder schlechter!

Wenn man im vShpere-Client unter Leistung die Nutzung der iSCSI-Pfade bei sequentiellem Zugriff ansieht müssen die Pfade gleichmäßig mit je 1 GBit ausgelastet sein (Bild rechts).

Stolperfallen in unserem Test:

  • fehlerhafte Jumbo-Frame-Konfiguration (Test: Ping mit großen Paketen und Dont-Fragment-Bit), hierbei auch an den Switch (Cisco 2960S: „set mtu jumbo 9000“) denken!
  • Der Round-Robin-Algorithmus bei ESXi wechselt den Pfad im default nur nach 1000 IO-Operationen. Das muss man mit einem esxcli-Befehl umstellen.

3. Schritt: Optimierung der Storageparameter

Jetzt stellt man sinnvolle Werte für den Produktivbetrieb ein und  erhöht die Größe des Testfiles für IOMETER auf das doppelte des RAM des Storageservers. Aufpassen die „Maximum Disk Size“ wird in Blocks angegeben, ein Block hat 512 Bytes.

In unserem Fall haben wir nun verschiedene Raid-Level und Spindelzahlen verglichen.

Raid-10 mit 4 Platten zu je 2 TB (SATA, 7200 U/min):

Latency (ms) IO/s MB/s
Max Throughput-100%Read 4,93 12089,4 377,79
RealLife-60%Rand-65%Read 333,02 171,66 1,34
Max Throughput-50%Read 8,15 6857,19 214,29
Random-8k-70%Read 454,2 129,76 1,01

Raid-10 mit 8 Platten:

Latency (ms) IO/s MB/s
Max Throughput-100%Read 4,8 12331,0 385,3
RealLife-60%Rand-65%Read 443,6 138,0 1,1
Max Throughput-50%Read 9,1 6305,3 197,0
Random-8k-70%Read 504,0 121,4 0,9

Die Erhöhung der Anzahl der Festplatten von 4 auf 8 bei RAID-10 hat sich erstaunlicherweise nicht signifikant ausgewirkt. Da ist besser zwei unabhängige Datastores mit je 4 Platten anzulegen.

Ein Test mit einem RAID-6 aus 8 Festplatten ergab noch schlechtere Werte, insbesondere beim Random-Zugriff.

Fazit:

Mit knapp 400 MB/s und >10.000 IOPS sind wir absolut glücklich. Unser x86-Server mit Openfiler (ca. 4.000 Euro) schließt die Lücke zwischen den „kleinen“ (ca. 1.000 Euro und 70 MB/s und 2.000 IOPS) und den „großen“ jenseits der 10 k€.

Eine weitere Verbesserung der IOPS oder Latenzen ist mit schnelleren Festplatten, SSDs oder SAS-Platten sicher realisierbar. Eine Storage-Replikation ist mit „drbd“ machbar, wurde aber in diesem Test nicht untersucht.

Dieser Artikel basiert auf den Testreihen und Erfahrungen von Christian Eich, Richard Schunn und Toni Eimansberger.

IT bleibt spannend,

Christian Eich

Gedanken zum Cloud-Ausfall bei Amazon – Teil II


Hallo, zusammen

Ausfälle haben eine unangenehme Eigenschaft, sie richten sich nicht nach denen, die sie zu verhindern suchen. Vielmehr gehorchen sie Murphys Gesetz: „If anything can go wrong it will.“

Wie kann man sich also gegen den Ärger eines Ausfalls schützen?

  • Durch Service Level Agreements? Die verhindern zwar den Ausfall nicht, aber man fühlt sich zumindest besser im Fall der Fälle.
  • Durch Investition in Höchstverfügbarkeit? Damit reduziert man (hoffentlich) die Wahrscheinlichkeit eines Ausfalls aber auch die Komplexität und die Kosten.
  • Durch Resignation vor dem Unausweichlichen? Ja warum denn eigentlich nicht?

Wenn Fehler ohnehin passieren, kann man sich auch schützen indem man ihnen den Schrecken nimmt. Indem man sie zu einem Teil seiner Kultur macht. Diesen Ansatz liebe ich weil er zutiefst pragmatisch ist und den Fokus auf das Ergebnis lenkt statt auf die Anzahl der 9er in einer Statistik.

Ein Chaos-Affe?

Genau das hat auch der erfolgreiche amerikanische Filmverleiher Netflix getan und den „Chaos Monkey“ erfunden. Der Chaos Monkey ist ein Prozess, der zufallsgesteuert Teile der Netflix-Software beendet. Dieser Prozess läuft ständig im Produktiv-System!

Warum sollte jemand in einer Produktiv-Umgebung soetwas tun? Weil die Fehler ohne den Chaos Monkey ohnehin passieren (nur eben seltener). Der Chaos Monkey hilft den Entwicklern mit Fehler sinnvoll umzugehen, keine falschen Annahmen zu treffen und immer ein sinnvolles Ergebnis zu liefern, egal was schief geht. Denn keiner denkt mehr „das wird schon nicht schiefgehen“, vielmehr hat der Entwickler die Gewissheit, dass der Chaos Monkey auch seinen Code findet. Gleichzeitig werden alle automatischen Prozesse, die Fehler korrigieren, Prozesse neu starten, etc. fortwährend getestet.

So verbessert der Chaos Monkey sowohl die Software-Qualität als auch die Robustheit des Systems. Und das hat dazu beigetragen, dass Netflix den Amazon-Ausfall  unbeschadet überstanden hat, obwohl viele ihrer Server betroffen waren.

Standhaft durch Nachgeben

Ein bisschen erinnert mich das an das Judo-Prinzip „Siegen durch Nachgeben“. Statt seine Prozesse wie Trutzburgen gegen den Ausfall zu stemmen lässt man den Ausfall über sich ergehen und ist schnell wieder einsatzbereit, und geht während dessen bestmöglich damit um. Denn nicht die Ausfall-Statistik entscheidet am Ende des Tages sondern das Gesamtergebnis!

Weitere Interessante Artikel:

IT bleibt spannend,

Christian Eich

Notfall-Pläne und die Realität


Notfall-Pläne sind eine feine Sache – aber nur die Realität zeigt was sie taugen.  Einen solchen Ernstfall hatten wir vor gut einer Woche in unserem Münchener Rechenzentrum.

Zunächst fiel eine der drei Phasen unseres Stromanschlusses aus und damit ein drittel der Steckdosen im Serverraum, was nur minimale Auswirkungen hatte. Auch als die daran angeschlossene USV leer war wurden alle bis auf eine Maschine über eine zweite Phase mit Strom versorgt. Die Dienste dieser Maschine wurden auf eine andere Maschine übertragen – das Monitoring meldete: „alles grün“. Bis hier hat der Notfall-Plan gute Dienste geleistet.

Der große Schreck kam als die Hausverwaltung anrief und sagte die Stadtwerke müssten den Strom für voraussichtlich 6 Stunden komplett abstellen. Nun erfuhren wir auch was passiert war: Das dicke Stromkabel in der Straße hatte einen Kurzschluss – „der Bagger muss anrücken“! Das würden die USVs nicht überbrücken können. Jetzt war Improvisationstalent gefragt.

Die Lösung kam in Form eines langen Verlängerungskabels quer über den Innenhof zu einem Gebäude, das nicht von der defekten Stromleitung betroffen war. Nach Abschaltung redundanter Systeme und weniger unkritischer Maschinen reichte der Strom aus dem Nachbarhaus um WorNet zu versorgen.

Nach 18 Stunden war der Strom dann wieder da und ein unerwarteter Notfall-Test glimpflich beendet. An dieser Stelle sei Herrn Seyb von der Hausverwaltung herzlich für seine Unterstützung gedankt 🙂

Schlafen Sie gut – Ihre IT ist sicher!


Hallo,

...schlaffördernde und beruhigende Wirkung...anbei sehen Sie Baldrian. Brauchen Sie Baldrian, um Nachts gut zu schlafen, weil Sie davor Angst haben, was passiert, wenn morgen Ihr wichtigster Server ausfällt? Oder weil Sie nicht wissen, ob die Datensicherung wirklich sicher ist: Der Kollege, der sich darum kümmert, hat zwar gesagt, es sei alles in Ordnung, aber kann man sich wirklich darauf verlassen? Kann eine Datei z.B. auch dann noch restauriert werden, wenn ihr Verschwinden erst nach Wochen bemerkt wird? Sein Fachgebiet ist ja eigentlich ein anderes…

Vertrauen Sie Ihre IT und Ihre Daten lieber Experten an, deren Fachgebiet wirklich die Stabilität von Servern und die Sicherheit von Daten ist.

Wir stellen laufend den Betrieb Ihrer wichtigen Server und die Verfügbarkeit Ihrer Daten sicher – und zwar individuell nach Ihren Bedürfnissen und detaillierter Planung. Dabei kommen – je nach Anforderung – moderne Techniken aus unserem Rechenzentrum, wie Remote-Backup und automatische Überwachung aller wichtigen Dienste zum Einsatz. Aber auch „Altbewährtes“, wie regelmäßige persönliche Vor-Ort-Besuche bei Ihnen, um zu besprechen, welche aktuellen Wünsche vorliegen.

Wenn auch bei Ihnen Daten und Server unternehmenswichtig sind, dann kommen Sie zu uns und Sie schlafen auch ohne Baldrian bestens 🙂 – Damit Sie sich voll auf die Dinge konzentrieren können, für die Sie Experte sind.

Vernetzte Grüße,

Dirk Steinkopf

WorNet AG
Vorstand, CEO

Neuer Server in 15 Minuten gefällig?


Sehr geehrte IT-Nutzer,

der Trend bei großen Firmen geht zu Dynamic Infrastructure, Server-as-a-Service etc. Für den Fall, dass Sie noch nicht wissen, was dahinter steckt, können Sie z.B. bei Wikipedia nachlesen, dass es dabei  darum geht, sich die Infrastruktur (v.a. Server) nur noch nach Bedarf, also dynamisch zu kaufen: D.h. nicht mehr großdimensionert „für alle Fälle“, sondern nach Bedarf genau die Ressourcen einkaufen, die man gerade benötigt – dabei zahlt man immer nur das, was man auch wirklich benutzt. Das heißt dann z.B. dass man für ein paar Wochen 2 zusätzliche Server (oder auch nur CPUs in bestehenden Servern) braucht und bezahlt. Bei großen Firmen lohnt es sich, relativ viel Aufwand zu betreiben, hier sehr umfassend und detailiert (feingranular) zu denken.

Wie kann ich als mittelständische Firma von dieser Entwicklung profitieren?

Wir reduzieren die Anzahl Ihrer Server (und damit die Kosten). Dies ist heute leicht möglich, weil aktuelle Server meistens überdimensioniert sind. Mit Hilfe von Virtualisierung betreiben Sie dann die bisherigen – jetzt logischen – Server auf einer gemeinsamen oder wenigen Hardware-Maschinen. Unser Rechenzentrum wird dann so mit Ihrem Netz verbunden, dass Sie in Zukunft viele Vorteile vereinen – die Verbindung ist so sicher wie VPN und so flexibel wie ein lokales Netz:

  • Sie können flexibel zu entscheiden, wann und wie Sie Ihre lokalen Kapazitäten erweitern möchten. Sie sind frei, welche Dienste im lokalen Netz und welche im WorNet-Rechenzentrum laufen.
  • Dienste im WorNet-Rechenzentrum haben eine bessere Anbindung, höhere Ausfallsicherheit und Stabilität und sind trotzdem zugreifbar wie im lokalen Netz.
  • Bei vom Internet aus erreichbaren Diensten: Hohe Sicherheit durch Verhinderung unerlaubter Zugriffe ins interne Netz.
  • Datensicherheit und Zugriffs-Geschwindigeit durch Verdoppelung der wichigen Daten, sodass sie lokal und im WorNet Rechenzentrum vorhanden sind.
  • Schnelle Reaktion: Ein neuer Server ist innerhalb von 15 Minuten bereit. auch wenn er nur für kurze Zeit benötigt wird.

Wofür kann das genutzt werden? Hier ein paar Beispiele:

  • Der Exchange-Server wird nicht mehr im lokal betrieben, sondern im WorNet-Rechenzentrum (Vorteile: Sicherheit bei gleicher Einfachheit + schnellerer Zugriff auf WebAccess).
  • Für Evaluierungen oder Tests wird für wenige Wochen oder Monate ein zusätzlicher Server gebraucht. Dieser kann lokal oder im Rechenzentrum stehen. In jedem Fall ist er schnell so und kann zugegriffen werden als wäre er lokal.
  • Datei-Ablage-Server, der die Daten an wechselnden Standorten bereitstellt, und im internen Netz trotzdem normal schnell erreichbar sein soll.

Es ist wirklich überraschend einfach, von den Vorteilen dieser Techniken zu profitieren.

  • Hohe Flexibilität.
  • Erhöhte Datensicherheit und Zuverlässigkeit durch Redundanz.
  • Erhöhte Sicherheit vor Angriffen durch Abtrennung von Internet-Diensten.
  • Vertrauen durch persönliche Zusammenarbeit und unser kleines Rechenzentrum mit höchsten Sicherheitsstandards.

Mit vernetzten Grüßen,

Dirk Steinkopf

WorNet AG
Vorstand, CEO

Helfen Sie den verwaisten Pinguinen


Kürzlich sprach ich mit einem neuen Kunden über seine Server. Er hat ein paar Windows Server die er professionell betreuen lässt und einen Linux-Server auf dem eine MySQL-Datenbank läuft.Das Linux-Maskottchen wurde von Larry Ewing, Simon Budig und Anja Gerwinski  mit der freien Software GIMP erstellt.

CHE: Ist der Linux-Server mit der MySQL-Datenbank für Ihr Unternehmen wichtig?

Kunde: Das ist schwer untertrieben. Ohne die Datenbank wissen wir nicht was wir produzieren müsen.

CHE: Und wer kümmert sich um die Maschine?

Kunde: Kümmern tut sich keiner. Wenn es brennt rufen wir den Programmierer, der unsere Anwendung betreut. Cry

Solche „verwaisten Pinguine“ treffe ich immer öfter in Unternehmen an. Doch die IT-Dienstleister, die das Windows-Netz betreuen haben meist keine Erfahrung mit Linux und klammern diese Maschinen in ihren Wartungsverträgen gerne aus.

Linux-Server entstehen oft als Bastel-Projekt eines einzelnen engagierten Mitarbeiters. Eine ausrangierte Hardware und etwas freie Software, schon hat man ein Linux-System im Einsatz, oftmals ohne dass der Geschäftsführer davon weiß. Es mussten ja keine Lizenzen gekauft, keine Hardware angeschafft werden. Und sind sie erst einmal da, will man sie aufgrund ihrer Vielseitigkeit, Robustheit und der vielen freien Software nicht mehr missen.

Haben auch Sie Linux-Systeme im Einsatz?

Dann haben Sie ein Herz und lassen Sie den Pinguin  im Serverschrank nicht alleine. —- Wir lieben Pinguine!

Vernetzte Grüße,

Christian Eich

WorNet AG
Vorstand

Datenpanne? Wo bin ich sicher?


Hallo liebe eMail-Nutzer,

die Nachrichten von Datenpannen häufen sich in letzter Zeit (Datenpanne beim Finanzdienstleister AWD, Telekom-Datenpanne, davor auch andere große Anbieter, z.B. Hotmail, Yahoo, AOL und Google). Wollen Sie Ihre Daten und eMail noch einem großen Anbieter anvertrauen, wenn damit zu rechnen ist, dass die nächste Panne bald passiert?

Kommen Sie zu uns! Ursache der Pannen bei den Großen sind meist keine technischen Probleme oder Sicherheitslöcher, die auch eine kleine Firma mit dem richtigen Know-How im Griff hat. Es geht um die Menschen: Wir haben ein Rechenzentrum mit eigener Infrastruktur. Bei uns haben nur 5 Personen Zugriff auf die Systeme. Wenn Sie möchten können sie jedem von uns in die Augen schauen und feststellen: „Denen von WorNet kann ich vertrauen.“ Wir sind in der Nähe und kommen auch gerne zu Ihnen.

Wenn Sie sich keine Sorgen machen möchten, um Ihre eMail und alles, was Sie an IT in unsere Hände legen, rufen Sie mich an. Wir finden individuelle, vertrauliche Lösungen in der vernetzten Welt.

Vernetzte Grüße,

Dirk Steinkopf
Vorstand WorNet AG, CEO