Server-Anforderungen am Use-Case ausrichten

am 20. Februar 2018
Bei Big Data Anwendungen stehen Unternehmen Hardware-seitig viele Optionen offen – von manuell konfigurierbaren Rack- und Cluster-Systemen bis zu integrierten Systemen, die als Referenzarchitektur oder „ready-to-run“ verfügbar sind. Auf Basis welcher Kriterien lässt sich eine passende Server-Infrastruktur zusammenstellen?

Eines muss gleich klar sein. DEN Big Data Server gibt es nicht. Welche Server-Infrastruktur für Big Data Anwendungen geeignet ist, hängt von vielen Faktoren ab - wie etwa der Datenmenge oder der Geschwindigkeit, in der die Daten analysiert werden müssen.

Bei der Planung einer Big Data Infrastruktur steht deshalb an erster Stelle immer ein Konzept. Dieses Konzept sollte unter anderem festlegen, welche Geschäftsziele ein Unternehmen mit einem Big Data Ansatz verfolgt, welche Daten wie schnell analysiert werden müssen, woher die Daten kommen und wie sie aufbereitet werden. Erst darauf aufbauend lässt sich eine Server-Architektur definieren.

"Vor der Festlegung auf bestimmte Hardware muss man wissen, was man will", sagt Marcel Schuster, Senior Marketing Manager für PRIMERGY Server bei Fujitsu. "Tendiere ich zu SAP HANA, oder will ich einen Hadoop Cluster - in beiden Fällen habe ich ein völlig anderes Konzept und damit völlig andere Anforderungen an die darunterliegende Hardware."

Große Datenmengen im Batch

Am besten richten Unternehmen ihre Anforderungen am individuellen Einsatzszenario aus. Nicht in jedem Anwendungsfall ist ein dedizierter "Big Data Server" notwendig. Für kleine Big Data Anwendungen kann eine herkömmliche Server-Infrastruktur bereits ausreichen. "Eine Datenmenge von 100 GB die unstrukturiert vorliegt, lässt sich in der Regel problemlos auf einem Rechnersystem direkt vor Ort halten und dort analysieren", sagt Marcel Schuster. "Die Storage- und Compute-Kapazitäten kann in solchen Fällen ausreichen, eine spezifische Big Data Infrastruktur ist hier nicht unbedingt nötig."

Müssen größere Datenmengen verarbeitet werden, bei denen die Analysegeschwindigkeit keine große Rolle spielt, empfehlen sich entsprechend mit Rechenpower und Storage ausgestattete Rack-Systeme, zum Beispiel mit Hadoop. Solche Rack-Systeme eignen sich perfekt zur Analyse historischer Daten - etwa für Finanzanalysen zum Quartalsende und für die Reporterstellung. Die Reports können dann in einem Batchlauf über Nacht erstellt werden, das heißt eine Adhoc-Bereitstellung der Daten ist nicht zwingend gefordert.

Rechenintensive und Echtzeit-Analysen

Besonders rechenintensive Anwendungen findet man häufig bei Echtzeit-Analysen, deren Ergebnisse schnellstmöglich oder sogar live verfügbar sein müssen. Dafür empfehlen sich beispielsweise Apache Spark Frameworks oder SAP HANA Datenbanken, die wiederum auf Basis von Multinode-Serversystemen laufen oder gar 8-Sockel PRIMEQUEST Server benötigen. Dieses sind zum Beispiel angebracht, wenn das Management Ergebnisse zur Entscheidungsunterstützung sofort bereitgestellt haben möchte. "Weil solche Anwendungen eine Realtime-Analyse erfordern, braucht man eine entsprechend schnelle Infrastruktur, die mindestens mit einer In-Memory-Datenbank gefüttert werden muss", erklärt Schuster.

Bei solchen Anwendungen liegt der Fokus auf der Performance. Großer Storage muss im Analysesystem selbst nicht vorgehalten werden. "Hier sind Fragen nach der richtigen CPU wichtig. Komme ich beispielsweise mit 8 Cores klar oder brauche ich mehr Cores - meine Applikationslandschaft gibt mir das üblicherweise vor", sagt Server-Experte Schuster.

Die Daten werden bei solchen Realtime-Anwendungen, welche auf Computenodes wie einem PRIMERGY CX-Cluster oder den großen PRIMEQUEST Servern laufen, zunächst aufbereitet. Zur Analyse der Echtzeitdaten aus den Quellen, aus denen sie generiert oder in denen gespeichert werden, ist die Vorbereitung durch einen speziellen Server notwendig, der dann wiederum die eigentlichen Computenodes "füttert". Die Daten können dabei aus einem lokalen Rechenzentrum, aus der Cloud, oder zum Beispiel aus Edge-Knoten in einer Produktionshalle kommen - Geschwindigkeit ist hier Trumpf. Der Verbund aus Daten- und Compute-Servern, Storage-Systemen und Netzwerken erfordert deshalb entsprechend hochwertige und schnelle Komponenten.

Praktische Überlegungen

Grundsätzlich sollten Anwender wissen, in welche Richtung sie gehen wollen. "Trenne ich die reinen Compute-Nodes für den Analyseteil vom Storage? Oder mische ich eher - wie zum Beispiel in einer Hadoop-Umgebung - Compute und Storage in einem einzigen Server. Das ist ein wichtiger Entscheidungsfaktor für die zu wählende Hardware", sagt Schuster.

In der Praxis ergibt sich die Antwort auf den Formfaktor - Multinode oder Rack-System - allerdings auch schon einmal von selbst. Hat ein Unternehmen für bereits bestehende IT-Umgebungen schon Rackserver implementiert, sind oftmals bereits viele Synergieeffekte entstanden. In diesem Fall macht ein Wechsel auf ein Multinode-System wenig Sinn, obwohl dies beim IT-Aufbau auf der grünen Wiese vielleicht doch die bessere Wahl wäre.

Fujitsu-Lösungen haben den Vorteil, dass sie ein flexibles Familienkonzept mit flexiblen Formfaktoren verfolgen. Für Hadoop-basierte Anwendungen- also Compute und Storage in einem System - eignen sich eher PRIMERGY RX-Systeme, weil hier Storage und Compute-Performance in einem System vorgehalten werden können. Ist der Anwender eher in Richtung Realtime basierend auf SAP HANA unterwegs, empfehlen sich PRIMERGY CX-Systeme beziehungsweise in vielen Fällen auch die starken, fehlerresistenten PRIMEQUEST Systeme.

Diese Lösungen können sich Anwender manuell zurechtschneiden. Compute-, Storage- und Netzwerk-Komponenten lassen sich flexibel zusammenstellen. Dazu brauchen sie sowohl die erforderliche Kompetenz, als auch Beratungsleistungen entsprechend qualifizierter Dienstleister.

Vorkonfigurierte Big-Data-Systeme

Der zweite Weg sind integrierte Systeme beziehungsweise (hyper-)konvergente Systeme. Diese Lösungen sind fertig oder zumindest vorkonfiguriert direkt für den Anwender gebaut - an gewissen Stellschrauben jedoch variabel. Spezifisches Know-how für Einrichtung und Betrieb sind hier kaum notwendig.

Fujitsu bietet mit PRIMEFLEX for SAP HANA und PRIMEFLEX for Hadoop zwei integrierte, vorkonfigurierte Lösungen an. In beiden Fällen handelt es sich um skalierbare Referenzarchitekturen. "Bei kleineren Big Data Umgebung im Hadoop Umfeld wäre PRIMEFLEX for Hadoop in einer SmartEntry-Version ausreichend, wenn der Kunde weiß, dass seine Anforderungen an die Big-Data Umgebung in den nächsten Jahren nicht wachsen wird. Er ist aber im Hintergrund immer noch flexibel genug, nach oben zu skalieren."

Bei sehr vielen Daten und höheren Performance-Anforderungen empfiehlt sich die XXL-Version. Ein solches XXL-System basiert auf mehreren Compute-Nodes, einem Server für die Datenanalyse und Datenvorbereitung sowie zwei weiteren Rechnern, auf denen nur die Analyse als Masternode für die Analyse-Software läuft. Ein Einstiegssystem eines PRIMEFLEX for Hadoop Clusters besteht aus einem 4-Server-Cluster mit 4 Compute Nodes - also 4 x 2 Prozessoren und 4 x 16 GB RAM pro System - also insgesamt 256 GB RAM für 8 Prozessoren mit jeweils 8 Cores.

Mindestens ebenso wichtig wie die Hardware ist im Big Data Umfeld aber die Software. Hier haben Anwender die Wahl zwischen kommerzieller und Open-Source-Software - bei vielen Unternehmen sind auch bereits bestehende Lizenzen vorhanden, die sich nutzen lassen. Hinzu kommen dann noch Services zum Rollout, Integrationsdienstleistungen und die Sicherstellung der Maintenance über den gesamten Lebenszyklus solcher Umgebungen. "Alles, was über die Hardware hinausgeht, ist nicht zu unterschätzen", sagt Marcel Schuster. "Eine Big-Data-Umgebung soll ja betriebsfähig gehalten werden. Hier kann man sich mit entsprechenden Services das Leben sehr viel leichter machen. Und dafür gibt es Fujitsu."