Hadoop 2.7.2 auf dem Raspberry PI 2 Cluster
Um etwas mehr in die Tiefe von Hadoop einzutauchen, habe ich nun einen Hadoop 2.7.2 Cluster auf dem 6-Node Raspberry PI 2 Cluster aufgesetzt.
Leider lief nicht alles auf Anhieb einwandfrei. So musste ich die native-Libraries für die ARM-Prozessorplattform des Raspberry PI selbst kompilieren. Auch die Netzwerkkonfiguration benötigte einige Erfahrung bezüglich SSH und Linux-Konfigurationsfiles. Auch vor den typischen Cloud-Problemen mit Billighardware blieb ich nicht gefeit. Etwa nach der Hälfte der Arbeit hängte sich ein Node auf und musste komplett neu aufgesetzt werden.
Betrachtet man all diese Aufwände, welche nötig sind um einen Cluster nur mal zum Laufen zu bringen, geschweige denn im produktiven Betrieb zu halten, zeigen sich folgende Punkte klar und deutlich:
- Man muss von Anfang an eine DevOp-Lösung zur Konfigurationsverwaltung verwenden. Andernfalls verliert man den Überblick und verschwendet unnötig Zeit für Fehlersuche.
- Die Verwendung einer Public-Cloud-Infrastruktur wie Amazon AWS oder Microsoft Azure rechnen sich schnell, betrachtet man die Zeit, die für Wartung und Betrieb nötig sind.
- Um die Möglichkeiten und Einschränkungen einer solchen Lösung wirklich zu verstehen, macht es jedoch schon Sinn, selbst mal eine solche Infrastruktur aufzusetzen. So lernt man doch am meisten.
So damit wäre die Grundlage für den Batch-Layer der Lambda-Architektur gelegt.
Dieser Post basiert auf einem privaten Projekt des Autors. Der original Post ist auf www.bitweber.ch zu finden.