Big Data Cluster für Lehre und Wissenschaft

Die Fachgruppe für High Performance Computing/dataLAB von TU.it der Technischen Universität Wien bietet einen Hadoop Cluster Namens LBD (steht für Little Big Data) bestehend aus 20 Knoten (//20 Server 2x XeonE5-2650v4/20 cores/256GB/10Gbps//)an. Der Cluster ist seit Dezember 2017 in Betrieb und steht für Lehre, Forschung und Seminare bereit.

Ziel des Little Big Data Cluster ist es, den Forschenden und Lehrenden der TU-Wien ein stabiles Arbeitsumfeld zu bieten.

Hardware

Der LBD - Cluster verfügt über folgendes Hardware Setup:

2 Knoten c100: primärer und auf c101 sekundärer Knoten
18 Datenknoten c101--c118
1 Administrations Server für
- Cloudera Manager Server und
- Backup für administrative Daten
1 ZFS File Server lbdnfs01 für /home mit 300TB als Storage Space

Der Knoten c100 wird auch als lbd bezeichnet und ist innerhalb der TU-Wien Domäne unter lbd.zserv.tuwien.ac.at erreichbar. Jeder der 20 Knoten (c100-c118, h1) verfügt über:

2 XeonE5-2650v4 CPUs mit je 24 Cores (48 cores pro Knoten)
256GB RAM, 4 Festplatten mit je 4TB Kapazität (16 TB pro Knoten)

864 CPU-Cores
4,5TB RAM
288,0 TB Festplattenspeicher

Abgesehen von zwei zusätzlichen Ethernet-Geräten für externe Verbindungen auf h1 und auf c100 haben alle Knoten die gleichen Hardwarekonfigurationen. Alle Ethernet-Verbindungen (extern und zwischen den Knoten) unterstützen eine Geschwindigkeit von 10 Gbit / s.

HDFS Konfiguration

Aktuelle Version: Hadoop 3
Block size: 128 MiB
Default replication factor: 3

Verfügbare Software

Name	Status	Kommentar
Centos 7	Betriebssystem	OK
XCAT	Deploymentumgebung	OK
Jupyterlab	Web-basierendes Benutzer Interface !Nur im TU-Netzwerk erreichbar!, läuft auf: https://lbd.zserv.tuwien.ac.at:8000	OK
Cloudera Manager	Big Data Deployment	OK
Cloudera HDFS	Hadoop Distributed File System	OK
Cloudera Accumulo	Key/value store	OK
Cloudera HBase	Database on top of HDFS	OK
Cloudera Hive	Data warehouse mit SQL	OK
Cloudera Hue	Hadoop Benutzer experience, web gui, SQL analytics workbench	OK
Cloudera Impala	SQL query engine, used by Hue	OK
Oozie	Oozie ist ein Arbeitsumgebungssystem um Apache Hadoop Jobs zu managen. Used by Hue	OK
Cloudera Solr	Open Source enterprise Such-Plattform, used by Hue, used by Key-Value Store Indexer	OK
Cloudera Key-Value Store Indexer	Der Key-Value Store Indexer Dienst verwendet den Lily HBase Indexer Dienst um den Datenstrom zu indizieren, der HBase Tabellen hinzugefügt wird. Durch die Indizierung können in HBase gespeicherte Daten mit dem Solr Dienst abgefragt werden.	OK
Cloudera Spark (Spark 2)	Cluster-Computing Framework mit Scala 2.10 (2.11)	OK
Cloudera YARN (MR2 Included)	Ressourcenverwaltungs-System (Cluster Management)	OK
Cloudera ZooKeeper	ZooKeeper ist ein zentralisiertes Service zur Wartung von Konfigurationsinformationen, Benamung, bietet verteilte Synchronisationen und Gruppenservices.	OK
Java 1.8	Programmiersprache	OK
Python 3.6.3 (python3.6), Python 3.4.5 (python3.4) Python 2.7.5 (python2)	Programmiersprache	OK
Anaconda Python (python)	export PATH=/home/anaconda3/bin/:$PATH	OK
Jupyter	Notebook, benötigt Anaconda	OK
MongoDB \|	benötigt Plattenplatz, nicht alle Knoten	Beta testing
Kafka	Verarbeitung von Datenströmen	Beta testing
Cassandra	benötigt Plattenplatz, nicht alle Knoten	TODO
Storm	Eher Spark Streaming?	auf weitere Anfrage
Drill		-
Flume		-
Kudu		-
Zeppelin		-
Giraph		TODO

Zugang zum Cluster

Um ein Benutzerkonto zu erhalten, senden Sie bitte Ihre Anfrage an: hadoop-support@tuwien.ac.at.

Lehrveranstalter (Kursleiter) können Benutzer - Konten für TU-Studenten anfordern, indem Sie die folgenden Informationen angeben:

Schicken Sie uns eine CSV Datei im TISS-Format mit folgenden Daten:

"0123456" (Matrikelnummer);"Nachname";"Vorname";"e0123456@student.tuwien.ac.at"=Email des jeweiligen Studenten

Die Lehrveranstaltungsnummer (z.B.: ADBS19)
Und das Ablaufdatum der LVA.

Nähere Informationen finden Sie unter: LVA Checkliste.

Technische Unterstützung

Falls Sie technische Unterstützung bzw. Fragen bezüglich des Hadoop Cluster benötigen, bitte kontaktieren Sie uns unter: hadoop-support@tuwien.ac.at. Bei allgemeinen Fragen wenden Sie sich bitte an das DataLAB Team unter: hadoop@tuwien.ac.at

Jupyter Notebook

Um ein Jupyter Notebook nutzen zu können !Nur im TU-Netzwerk erreichbar!, stellen Sie eine Verbindung mit https://lbd.zserv.tuwien.ac.at:8000 her und melden sich mit Ihren Benutzerdaten an. Starten Sie ein neues Notebook, e.g. Python3, PySpark3, a terminal, ... Ein kurzes Beispiel in PySpark3:

import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 10000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

Dokumentationen und Anleitungen

Nützliche Informationen und Dokumentationen LBD

Teilnahme PRACE Autumn school 2020: Einführung in Hadoop von Giovanna Roda
Bachelorarbeit: mapreduce-join-algorithms
Little Big Data - Technologien: Überblick der Technologien die wir verwenden
Big Data auf dem Vienna Scientific Cluster: ZUusammenfassung des ASHPC21 Ersten Österreich-Slovenien HPC Meeting 2021
Apache Spark: Zusammenfassung des Austrian HPC Meeting 2020
Apache Spark (slides): Präsentation Austrian HPC Meeting 2020
Big Data an der TU-Wien: aktueller Stand und Ausblick: Präsentation des Little Big Data Cluster beim Austrian HPC Meeting 2019
Hadoop @TU.it: Präsentation für den Rektor
SSH Tunnel zu den Yarn logs
SSH Tunnel zu den Yarn logs (auf Englisch)
SSH Verbindung mit Putty
HUE!Nur im TU-Netzwerk erreichbar!: Webanwendungen zur Interaktion mit einem Apache Hadoop-Cluster