DE | EN

Big Data Cluster für Lehre und Wissenschaft

Die Fachgruppe für High Performance Computing/dataLAB von TU.it der Technischen Universität Wien bietet einen Hadoop Cluster Namens LBD (steht für Little Big Data) bestehend aus 20 Knoten (//20 Server 2x XeonE5-2650v4/20 cores/256GB/10Gbps//)an. Der Cluster ist seit Dezember 2017 in Betrieb und steht für Lehre, Forschung und Seminare bereit.

Ziel des Little Big Data Cluster ist es, den Forschenden und Lehrenden der TU-Wien ein stabiles Arbeitsumfeld zu bieten.

Hardware

Der LBD - Cluster verfügt über folgendes Hardware Setup: Der Knoten c100 wird auch als lbd bezeichnet und ist innerhalb der TU-Wien Domäne unter lbd.zserv.tuwien.ac.at erreichbar. Jeder der 20 Knoten (c100-c118, h1) verfügt über:

Abgesehen von zwei zusätzlichen Ethernet-Geräten für externe Verbindungen auf h1 und auf c100 haben alle Knoten die gleichen Hardwarekonfigurationen. Alle Ethernet-Verbindungen (extern und zwischen den Knoten) unterstützen eine Geschwindigkeit von 10 Gbit / s.

HDFS Konfiguration

Verfügbare Software

Name Status Kommentar
Centos 7 Betriebssystem OK
XCAT Deploymentumgebung OK
Jupyterlab Web-basierendes Benutzer Interface !Nur im TU-Netzwerk erreichbar!, läuft auf: https://lbd.zserv.tuwien.ac.at:8000 OK
Cloudera Manager Big Data Deployment OK
Cloudera HDFS Hadoop Distributed File System OK
Cloudera Accumulo Key/value store OK
Cloudera HBase Database on top of HDFS OK
Cloudera Hive Data warehouse mit SQL OK
Cloudera Hue Hadoop Benutzer experience, web gui, SQL analytics workbench OK
Cloudera Impala SQL query engine, used by Hue OK
Oozie Oozie ist ein Arbeitsumgebungssystem um Apache Hadoop Jobs zu managen. Used by Hue OK
Cloudera Solr Open Source enterprise Such-Plattform, used by Hue, used by Key-Value Store Indexer OK
Cloudera Key-Value Store Indexer Der Key-Value Store Indexer Dienst verwendet den Lily HBase Indexer Dienst um den Datenstrom zu indizieren, der HBase Tabellen hinzugefügt wird. Durch die Indizierung können in HBase gespeicherte Daten mit dem Solr Dienst abgefragt werden. OK
Cloudera Spark (Spark 2) Cluster-Computing Framework mit Scala 2.10 (2.11) OK
Cloudera YARN (MR2 Included) Ressourcenverwaltungs-System (Cluster Management) OK
Cloudera ZooKeeper ZooKeeper ist ein zentralisiertes Service zur Wartung von Konfigurationsinformationen, Benamung, bietet verteilte Synchronisationen und Gruppenservices. OK
Java 1.8 Programmiersprache OK
Python 3.6.3 (python3.6), Python 3.4.5 (python3.4) Python 2.7.5 (python2) Programmiersprache OK
Anaconda Python (python) export PATH=/home/anaconda3/bin/:$PATH OK
Jupyter Notebook, benötigt Anaconda OK
MongoDB | benötigt Plattenplatz, nicht alle Knoten Beta testing
Kafka Verarbeitung von Datenströmen Beta testing
Cassandra benötigt Plattenplatz, nicht alle Knoten TODO
Storm Eher Spark Streaming? auf weitere Anfrage
Drill -
Flume -
Kudu -
Zeppelin -
Giraph TODO

Zugang zum Cluster

Um ein Benutzerkonto zu erhalten, senden Sie bitte Ihre Anfrage an: hadoop-support@tuwien.ac.at.

Lehrveranstalter (Kursleiter) können Benutzer - Konten für TU-Studenten anfordern, indem Sie die folgenden Informationen angeben:

Nähere Informationen finden Sie unter: LVA Checkliste.

Technische Unterstützung

Falls Sie technische Unterstützung bzw. Fragen bezüglich des Hadoop Cluster benötigen, bitte kontaktieren Sie uns unter: hadoop-support@tuwien.ac.at. Bei allgemeinen Fragen wenden Sie sich bitte an das DataLAB Team unter: hadoop@tuwien.ac.at

Jupyter Notebook

Um ein Jupyter Notebook nutzen zu können !Nur im TU-Netzwerk erreichbar!, stellen Sie eine Verbindung mit https://lbd.zserv.tuwien.ac.at:8000 her und melden sich mit Ihren Benutzerdaten an. Starten Sie ein neues Notebook, e.g. Python3, PySpark3, a terminal, ... Ein kurzes Beispiel in PySpark3:
import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 10000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

Dokumentationen und Anleitungen

Nützliche Informationen und Dokumentationen LBD

Teilnahme PRACE Autumn school 2020
Einführung in Hadoop von Giovanna Roda
Bachelorarbeit: mapreduce-join-algorithms
Little Big Data - Technologien
Überblick der Technologien die wir verwenden
Big Data auf dem Vienna Scientific Cluster
ZUusammenfassung des ASHPC21 Ersten Österreich-Slovenien HPC Meeting 2021
Apache Spark
Zusammenfassung des Austrian HPC Meeting 2020
Apache Spark (slides)
Präsentation Austrian HPC Meeting 2020
Big Data an der TU-Wien: aktueller Stand und Ausblick
Präsentation des Little Big Data Cluster beim Austrian HPC Meeting 2019
Hadoop @TU.it
Präsentation für den Rektor
SSH Tunnel zu den Yarn logs
SSH Tunnel zu den Yarn logs (auf Englisch)
SSH Verbindung mit Putty
HUE!Nur im TU-Netzwerk erreichbar!
Webanwendungen zur Interaktion mit einem Apache Hadoop-Cluster