Rechen- und Datenressourcen
Rechenressourcen
GPU-Rechner
Der hauseigene GPU (Graphics Processing Unit)-Rechner ist mit einer Nvidia GeForce RTX 3080 ausgestattet. Durch Parallelisierung können mit dem Prozessor der Grafikkarte bestimmte Berechnungen schneller ausgeführt werden. Beispielsweise können damit Modelle für Neuronale Netze zeiteffizient trainiert werden. Das Betriebssystem des GPU-Rechners ist Debian Buster.
Zusätzliche Ausstattung:
Big-Data-Rechencluster
Die zum Cluster zusammengeschlossenen Rechner am Standort Adlershof können zur verteilten Arbeit mit sehr großen Datenmengen (im Bereich mehrerer Terabytes) verwendet werden. Durch den Zusammenschluss der Rechner und dem Nutzen eines verteilten Datenverzeichnisses erhöht sich auch die Resilienz archivierter Daten. Auch der Cluster läuft mit Linux.
Zusätzliche Ausstattung:
- Cloudera als Data-/Cloud-Distribution
- HDFS als verteiltes Dateisystem
- Spark für verteiltes Rechnen auf großen Datenmengen
- Elastic als verteilter Suchindex
Projektserver
Der Projektserver kann zur Verwendung in verschiedenen Projekten und zum wissenschaftlichen Rechnen zur Verfügung gestellt werden. Durch Dauerbetrieb werden auch kompliziertere und zeitaufwändigere Berechnungen ermöglicht und Dienste wie Webservices oder Datenbankinterfaces können betrieben werden. Weiterhin kann der Projektserver zum Webcrawling und für verschiedene Information-Retrieval-Anwendungen verwendet werden.
Joy-Pi
Mehrere Joy-Pi Geräte stehen zur Ausleihe zur Verfügung. Sie sind eine Möglichkeit, erste Einblicke in die Elektrotechnik und eine andere Perspektive auf die Programmierung mit Python zu erhalten. Jedes Gerät enthält einen Raspberry Pi 3 und ist mit vielerlei Equipment zum Experimentieren ausgestattet, wie z.B. einem Licht- oder einem Neigungssensor, einem LC-Display, einem kleinen Servomotor und auch einem Breadboard. Für eine leichtere Bedienung befindet sich am Joy-Pi auch ein kleines Display, er kann allerdings auch mit einem anderen Gerät verbunden werden.
Datenressourcen
TweetsKB umfasst mit 1% des Twitter Streams seit 2013 mehrere Milliarden Rohdaten von Tweets. Diese Datenbank eignet sich insbesondere für die Tiefenanalyse spezifischer Forschungsfragen, wenn Sie Ihre Thesen mit Twitterdaten systematisieren wollen. Durch die Darstellung der verschiedenen Entitäten (z.B. Hashtags, URLs, Mentions, etc.) können Sie Ihre Analyse facettenreich gestalten.
Die Rechen- und Daten-Ressourcen werden von der Arbeitsgruppe Information Processing and Analytics des IBI betreut.