Direkt zum InhaltDirekt zur SucheDirekt zur Navigation
▼ Zielgruppen ▼

Humboldt-Universität zu Berlin - Institut für Bibliotheks- und Informations­wissen­schaft

Rechen- und Datenressourcen

Rechenressourcen

GPU-Rechner

Der hauseigene GPU (Graphics Processing Unit)-Rechner ist mit einer Nvidia GeForce RTX 3080 ausgestattet. Durch Parallelisierung können mit dem Prozessor der Grafikkarte bestimmte Berechnungen schneller ausgeführt werden. Beispielsweise können damit Modelle für Neuronale Netze zeiteffizient trainiert werden. Das Betriebssystem des GPU-Rechners ist Debian Buster.

Zusätzliche Ausstattung:

Big-Data-Rechencluster

Foto:Robert Jäschke

Die zum Cluster zusammengeschlossenen Rechner am Standort Adlershof können zur verteilten Arbeit mit sehr großen Datenmengen (im Bereich mehrerer Terabytes) verwendet werden. Durch den Zusammenschluss der Rechner und dem Nutzen eines verteilten Datenverzeichnisses erhöht sich auch die Resilienz archivierter Daten. Auch der Cluster läuft mit Linux.

Zusätzliche Ausstattung:

  • Cloudera als Data-/Cloud-Distribution
  • HDFS als verteiltes Dateisystem
  • Spark für verteiltes Rechnen auf großen Datenmengen
  • Elastic als verteilter Suchindex

Datenressourcen

German Academic Web (GAW)
Das GAW bietet Schnappschüsse der Internetpräsenzen deutscher Universitäten mit Promotionsrecht als Analyseinstrument an. Ziel dieses Service ist es, sehr detaillierte Daten in einem themenspezifischen Web-Archiv aufzubereiten. Datensätze können daher individuell angefordert werden. Die Crawls werden seit 2012 durchgeführt. Die durchsuchten Webseiten werden im WARC-Format archiviert.
Geocities
Der Geocities-Datensatz bietet die Möglichkeit, die Online-Community der 90er und Peer-Interaction vor dem Durchbruch der sozialen Medien zu analysieren. Die Crawls wurden vom Internet Archiv durchgeführt. Diese Daten sind nicht öffentlich zugänglich, können aber auf Anfrage auf Rechnern des IBI genutzt werden.
TweetsKB
TweetsKB umfasst mit 1% des Twitter Streams seit 2013 mehrere Milliarden Rohdaten von Tweets. Diese Datenbank eignet sich insbesondere für die Tiefenanalyse spezifischer Forschungsfragen, wenn Sie Ihre Thesen mit Twitterdaten systematisieren wollen. Durch die Darstellung der verschiedenen Entitäten (z.B. Hashtags, URLs, Mentions, etc.) können Sie Ihre Analyse facettenreich gestalten.
Microsoft Academic Graph
Um die wechselseitigen Beziehungen von Zitationen und Daten zu Publikationen untersuchen zu können bietet der Microsoft Academic Graph einen automatisierten Distributionsservice auf Azure Cloud-Accounts. Derzeit wird der Graph wöchentlich aktualisiert. Analysebeispiele können auf der Website eingesehen werden. Die Azure Tools sind für Dozierende und Studierende kostenlos.
New York Times Korpus
Der annotierte Korpus der New York Times verfügt über 1.8 Millionen Artikel, die mit mindestens einem Schlagwort versehen wurden. Die meisten dieser Artikel wurden von Bibliothekar*innen zusammengefasst und verschlagwortet. Die Möglichkeit anhand des Datensatzes Algorithmen für automatisierte Zusammenfassungen zu evaluieren, machen diesen Korpus zu einem interessanten Forschungsmittel. Der Text wurde in NITF formatiert. Ein Beispiel für die Verwendung dieses Datensatzes ist die Analyse des linguistischen Stilmittels der Vossianischen Antonomasie.
Posts des Social Bookmarking Systems BibSonomy
Ein Screenshot des Bookmarking Systems BibSonomy
Grafik:Robert Jäschke
BibSonomy ist ein web-basierter Dienst zum Teilen und Verwalten von Web-Lesezeichen und Literaturreferenzen. Dieser Service wird gemeinsam von der Universität Kassel, der Universität Würzburg sowie der Humboldt-Universität Berlin bereitgestellt. Die Datensätze enthalten Posts des Social Bookmarking Systems BibSonomy und werden in Form eines SQL-Dumps bereitgestellt. Die Nutzung dieser Daten erfordert eine unterschriebene Lizenzvereinbarung.
Deutscher Dramen Korpus
Der Deutsche Dramen Korpus enthält eine extensive Sammlung deutscher Dramen. Analysemöglichkeiten bieten die visuell dargestellten Netzwerke jedes Dramas, sowie die Metrik und die Darstellung der Rollenverteilung. Die Datenbank befindet sich in der öffentlichen Beta-Phase.

Die Rechen- und Daten-Ressourcen werden von der Arbeitsgruppe Information Processing and Analytics des IBI betreut.