Der folgende Text ist eine Zusammenfassung des 15-minütigen Vortrages auf der USE-Konferenz, der eine Kurzfassung des Seminarvortrages ist. Während im Vortrag auf zu Informatik-lastige Inhalte verzichtet wurde, werden hier Verweise auf die Seminararbeit oder weiterführende Themen gegeben.

Was sind soziale Netzwerke?

Der Begriff der sozialen Netzwerke ist in den letzten Jahren in die Alltagssprache eingekehrt. Es gibt ihn allerdings schon wesentlich länger, seit Mitte des 20. Jahrhunderts betreiben Soziologen soziale Netzwerkforschung. Hingegen sind mit sozialen Netzwerken wie Facebook, Google+, etc. Online-Communities gemeint.

Aus Sicht der Informatiker gibt es, um solche Beziehungen zwischen Personen zu repräsentieren/modellieren (ein notwendiger Schritt, um das Beziehungsgeflecht im Computer zu verarbeiten), eine sehr einfaches und mächtiges Gerüst, und zwar Graphentheorie. Unter einem Graph verstehen Informatiker eine Menge von Knoten (Punkte) und Kanten (Verbindungen). So lässt sich ein soziales Netzwerk naheliegend darstellen, in dem man Menschen mit Knoten identifiziert und Freundschaftsbeziehungen mit Kanten zwischen den Knoten. Natürlich ist dies nur eine ganz spezielle Wahl der Darstellung. Je nachdem, was man untersuchen möchte, kann man dies beliebig abändern oder spezifizieren.

Derartige Graphen werden in realistischen sozialen Netzwerken sehr groß: Facebook zählt etwa eine Milliarde Mitglieder, was dann einer Milliarde Knoten entsprechen würde. Diese Anzahl ist geradezu vernachlässigbar gegenüber der Gesamtmenge an etwa 300 Milliarden Freundschaften, die zwischen den Benutzern existieren. Die erste Beobachtung: Die Herausforderung beim Arbeiten mit relationalen Beziehungen ist die Behandlung der Beziehungen, nicht der Knoten.

In meiner Seminararbeit habe ich mir Gedanken darüber gemacht, wie man derart große Graphen sinnvoll speichern kann und damit arbeiten kann, ohne lange warten zu müssen. Neuartige Datenbanken, sogenannte NoSQL-Datenbanken, sind der Eckpfeiler der derzeit so erfolgreichen Online-Communities. Ohne schnelle Datenbanksysteme würden globale Freundschaftsnetzwerke nicht funktionieren. Auf dieses Thema gehe ich in meiner Seminararbeit erheblich mehr ein, als im USE-Vortrag. In der Seminararbeit gebe ich einen Überblick verteilter Datenbanksysteme im Vergleich zu klassischen relationalen Datenbanksystemen, sowie einer Übersicht verschiedener NoSQL-datenbanksystemen und ihrer Speicherstruktur. Dann setze ich den Fokus auf Graphdatenbanken, die es ermöglichen, sich schnell in einem sehr großen Graphen von Knoten zu Knoten zu hangeln (traversieren). Diese Fähigkeit ist interessant, wenn man Umgebungen um Individuen in sozialen Netzwerken untersuchen möchte. Unter einer Umgebung verstehe ich etwa die Freundesfreunde, also ein Freundschaftsnetzwerk.

Nach oben

Soziale Netzwerkanalyse

In der Soziologie gibt es genaue Definitionen über Untersuchungsobjekte, die ich eben etwa als Menge der Freundesfreunde beschrieben habe. Es geht um die systematische Untersuchung der Anatomie eines (zuweilen großen) Netzwerkes, also einem großen relationalen Gebilde, was sich in der Regel nicht mehr übersichtlich zeichnen lässt.

In meiner Seminararbeit habe ich diesem Thema einigen Platz gelassen. Soziale Netzwerkanalyse bedient sich heutzutage selbstverständlich auch der schnellen Computerverarbeitung. So werden Kennzahlen von Netzwerken (Metriken) mathematisch exakt definiert und mit Algorithmen, die von Informatikern verfasst werden, bestimmt. In den letzten 15 Jahren hat sich in diesem Gebiet enorm viel getan, da die Computerleistung seitdem groß genug ist, um globale Netzwerke bereits auf Heimcomputern schnell zu analysieren. Ein populäres Beispiel ist der PageRank-Algorithmus, der zum bahnbrechenden Erfolg des Suchmaschinenriesens Google geführt hat und das World Wide Web nachhaltig geformt hat. Er weist jedem Knoten in einem Netzwerk eine Zahl zu, die eine Aussage über seine Bedeutung im Netzwerk macht. Zum Verständnis des Pagerank-Algorithmus benötigt man Kenntnis von Statistik, dem zentralen Werkzeug bei der Analyse großer Graphen.

Nach oben

Wissenschaftskommunikation

Mein Untersuchungsschwerpunkt lag auf der Neuausrichtung des Verständnisses von Wissenschaftskommunikation. Die Kommunikation von Wissenschaftlern untereinander erfolgt traditionell über Veröffentlichungen, die miteinander durch Referenzen in Beziehung gebracht werden können. So wird schnell ersichtlich, wieso das Netzwerk aller Veröffentlichungen ein soziales Netzwerk darstellt. Während ich in meiner Seminararbeit auf die gesellschaftlichen Umstände eingehe, die dazu geführt haben, dass wir heutzutage diese Veröffentlichungsnetzwerke (Zitationsgraphen) digital und fast vollständig vorliegen haben, habe ich das Thema im USE-Vortrag größtenteils ausgespart. Es wird vor allem hinsichtlich meines Untersuchungsobjektes der Hochenergiephysik interessant.

Bei der Hochenergiephysik handelt es sich nämlich neben der Molekularbiologie (Life Sciences) und der Weltraumforschung um die bestvernetzten Großforschungsprojekte der Menschheit - also Unternehmungen, in sehr großen auf der Welt verstreuten Forschungsgruppen Forschung zu betreiben, in der Regel unter Einsatz erheblicher Finanzmittel. Das Aufkommen der Großforschung (Little Science, Big Science) ist ein Artefakt des 20. Jahrhunderts und stellt einen Wendepunkt dar, wie Wissenschaft sich in die Gesamtgesellschaft einbettet. Zu meiner Überraschung ist die Untersuchung genau dieser Umstände Gegenstand der Scientometrie, der Wissenschaft über die Wissenschaft, die es bereits seit den 60er-Jahren gibt. Eine bemerkenswerte Konsequenz sind etwa die Untersuchungen des Scientometrie-Begründers de Solla Price, die vorhersagen, dass sowohl Wissenschaft als auch Gesellschaft im Gesamten exponentiell wächst, ersteres leicht schneller als letzteres, was langfristig salopp formuliert dazu führt, dass zukünftige Generationen nur noch aus Wissenschaftlern bestehen. Ungeachtet dessen, ob diese Beobachtung korrekt ist oder nicht, führt das exponentielle Wachstum dazu, dass die Gesellschaft der Wissenschaftler bald eine Größe annimmt, die dem Umfang der jetzigen Gesellschaft entspricht. Daher ändern sich die Kommunikationsmuster, was sich schon seit Jahren durch OpenAccess-Bewegungen abzeichnet: Die Kommunikation wird schneller, statt Journals bestimmen Preprints die Wissenschaftslandschaft.

Nach oben

SocialHEP

Daher wird Netzwerkanalyse auf dem Zitationsgraph zunehmend zu einem spannenden Gebiet auch außerhalb der Scientometrie und außerhalb der Bestimmung von Gütefaktoren für die Wissenschaft (etwa dem berühmten Impact-Faktor). Mit der Zitationsdatenbank der Hochenergiephysik, InSPIRE, hab ich eine Datenbank mit etwa einer Millionen Veröffentlichungen und 13 Millionen Referenzen vorliegen. In der Seminararbeit bin ich nun darauf eingegangen, wie ich diese Datenbank als NoSQL-Datenbank behandelt habe, ein Großteil meiner halbjährigen Arbeit bestand darin, Performanzuntersuchungen beim Umgang des Datenbestandes mit der Graphdatenbank Neo4j durchzuführen. In der USE-Konferenz beschränkte ich mich auf die Präsentation von Graphen mit Bezug zur Uni Frankfurt.

Ich habe somit für die Seminararbeit eine Datenbank aufgebaut, die nach einer Anwendung suchte. Diese schrieb ich daraufhin und nannte sie SocialHEP, also soziale Hochenergiephysik. Tatsächlich wurde diese Anwendung nie fertig, sie beleuchtet derzeit bloß ein paar Stärken der neuen Datenbank, etwa die Geschwindigkeit bestimmter Datenbankanfragen, die mit konventionellen Datenbanksystemen nicht in Echtzeit möglich sind. Dazu gehört etwa das Finden der kürzesten Freundschaftskette zwischen zwei Personen, eine Aufgabe die in modernen Online-Communities ständig anfällt.

Zuletzt schloss ich sowohl den USE-Konferenzbeitrag als auch meine Seminarpräsentation mit ein paar Netzwerk-Untersuchungen ab, die etwa das kleine Welt-Phänomen, also die Tatsache, dass jeder Mensch jeden anderen über nur sechs "Zwischenfreunde" kennt, illustrieren und in Zusammenhang mit Vorhersagen aus der Netzwerkforschung, etwa den skalenfreien Netzwerken, verbinden. Sie belegen gewissermaßen meine Arbeitshypothese, dass es sich beim Zitationsgraphen um ein ganz klassisches soziales Netzwerk handelt.

In der Konsequenz kann man sich nun Methoden aus der Netzwerkforschung "ausleihen", um Alternativen zur Bestimmung der Güte von Veröffentlichungen zu finden. Dies wird immer dringlicher, als Veröffentlichungen heutzutage oft nur als Preprints existieren und ihre Halbwertszeit geringer ist, d.h. man benötigt schneller verlässliche Zahlen über die Bedeutung von Veröffentlichungen als früher.

Das Vorhandensein der neuen Daten ist in meinen Augen eine erhebliche Chance, das Veröffentlichungswesen gerechter zu gestalten: In dem wir in Zukunft besser verstehen, welche Personen miteinander kollaborieren, kann Wissenschaft effizienter gestaltet werden und Menschen werden nicht mehr anhand von unsinnigen Maßen miteinander verglichen.

Nach oben

Literatur

Im USE-Konferenzbeitrag, der Seminarpräsentation und -Ausarbeitung findet sich die gleiche Literaturliste mit 19 Einträgen. Dabei handelt es sich zum Teil um Bücher und Paper zur sozialen Netzwerkanalyse (Soziologie) oder zu NoSQL-Datenbanken (angewandte Informatik). Es sind aber auch Paper der theoretischen Informatik zitiert (CAP-Theorem, Logik und relationales Kalkül). Auch Informatik-Vorlesungen der Uni Frankfurt befinden sich in der Literaturliste (Logik bei Prof. Schweikhart, Computational Humanities bei Prof. Mehler, beides Vorlesungen die ich nicht gehört habe, die aber sehr hochwertige Vorlesungsmaterialien online verfügbar haben). Zuguterletzt sind Paper aus dem Bereich "Data Preservation" zitiert, die ich gelesen habe, da mich der Themenbereich OpenAccess vor allem im Zusammenhang mit OpenData interessiert. Ich denke, eine naturwissenschaftliche Zitationsdatenbank sollte auch auf Messergebnisse und verarbeitende Programme verweisen können, da dies zur Reproduktionsfähigkeit der veröffentlichten Ergebnisse unumgänglich ist. Eine besondere Rolle nimmt die letzte Zitation des Pradigmas der Data-Driven-Programmierung ein, die derzeit dabei ist, Datenvisualisierung vor allem im Bereich des Webs zu umzukrämpeln.

Die hiermit kommentierte Literaturliste befindet sich etwa auf der letzten Seite der Ausarbeitung.

Nach oben

Weiterführende Links

Beitrag zur UNIversal-Konferenz
(Juli 2014)

Original-Seminararbeit: Soziale Wissenschaft
(Februar 2014)

Sven Köppel, Soziale Wissenschaft, in: USE: Universität Studieren / Studieren Erforschen, 12.08.2014, URL: http://use.uni-frankfurt.de/koeppel.

Nach oben