Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Digital humanities and human digitization

No description
by

Katharina Zweig

on 8 March 2016

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Digital humanities and human digitization

Betrachten
wir dieses interessante Datenset
Adjazenznetzwerk von gemeinsam verwendeten Adjektiven und Nomen in "David Copperfield" von
Charles Dickens.
Was ist wohl das wichtigste, das zentralste Wort in "David Copperfield"?
Eine Suche im Lieblingsanalysetool ergibt:

"Zentralitätsindices" sind das gesuchte Werkzeug, um die zentralsten Knoten in einem Netzwerk zu finden.
Von den
'digital humanities'
zu einer
humanen Digitalisierung
Prof. Dr. Katharina A. Zweig
Besonders beliebt ist
anscheinend die
Betwennesszentralität
Die englische Wikipedia sagt:

"It is equal to the number of shortest paths from all vertices to all others that pass through that node.

A node with high betweenness centrality has a large influence on the transfer of items through the network."
(https://en.wikipedia.org/wiki/Betweenness_centrality, 6.3.2016)
Wenn wir die Betwennesszentralität auf das Netzwerk anwenden, dann ist das zentralste Wort in "David Copperfield":
LITTLE
Wir sind auf etwas hereingefallen, dass ich
"Algorithmische Legendenbildung" nenne.
("Algorithmic Folklore")
Formel der Betweennesszentralität
Algorithmen -
Quelle der Digitalisierung
Wer von Ihnen hat selbst schon einmal Daten mit Hilfe eines Algorithmus analysiert und die Ergebnisse interpretiert?
Wer von Ihnen hat schon einmal eine Methode zur Datenanalyse und den dazugehörigen Algorithmus selbst entwickelt?
Wer von Ihnen hat schon einmal eine solche Methode selbst implementiert und der Öffentlichkeit zur Verfügung gestellt?
Wer von Ihnen hat schon einmal eine Methode verwendet, die Sie nur aus einem Artikel oder dem Handbuch der Software kannten, die aber noch nicht in einem Lehrbuch enthalten ist?
Lebenslauf
(in 3 Zeilen)
https://networkdata.ics.uci.edu/data.php?id=4
"Die Beschreibung einer Methode, die fehlerhaft bezüglich der Interpretation ihrer Ergebnisse ist, aber von Generation
zu Generation
weitergegeben wird."
"Statistical rituals largely
eliminate statistical thinking
in the social sciences. Rituals are indis-
pensable for identification with social groups,
but they should be the subject rather than the procedure of science."
Gerd Gigerenzer: "Mindless Statistics",
The Journal of Socio-Economics 33, 587-606, 2004
Das Messen von Power-Laws durch das Auftragen in einem doppelt-logarithmischen Plots und Ausmessen einer linearen Funktion
Gleichsetzen eines Power-Law verteilten Grades mit dem Preferential Attachment-Modell
Anwendung beliebiger Zentralitätsmaße ohne Begründung

Nach Borgatti sind Zentralitätsindices an einen bestimmten Typ von Netzwerkfluss gebunden, d.h., etwas, das das Netzwerk als Infrastruktur nutzt. [Borgatti2005]
Es gibt keinen solchen Netzwerkfluss auf dem abstrakten Netzwerk von gemeinsam genutzten Adjektiven und Nomen.
Daher sollten Zentralitätsindices auf solchen Netzwerken nicht ausgerechnet werden.
[Zweig2015]
Nehmen wir an, wir hätten ein nationales Handykommunikations-netzwerke inklusive bekannter Terroristen.
4,5 Versteckte Annahmen
1 Kommunikation nutzt kürzeste Pfade, auch über mehrere Zwischenschritte.
2 Alle Paare von Personen wollen überhaupt miteinander kommunizieren.
5 Terroristen nutzen das Netzwerk genauso wie alle anderen.
Borgatti, S. P. Centrality and Network Flow Social Networks, 2005, 27, 55-71
Versteckte Annahme 2:
Flugtransportnetzwerke
Basierend auf DB1B Daten, haben wir gezeigt, dass zwischen 40% aller Flughafenpaare niemand jemals fliegen wollte (Drei-Monatsintervalle).
Der Rest der Paare zeigte eine stark rechts-schiefe Verteilung. [Dorn, Lindenblatt, Zweig, 2012)
Dorn, I.; Lindenblatt, A. & Zweig, K. A.:
"The Trilemma of Network Analysis".
SNAM 2012, Istanbul, 2012
Was ist ein Modell?
Weisberg’s Definition ist vorsichtig:

“potential representations
of target systems.”
(2013, p. 171)

Weisberg, M.:
"Simulation and Similarity: Using Models
to Understand the World",
Oxford University Press, 2013
Weisberg (2013) Modell von Modellen
seiner
Struktur
(z.B., ein physisches Modell, ein Graph, eine Formel, eine Computer-Simulation)
ein
Konstruum
(
construal
) bestehend aus:
Zuweisung zwischen den Elementen der Struktur und des zu modellierenden Systems
Glaubwürdigkeitskriterien
dem Zweck und den Grenzen des Modells
„To generate a target, theorists choose some phenomenon in the world that they wish to study. From the full contents of the phenomenon, they abstract, omitting all but the relevant features of this phenomenon. This process generates the target system.“ (Weisberg2013, p. 172).
Das Zielsystem unseres Modells ist ein Konstrukt
Viele Netzwerkanalysen beinhalten
mehrere
Modelle
Verschiedene Analysemethoden basieren selbst auf einem Modell über die Natur des Netzwerkes
Algorithmen sind die Basis für "Digital Humanities"...
Predictive Policing
Software, die Zeit und Ort zukünftiger Verbrechen vorhersagt.
Die Firma PredPol gibt an, dass ihre Software die Anzahl der Verbrechen in verschiedenen Städten um 10 bis 40% reduziert hat.
In der Zukunft werden sie die Wahrscheinlichkeit von Straftaten von Individuen vorhersagen.
Algorithmische Legendenbildung 2.0
Solche interdisziplinären, trans-institutionalen Datenflüsse forcieren die
algorithmische Legendenbildung
geradezu - nochmehr als in der Wissenschaft selbst!
"Diese Software sagt Straftaten vorher"
... denn eine humane Digitalisierung
... können wir nur gemeinsam erreichen,
mit der Diskussion über neue und alte Normen, ausgerichtet einzig und allein am Menschen.

Fazit: Wir brauchen Beipackzettel für Algorithmen!
"... zu Risiken und Nebenwirkungen fragen Sie Ihren örtlichen Datenwissenschaftler oder Algorithmen-händler..."

Quis custodiet
ipsos custodes?
(Wer überwacht die Wächter?)
Tiger Mom Tax
Princeton Review variiert die Preise je nach Postleitzahl
Asiatische Viertel haben dadurch das doppelte Risiko einen höheren Preis zahlen zu müssen.
Das Jahrhundert der Geistes- und Sozialwissenschaften ?
Horvát, E.-Á.; Hanselmann, M.; Hamprecht, F. A. & Zweig, K. A. One plus one makes three (for social networks) PLoS ONE, 2012, 7, e34740
"What I call the “null ritual” consists of three steps (1) set up a statistical null hypothesis, but do not specify your own hypothesis nor any alternative hypothesis, (2) use the 5% significance level
for rejecting the null and accepting your
hypothesis, and (3) always perform
this procedure."
Erster Teil der Legendenbildung:

Die BZ ist nicht die Summe aller kürzesten Pfade, die v enthalten!
In der Netzwerkmodellierung sind wir uns dessen oft bewusst, dass komplexe Netzwerke hoch abstrakte Repräsentationen sind, um ein Phänomen zu untersuchen.
1996-2003: Als Biochemikerin reine Anwenderin von Methoden, die andere implementiert haben....
2003-2010: ...als Informatikerin Entwicklerin und Anwenderin von Methoden und Algorithmen hauptsächlich auf große und komplexe Netzwerke,...
...deren Anwendung ich aber seit 2010 als Sozioinformatikerin in Frage stelle.
https://networkdata.ics.uci.edu/data.php?id=4
Inspiration: Statistische Rituale (Gerd Gigerenzer)
Beispiele aus der
Analyse komplexer Netzwerke
Adjazenznetzwerke
und Zentralitäten
Zweig, K. A.: "Are word-adjacency networks networks?" in "Towards a Theoretical Framework for Analyzing Complex Linguistic Networks" (edited by A. Mehler et al.), Springer Verlag, Heidelberg, Germany, 2016, 153-163
Zentralitäten und Terroristen
Kann die Betweenness-zentralität diese und weitere, noch nicht bekannte Terroristen identifizieren?
Übersetzung:
Für jedes Paar s,t berechne die Anzahl der kürzesten Pfade zwischen ihnen, die v enthalten, als Bruchteil der Anzahl aller kürzesten Pfade.

Summiere über alle s,t.
3 Kommunikation erfolgt seriell.
4 Je weiter voneinander entfernt zwei Personen sind, desto mehr Einfluss haben sie auf die Zentralität der anderen Knoten.
Die falsche Repräsentation der Daten ,...
Netzwerkanalysekompetenz
Nach Weisberg ist ein Modell ein Konstrukt mit zwei Teilen:
...aber wie gezeigt, sind sie sehr viel weniger objektiv und voll qualitativer Entscheidungen - was selten wahrgenommen wird.
Wie gestalten wir mit ihnen und mit Ihnen eine humane Digitalisierung?
https://fveydocs.org/document/skynet-ml/?page=1
Currier, Cora; Fishman, Andrew; Greenwald, Glenn. "U.S. Government Designated Prominent Al Jazeera Journalist as "Member of Al Qaeda"." The Intercept May 8, 2015.
Geheimdienste und soziale Netzwerkanalyse
Angwin, J.; Mattu, S. & Larson, J.: "The Tiger Mom Tax: Asians Are Nearly Twice as Likely to Get a Higher Price from Princeton Review", Propublica, 1.9.2015, https://www.propublica.org/article/asians-nearly-twice-as-likely-to-get-higher-price-from-princeton-review (6.3.2016)
Lösung: lernende Algorithmen
Das Ergebnis:
ein weiterer Top-Terrorist?
Zaidan ist ein bekannter Journalist von Al Jazeera, und weder Mitglied bei der Al-Qaida noch der Muslim Brotherhood. [Cora2015]
Wie aber sieht es mit unseren Analysemethoden aus?
Trilemma of Complex Network Analysis
Dorn, Lindenblatt, und Zweig (2012) prägten den Begriff des "Trilemmas der Analyse komplexer Netzwerke", um die Abhängigkeit von Netzwerkmodellierung, Wahl der Analysemethode und Forschungsfrage zu beschreiben.
Dorn, I.; Lindenblatt, A. & Zweig, K. A.: "The Trilemma of Network Analysis". SNAM 2012, Istanbul, 2012
Um diese Trilemmata zu lösen, ist es daher erforderlich, die Modelle hinter Methoden & Algorithmen klar zu beschreiben.
Zentralitätsindizes sind nur bei bestimmten Netzwerkflüssen anwendbar, wie oben diskutiert;
Clusteringalgorithmen nehmen grundlegend an, dass Beziehungen zwischen Entitäten auf Homophilie basieren;
Netzwerkmotive verlangen die Wahl eines Null-Modells;
Wie können wir gemeinsam sicherstellen, dass gesellschaftlich relevante Algorithmen korrekt sind, die jeweilige Frage beantworten und ethisch angewendet werden?
Reversing the "one-way street"
Freeman beschreibt
in seinem Artikel:
"Going the wrong-way
on a one-way street:
Centrality in
Physics and Biology"
(2008) dass die
meisten Analysemethoden
von den Naturwissenschaften
zu den Sozialwissenschaften wandern. Ergänzend können wir heute die Informatik dazustellen.
Freeman, L. C. Going the Wrong Way on a One-Way Street: Centrality in Physics and Biology Journal of Social Structure, 2008, 9, 1-15
Denn ohne eine
qualitative Bewertung
dieser Methoden & Algorithmen angesichts ihrer Modellgrenzen, verkommt der "Sieg der Quants" zu einer Reihe von entseelten Entscheidungen, die die besondere Qualität menschlichen Zusammenlebens bedrohen.
Diakopoulos, N. Accountability in algorithmic decision making Communications of the ACM, 2016, 59, 56-62
Diakopoulos, N. Algorithmic Accountability - Journalistic investigation of computational power structures Digital Journalism, 2015, 3
Im Moment: Sieg der Quants
Aber Quants sind i. A. ungeeignet dafür, die sozialen Konsequenzen ihrer Methoden zu überblicken - mangels Ausbildung.
Gleichzeitig besteht eine gewisse Dringlichkeit der Normentwicklung.
Soziologie
Wer versteht algorithmische Entscheidungen?
Wie wirkt sich die zunehmende Granularisierung auf die Gesellschaft aus?
Wie verändert sich Machtausübung, Kontrolle, Privatheit angesichts algorithmisch unterstützter Entscheidungen?
Ethik
Gibt es unethische Algorithmen?
Unmoralische Verwendung von Algorithmen?
Unethische Datenkonzentration?
Politikwissenschaften
Wie verändert sich Teilhabe durch Algorithmen?
Wie verändert sich politisches Verständnis durch Suchalgorithmen oder soziale Netzwerke (Stichwort "Filterbubble")
Sprachwissen-schaften
Wie verändern Algorithmen den Journalismus und
damit Gesellschaft?
Rechts-wissenschaften
Wie können wir die Bildung von Normen beschleunigen?
Welche rechtshistorischen Vorbilder gibt es?
Was muss reguliert werden,
was nicht?
Geschichte
Ethnologie
Wo gibt es analoge Situationen hinsichtlich Machtkonzentration?
Analoge Situationen hinsichtlich Datenflut und Filterprozessen?
Psychologie
Wirtschaftswissen-schaften
Wo verhält sich der Mensch im Umgang mit Algorithmen irrational?
Wo kann er mit Algorithmen manipuliert werden?
Fazit: Wir brauchen Beipackzettel für Algorithmen!
"... zu Risiken und Nebenwirkungen fragen Sie Ihren örtlichen Datenwissenschaftler, Historiker, Sprachwissen-schaftlerin, Juristen, Informatiker, Wirtschafts-wissenschaftlerin, Politologin, Soziologen, ..."

Ein Artikel (InfoVis, 2006) besagt, dass man damit z.B. zentrale Konzepte und Themen in Kommunikationsnetzen identifizieren kann.
Zwischenfazit:

Es ist unwahrscheinlich, dass irgendein Netzwerkfluss in Kommunikationsnetzwerken mit mehreren Millionen Nutzern durch diese Annahmen hinreichend genau beschrieben wird.
...die algorithmische Legendenbildung,...
...und die leichte Verfügbarkeit der Methoden in Softwarepackages mit unvollständiger Beschreibung der Methoden...
... führt daher oft zur falschen Interpretation der Ergebnisse.
Am Ende scheitern wir an der unvollständigen Modellierung des zu lösenden Problems.
Es ist sogar zu vermuten, dass Word-Adjazenzen gar nicht als Netzwerke repräsentiert werden sollten, solange keine Netzwerkflüsse sinnvoll darauf definierbar sind.
Zweig, K. A.: "Are word-adjacency networks networks?" in "Towards a Theoretical Framework for Analyzing Complex Linguistic Networks" (edited by A. Mehler et al.), Springer Verlag, Heidelberg, Germany, 2016, 153-163
Problematische Algorithmen
Algorithmen können:
falsch sein
falsch angewendet werden (Legendenbildung)
mit den falschen Daten trainiert werden
zusammen mit menschlichem Handeln ungewollte Nebeneffekte erzeugen
Fragen beantworten, deren Antwort gesellschaftlich gefährlich ist.
Full transcript