Activision-Blizzard versteht das eigene Diversity Tool nicht

Activision-Blizzard versteht das eigene Diversity Tool nicht – WASTED Magazin

Wie divers ist dein Geschlecht auf einer Skala von eins bis zehn? Wenn du dich als Frau identifizierst, ist die Antwort darauf fünf. So rechnet jedenfalls das neue “Diversity Space Tool”, das Activision-Blizzard als Lösung für mehr Vielfalt in Games vorgestellt hat. Wer das für Bullshit hält, ist nicht allein. Dabei steckt hinter dem Tool eine ganz andere Idee.

3 „Gefällt mir“

Ich liebe diese Geschichte! Danke @Gamepsychologe!

Sie illustriert wunderschön, wie aus einer vermeintlich löblichen Idee mit dem richtigen zahlengetriebenen Dreh und ein paar Controller-Fuzzis mit Hang zu Excel ein verachtenswerter Mensch-Maschine-Fuck-Up wird.

martin freeman sherlock GIF by BBC

4 „Gefällt mir“

Sehr schöner Artikel :+1:

1 „Gefällt mir“

Vielen Dank :heart:

2 „Gefällt mir“

Erstmal Stilkritik:

Sehr geile Formulierungen! Hätte ich jemals das Vorurteil gehabt, dass Geisteswissenschaftler furchtbar formulieren, dann wäre es hiermit auf schönste ausgeräumt worden :slight_smile:

Aber auch inhaltlich ein cooler Artikel. Lediglich hinten raus ein wenig dünne, verständlicherweise: Eine wirklich gute Lösung, wie man mehr Diversität (oder auch nur mehr Gleichberechtigung) tatsächlich in der Praxis hinkriegt, hat ja wohl noch niemand gefunden.

Fieses Gedankenexperiment: Wenn man den letzten Satz statt auf Vielfalt auf Gleichberechtigung bezöge, klänge der so:

Für Vielfalt Gleichberechtigung gibt es keine Softwarelösung. Wir brauchen Menschen, die sich in ihren Unternehmen für Werte einsetzen, die sich nicht allein in Zahlen ausdrücken lassen. Diese Arbeit dürfen wir nicht unseren Werkzeugen der Quote überlassen, wir müssen sie selbst tun.

Klingt wie etwas was Procter+Gamble (place name of evil mega cooperation of choice here) sagen würde, um keine Quote einführen zu müssen…

Anders gesagt: gute, schlaue (und am besten nöch schöne) Menschen die das richtige tun sind natürlich immer der Königsweg. Aber wenn das nicht reicht: braucht es dann vielleicht doch Excel-konrollierbare controlling-taugliche Maßnahmen? So wie bei der Quote auch? Im Sinne von: wenn’s anders nicht geht, muss man halt messbare Kriterien einführen. Selbst auf die Gefahr hin, dass die Kriterien im Einzelfalle danebenliegen?

Ich hab’ keine Antwort.

3 „Gefällt mir“

Wtf. Ein Tool, um eine Abweichung von der ‚Norm‘ darzustellen und das Ganze dann auch noch irgendwas mit Diversity zu nennen, ist schon sehr perfide. Und dumm. Danke für diesen Artikel!

3 „Gefällt mir“

Die idee ist da wohl dahinter, dass man es objektiv bewertet. Das Problem das ich halt sehe ist eben genau das angesprochenen, welcher ethnische Hintergrund dann mehr Wert ist.

Ich verstehe da nicht was das für einen Mehrwert bringt, weil eigentlich will ich doch wissen was unterrepräsentiert ist und würde somit wissen wollen wo die Lücken überhaupt sind. Da hilft das tool dann gar nicht mehr.

1 „Gefällt mir“

Das Problem bei der ganzen Geschichte ist, dass es eine Vorstellung von einer ‚gesellschaftlichen Normalität‘ gibt und Schwarze, Fremde, Frauen, Behinderte etc. (und für nichts anderes stehen ethnicity, culture, sex, ability etc.) von dieser Normalität für einige Entwickler offenbar dermaßen abweichen, dass man ihnen in Workshops klar machen muss, dass die Mehrheitsgesellschaft eben nicht aus einem arisch-stereotypen Abziehbild besteht, sondern dass die Hälfte von uns Frauen sind, die Mehrheit sogar tendenziell älter ist, wir in einem einzigen Mischmasch aus verschiedenen Kulturen mit tausend unterschiedlichen Definitionen dessen leben, was Kultur überhaupt ist und dass wir alle ganz unterschiedliche ‚abilities‘ haben.
Und da ist es vielleicht ein irgendwo im Ansatz nett gemeinter, aber fürchterlich daneben gegangener Versuch, alleine schon mit einer Grafik anzufangen, die diese ‚Normalität‘ ins Zentrum stellt. Das ist keine Objektivierung, das ist ein Tool, das bereits in seiner Operationalisierung (ich entlehne das jetzt einfach mal aus der Statistik) das ursächliche Problem überhaupt nicht in den Blick nimmt, sondern stattdessen einfach diese Abweichung von der immer noch angenommenen Norm zu einem Zielwert erklärt.
Im Endeffekt kommuniziert man damit, ‚hey, wirf ma ne Schippe Diversity in dein character design, wir wissen ja alle was normal ist, aber hey, mach aus deiner Lara Croft ne schwarze Lesbe mit ethnorastadreads und tribal tattoos, dann biste voll divers und brauchst nicht anfangen über die Stereotype in deinem Kopf nachzudenken‘
Und das hat mir objektiv nichts mehr zu tun, das ist im Endeffekt positive Diskriminierung.
Ja, ich weiß, das war ursprünglich bestimmt nicht die Absicht und ich finde an dem Artikel hier auch gerade gut und wichtig zu lesen, wie sich letztlich der absolute bullshit aus dem gut gemeinten, aber vielleicht bereits suboptimalen Denkansatz entwickelt hat - klar, vielleicht kann man diese Grafik sogar gut anwenden um DesignerInnenn anhand bestehender Designs die Fokussierung auf den rassisch perfekten Idealbürger vor Augen zu führen, aber spätestens im Anschluss daran muss man in die Diskussion über das stereotype Kopfkino in uns Allen gehen. Einfach ne Büchse Diversity™ hilft da nix.

6 „Gefällt mir“

Ist dieses Diversity Tool ein (verpäteter) Aprilscherz? Ich kann mir irgendwie nicht vorstellen, dass es wirklich existiert; als Aprilscherz bzw. „Parodie“ einer Denkweise / eines Trends jedoch zwar grenzwertig, aber fast schon genial. Facepalming und Fremdschämen bis es wehtut.

Wenn man nur all diese Energie in die Eindämmung von Massentierhaltung (insbesondere Geflügel) stecken würde, wäre die Welt ein soooo viel besserer Ort!

1 „Gefällt mir“

Irgendwie ein bißchen befremdlich, dass niemand in der Feedbackschleife mal die Notbremse gezogen hat, als es darum ging ethnische Herkunft auf einer Skala von 1 bis 10 zubewerten.
Auch das Verständnis von Diversität scheint mehr mittel zum Zweck, als echtes Verständnis. Nach dem Motto: Dieses Feature muss man zur Zeit haben.
Da liegen noch ein paar Workshops vor Ihnen. Wobei ich mitlerweile skeptisch bin, ob man so ans Ziel kommt, wenn dieses Tool am Ende rauskommen kann.
Es tut auch echt ein bißchen weh mit anzusehen was aus Blizzard geworden ist. Obwohl die in ihren besseren Zeiten sicherlich auch nicht besonders divers waren, trotzdem schade.

4 „Gefällt mir“

Wenden wir doch mal die Diversity Space Method auf Wladimir Putin an:

Age: Mit 69 Jahren wirklich bereits sehr alt - 9 / 10 Punkte
Ability: Ziemlich eingeschränkt: Klar erkennbar zitternde Hand und schwerfälliges Gangbild, darüber hinaus Entscheidungen, die auf einen Mangel an Geisteskraft hindeuten - 8 / 10 Punkte
Body Type: Typ monströser Schrumpfrusse: Besitzt trotz nur 1,70m Körpergröße das größte Arschloch der Welt - 10 / 10 Punkte
Gender Identity: Auch für einen Mann ungewöhnlich brutal im Denken und Handeln, stark abweichend von der Norm - 10 / 10 Punkte
Sexual Orientation: Heterosexuell, zieht sich jedoch für Pferde aus und ergötzt sich am Leid anderer - 5 / 10 Punkte
Culture: Fernab von der westlichen Norm und modernen zivilisatorischen Errungenschaften, verwendet Festnetztelefone statt Handys - 10 / 10 Punkte
Ethnicity: Weiß, jedoch wohl weißer als der weiße Durchschnitt, reflektiert mit seiner Botox-Stirn jeglichen eintreffenden Sonnenschein - 3 / 10 Punkte

Wir stellen fest: Wladimir Putin ist mit 55 von 70 möglichen Punkten, was 79 % entspricht, als ausgesprochen divers einzustufen!

11 „Gefällt mir“

Die PR von Activision-Blizzard versteht das eigene Diversity Tool nicht - die King-Entwickler:innen schon.

Als Softwareentwickler schlage ich innerlich die Hände über dem Kopf zusammen. Ich versuche mich im Folgenden an einer Beleuchtung des Themas aus einer anderen Perspektive.

Dass in der PR für das Tool allgemein von „messen“ gesprochen wird, und so eine Quantifizierbarkeit von Eigenschaften menschlicher Figuren angedeutet wird, halte ich für irreführend und dümmlich.

In diesem Kontext sind (bis auf Age möglicherweise) auch schlicht keine messbaren Kriterien vorhanden. Daher glaube ich auch, dass die Entwickler:innen bestimmt nicht auf die Messbarkeit und Bewertung der Charakter-Eigenschaften für eine einzelne Figur abzielten, sondern eben genau die Diversität der eingesetzten Eigenschaften im Ganzen im Überblick zu behalten.

Wollen wir erregt durch das PR-Gedöns nun den Entwickler:innen wirklich unterstellen, sie hätten eine Methode gefunden mit der sie die Menge an Body Type oder Race per Figur zählen, messen, bewerten können bzw. sogar wollen? Das finde ich mit Verlaub gesagt unsinnig. Es geht um die Arten innerhalb jeder dieser Eigenschaftskategorien. Diese sind erkennbar in der markierten Box des folgenden Bildes.

Für die Abbildung derartiger Definitionen in Software gibt es z.B. den sogenannten Enumerationstypen oder eine einfache Liste mit Bezug auf den Index (für technisch Interessierte: Enum)
Unterliegend eine Zahlenrepräsentation, das ist unweigerlich so. Und deswegen steht rechts neben z.B. Culture Egyptian die Zahl 7. Egyptian ist lediglich das siebte Element der Liste. Die Zahl für sich betrachtet ist irrelevant, sie hat keine tiefere Bedeutung, hilft aber den Entwickler:innen sich im Draufblick auf die Diagramme zu orientieren und diese in eine Nutzungsanalyse zu überführen.

Der Enumerationstyp dient (üblicherweise) keinem mathematischen Zweck, sondern der Benennung und ist hier nicht als Bewertungsmaßstab anzusehen. Um das Diagramm zu malen, braucht es diese Zahl. Sie dient der Darstellung des Gesamtmusters im Diagramm für die betreffende Figur, oder im Gesamtkontext des Character-Cast eben um die Deckungsgleichheit/ungleichheit – und damit der Grad an Diversität – durch Visualisierung sofort erkennbar zu machen.

Das alles entspricht natürlich nur meinem Eindruck als Entwickler mit dem Draufblick von außen.

Die Hauptschwierigkeit bei diesem Vorgehen liegt meines Erachtens in der Übertragung der Definitionen in die Wahrnehmungsebene. Natürlich sind die Designer:innen gefordert diese Arten auch entsprechend sorgfältig auszuprägen, damit sie bei Anwendung auch die gewünschte, und nach menschlichem Ermessen würdige, diverse Repräsentation des Character-Casts ergeben.

Was wird „gemessen“? Analysiert werden kann anhand der Abbildung der Eigenschaftswerte auf weitere Analysekriterien die tatsächliche Diversität des Character-Casts. Über die aufgestellte Klassifizierung kann die Häufigkeit und Ausgewogenheit der angewendeten Eigenschaften ermittelt werden. Auf dem Screenshot zeigt das Tool z.B. dass es aktuell nur weibliche Figuren gibt und keine männlichen. Das ist ein einfaches Beispiel, übertragen aber auf ein für den einzelnen unüberschaubar großes Character-Set eine möglicherweise hilfreiche Aussage hinsichtlich aller Eigenschaften.
UPDATE: Nach der ausgiebigen Auseinandersetzung mit dem Thema – Dank geht vor allem raus an @Gamepsychologe – ist der vorherige Absatz wenn überhaupt reines Wunschdenken und scheint nichts mit der Realität gemein zu haben. Ich kann nicht umhin nun diese Analysezahlen auch für schwachsinnig zu befinden und bitte um Entschuldigung für diese falschen Aussagen. Der Irrsinn hat mich voll dran gekriegt.
DiversityToolStats

Alle diese Zahlen wollen nun anscheinend von vielen als eine unwürdige Quantifizierung oder Bewertung gesehen werden, weil man das halt gut bashen kann. Ich meine, dass diese Betrachtung so nicht richtig ist, ohne dass ich irgendwie das irreführende PR-Gedöns für gut heißen würde, das natürlich selbst mit dafür gesorgt hat, dass dieses Fass aufgemacht wurde.

Jedes Ansinnen, mit den benutzten Zahlen eine Bewertung menschlicher, naturgegebener Eigenschaften zu vollziehen, lehne ich strikt ab. Ich glaube aber auch, dass die öffentliche Diskussion etwas abdriftet, weil in der Kurzschluss-Interpretation etwas in das Thema reingelegt wird, was nicht da ist, man es aber nach allen Vorkommnissen bei ActBlizz in der letzten Zeit gerne so sehen will.

6 „Gefällt mir“

Ein solches Diagramm ergibt nur Sinn, sollte auch eine Quantifizierung (die an sich hier natürlich extrem fragwürdig ist) gemeint sein, ansonsten wäre eine simple Tabelle mit den Eigenschaften (ohne Werte) deutlich sinnvoller. Auf Basis von Listenplatzzuweisungen lässt sich der „Grad an Diversität“ eben nicht aus einem solchen Diagramm ablesen, welches dann einfach nur für Verwirrung sorgen würde wegen der fehlenden Bedeutung der Abstände; so könnten zwei völlig unterschiedliche Figuren im Diagramm „zufällig“ nahezu deckungsgleich sein. Darüber hinaus deutet der Begriff „Diversity Space Model“ wegen „space“ - man denke da an „vector space“ - auf eine Quantifizierung hin.

2 „Gefällt mir“

Auch wenn das grundsätzlich möglich wäre, ist die Interpretation hier falsch. In deinem Bildausschnitt hast du das Diagramm nicht mehr drin, aber wenn du es gegen die Zahlen prüfst, siehst du, dass die Abstände im Diagramm den Zahlenwerten entsprechen. Ein höherer Wert führt auch in der Interpretationslogik des Tools zu einem größeren „Diversity Space“, weil er weiter entfernt von der Norm (im Zentrum) liegt.

Im Beitrag habe ich versucht, die Herkunft des Tools herzuleiten. Ursprünglich hatten konkrete Zahlenwerte keine große Bedeutung, vor allem weil die Zuordnung individuell und subjektiv war. Weil das Tool zunächst als Methode in Workshops eingesetzt wurde, ging es nur darum, dass Teilnehmende sich Gedanken darüber machen, ob eine Figur eher der (statistischen) Norm entspricht oder eher davon abweicht. Eine genaue Quantifizierung war auch deshalb gar nicht Sinn der Sache, weil die Methode mehr Gesprächsanlass und Denkanstoß war, um sensibler für das Thema zu werden. Das ging aber alles über Bord als die Zahlen verstärkt Einzug hielten und das Tool nicht mehr ausschließlich für die Bildungskontexte gedacht wurde, für die es ursprünglich konzipiert wurde.

Was wird „gemessen“? Analysiert werden kann anhand der Abbildung der Eigenschaftswerte auf weitere Analysekriterien die tatsächliche Diversität des Character-Casts. Über die aufgestellte Klassifizierung kann die Häufigkeit und Ausgewogenheit der angewendeten Eigenschaften ermittelt werden. Auf dem Screenshot zeigt das Tool z.B. dass es aktuell nur weibliche Figuren gibt und keine männlichen. Das ist ein einfaches Beispiel, übertragen aber auf ein für den einzelnen unüberschaubar großes Character-Set eine möglicherweise hilfreiche Aussage hinsichtlich aller Eigenschaften.

Leider zeigt der Screenshot auch, dass in der Tabelle Mittelwerte über die numerischen Ausprägungen gebildet werden. In der Gruppe Gender = Woman ist der Mittelwert für Gender logischerweise 5, weil die Ausprägung konstant ist. In den anderen Eigenschaften sind in aber deutlich Mittelwerte zu erkennen. Die Bildung eines arithmetischen Mittels wäre natürlich gar nicht zulässig, wenn das Skalenniveau nominal bzw. rein kategorial wäre wie deine Interpretation nahelegt. Dann dürften wir lediglich die Häufigkeit einzelner Ausprägungen auszählen. Da die Rangfolge und Abstände hier keinerlei Bedeutung hätten, wären Mittelwerte nicht interpretierbar.
Dass Mittelwerte aufgetragen werden, legt nahe, dass sie interpretiert werden und das setzt voraus, dass Abstände interpretiert werden, obwohl das absoluter Bullshit ist.

Ich meine, dass diese Betrachtung so nicht richtig ist, ohne dass ich irgendwie das irreführende PR-Gedöns für gut heißen würde, das natürlich selbst mit dafür gesorgt hat, dass dieses Fass aufgemacht wurde.

Wie oben dargelegt lassen die Diagramme nur den Schluss zu, dass diese Betrachtung eben doch richtig ist - und die Kritik grundsätzlich gerechtfertigt.

Etwas anderes als eine Kurzschluss-Interpretation findet du übrigens auch in dem Beitrag :wink:

4 „Gefällt mir“

@Faehrmann hat nur erklärt woher die Zahlenwerte kommen und wieso das Schwachsinn ist was da getrieben wird.

Er hat sich dabei allerdings getäuscht. Das kann man auch direkt am vollständigen Screenshot nachvollziehen, der im Widerspruch zur Erklärung steht.

[Off-Topic Albernheiten]

Da werden doch sofort Wünsche wach… Ich wünsche mir einen C#-Kurs in Form von Faehrmann-Memes! Derzeit hätte ich für einen neuen Kollegen konkreten Bedarf für die Themen Dependency-Injection und korrekte Verwendung von async! Beides scheint bei Ex-Spieleprogrammierern kein Standard zu sein :slight_smile:

Danke für den konstruktiven und informativen Austausch. Es offenbart sich mir langsam das eigentliche Problem. Begriffe und Hintergründe sind nicht hinreichend konkretisiert worden und mit einem lapidaren „Wir messen hier Diversität“ in die Öffentlichkeit geworfen worden. Fehlende Präzision und Festlegungen lassen jeden nach eigenem Kenntnisstand Interpretationen vornehmen. Auch ich habe mich dem schuldig gemacht.

Um die Diskussion zu einem nächsten Schritt zu bringen, habe ich mal die Charaktere im Diagramm hervorgehoben mit beispielhaften Linien a-f, um einen Bezug zu haben, wovon wir sprechen.
Diagram

Ich hatte nicht angenommen, dass in den Kategorien die Zahl 1 eine Art Norm repräsentieren soll. Was wäre denn eigentlich diese Norm?

Meine Vorstellung ist, dass durch die Visualisierung der Charakter-Diagramme (a-f) die Designer:innen schnell erkennen können, ob sie nur gleiche Eigenschaften nutzen oder eben ein weites Feld der Diagrammpunkte konkret bedeckt ist und somit viele verschiedene Zusammenstellungen gewählt wurden, was im Endeffekt eben einen Eindruck über die Diversität im Character-Cast bietet.

Eine reine maximale ausgefüllte Grundfläche – hergestellt über „Maximalwerte“ aller Charaktere – heranzuziehen hätte ja keine Aussage. Alle Charaktere könnten genau dieser einen Linie folgen, womit alle Charaktere identisch wären und die Diversität dann somit 0 wäre.
DiagramFläche

Zu den rohen mathematischen Prinzipien, die für die Analyse der Werte angewendet werden müssten (sofern es überhaupt Sinn macht), bekunde ich offen meine Unkenntnis. Mein Eindruck ist allerdings noch immer, dass die Analysezahlen für eine Einschätzung von Verhältnissen dienen sollen und keine konkreten Endwertungen für eine Diversitätszahl darstellen.

1 „Gefällt mir“

Viele Antworten findest du schon in meinem Beitrag. Ich empfehle insbesondere das Video von GDC 2017 und das MIT Paper von 2019, die im Beitrag verlinkt sind.

Zur Norm: Das ist der Wert 0, nicht 1. Der erste Punkte in jeder Kategorie im Diagramm hat den Wert 0. Als die Methode ursprünglich angewandt wurde, wurde als Norm zugrunde gelegt, welche Eigenschaften in Spielen auf dem westlichen Markt am häufigsten repräsentiert werden (ob sie das tatsächlich genauer untersucht oder eher abgeschätzt haben, ist nicht klar). Aber das wäre dann männlich, weiß, mittelalt usw.

Zur Fläche: Tatsächlich gibt es den in Beschreibungen zum Tool durchaus Angaben dazu, dass eine große Fläche einen großen „Diversity Space“ aufspannt (aka insgesamt viele/große Abweichungen von der Norm) und deshalb positiv bewertet wird. Ich bin aber bei dir, dass das Quatsch im Hinblick auf den Begriff der Vielfalt ist, weil das nicht automatisch bedeutet, dass man viele unterschiedliche Figuren hat, sondern vielleicht einige wenige, die individuell große Abweichungen haben.

Zur Analyse: Was die ursprüngliche Methode angeht, hast du Recht. Hier spielten Zahlen noch keine Rolle und wurden auch nicht interpretiert. Es ging eher darum, ob es überhaupt Abweichungen von der Norm gibt. Ob man will oder nicht, führt man mit der Verwendung konkreter Zahlen aber eine Quantifizierung ein, die eine Rangfolge der Attribute erzeugt, ob man das beabsichtigt oder nicht. Dann ist ein kultureller Hintergrund größer/höherwertiger als ein anderer. Und das ist eben am Ende des Tages etwas komisch.

Zitat aus dem Artikel

Genau dem kann ich weiterhin nicht beipflichten. Zahlen bedeuten nicht zwangsläufig Quantifizierung, Wertung oder Reihenfolge. Die Zahlenrepräsentation für die Eigenschaften sind in meinen Augen eben keine Bewertung oder Einstufung. Siehe auch mein erster Beitrag.

Woher speist sich die Annahme, dass mit den Zahlen hier Wertungen und Rangfolgen über etwas erhoben werden, wo das schlicht nicht möglich ist? Ich bin wirklich an den berechtigten Begründungen dafür interessiert.

Das Zitat aus dem Artikel unterstützt was ich meine. Darin wird geäußert, dass die Gefahr durchaus bekannt ist, User könnten in Quantifizierung denken – und dem muss auch entgegen gewirkt werden. Das heißt aber nicht zugleich, dass die Zahlen im Tool real etwas quantifizieren sollen, auch wenn versucht wird das als alternativlose Betrachtung darzustellen.