Zum Hauptinhalt springen
11.02.2022

Algorithmen bei Bewerbungsverfahren – sinnvoll und vertretbar?

Algorithmen werden seit einigen Jahren verstärkt dazu eingesetzt, Bewerbungen zu filtern oder zu sortieren und Bewerberinnen und Bewerber zu bewerten. „Vorurteilsbehaftete“ Algorithmen können bei solchen automatisierten Entscheidungssystemen zu großen Problemen führen, auch wenn ethische Aspekte in der Debatte mittlerweile präsenter sind als früher. Denn bei Methoden des maschinellen Lernens lernen die Systeme aus den ihnen vorgelegten Daten – und diese können Ungleichheiten oder Vorurteile transportieren. Lernt ein Algorithmus beispielsweise mit Daten der erfolgreichsten Mitarbeitenden einer deutschen Firma der letzten 50 Jahre, ist die Wahrscheinlichkeit hoch, dass in diesen Daten überdurchschnittlich viele weiße Männer vertreten sind – aus dem einfachen Grund, dass diese den größten Teil der zu dem Zeitpunkt in der Firma tätigen Mitarbeitenden stellen. Der Algorithmus könnte diese Merkmale aber als Zeichen für gute Mitarbeitende sehen und sie ungerecht bevorzugen.

Darüber hinaus stellt sich auch die Frage, inwiefern Algorithmen überhaupt sinnvoll dazu in der Lage sind, die Eignung eines Bewerbenden festzustellen – das hängt auch von den angewandten Methoden und deren wissenschaftlichen Grundlagen ab.

Eine Perspective – ein Kommentar zum Stand der Wissenschaft mit weiterführenden Vorschlägen – aus dem Fachjournal „Patterns“, die am 11.02.2022 erschienen ist, greift einige dieser Thematiken jetzt auf. Die Autorinnen und Autoren stellen darin ein Konzept vor, um algorithmische Entscheidungssysteme zu überprüfen. Besonderes Augenmerk soll dabei auf die zugrundeliegenden Annahmen gerichtet werden: einerseits die Annahmen, die den Einsatz eines solchen Systems rechtfertigen und andererseits die Annahmen über die Erkenntnisse, die das System liefern kann. Diese grundlegenden Annahmen beruhen den Forschenden zufolge oft auf pseudowissenschaftlichen Theorien.

Die vorliegende Perspective ist nur eine von vielen Publikationen zu dem Thema der Bewerbungsalgorithmen und deckt nur einen Teil der Debatte ab. Deswegen hat das SMC Expertinnen und Experten nicht nur zur Perspective sondern insbesondere zum allgemeinen Stand der Forschung befragt – damit die Statements auch bei zukünftigen Anlässen aus diesem Themengebiet eine Orientierung liefern können.

Übersicht

     

  • Prof. Dr. Tobias Matzner, Professor für Medien, Algorithmen und Gesellschaft, Universität Paderborn
  •  

  • Prof. Dr. Olga Levina, Professorin für Wirtschaftsinformatik, Technische Hochschule Brandenburg
  •  

  • PD Dr. Jessica Heesen, Leiterin des Forschungsschwerpunkts Medienethik und Informationstechnik, Internationales Zentrum für Ethik in den Wissenschaften, Eberhard Karls Universität Tübingen
  •  

  • Prof. Dr. Barbara Hammer, Professorin für Maschinelles Lernen, Universität Bielefeld
  •  

Statements

Prof. Dr. Tobias Matzner

Professor für Medien, Algorithmen und Gesellschaft, Universität Paderborn

Auf die Frage, wie die Gefahr von Diskriminierung bei „Bewerbungsalgorithmen“ einzuschätzen ist:
„Die Gefahr einer solchen Diskriminierung besteht bei Bewerbungsalgorithmen ganz klar. Die genannten Verfahren laufen datenbasiert ab und zielen entweder direkt auf Bewertung von Mitarbeitern oder nutzen eine Zwischenstufe, wie ‚Persönlichkeit‘.“

„Geht es direkt um die Bewertung, müssen Beispiele für ‚gute Mitarbeiter‘ oder ‚qualifizierte Mitarbeiter‘ gefunden werden. Schon die Kriterien hierfür können verzerrend sein, wenn zum Beispiel bestimmte Verhaltensweisen oder kulturelle Codes implizit vorausgesetzt werden. Selbst wenn sich hier einigermaßen objektive Kriterien zur Bewertung finden, ist das Problem, dass die Beispiele, die es schon gibt, existierende Diskriminierungen abbilden. In einem Betrieb, der tendenziell mehr Männer einstellt, wird die Mehrheit der Hochqualifizierten männlich sein.“

„Wird dagegen mit dem Algorithmus nicht direkt die Qualifikation, sondern ein Zwischenschritt – zum Beispiel Persönlichkeit – bewertet, beruht das gesamte Verfahren auf einem angenommenen Zusammenhang, zum Beispiel zwischen messbaren Persönlichkeitsmerkmalen und Qualifikation. Diese Zusammenhänge beruhen oft auf pseudowissenschaftlichen Erkenntnissen und sind oft diskriminierend.“

„Hier wird ein Prozess mit großer gesellschaftlicher Relevanz (Zugang zu Arbeitsplätzen) der aus diesem Grund auch relativ stark gesetzlich reguliert ist, auf Algorithmen übertragen, deren Eigenschaften selbst bei bestem Willen nur schwer zu bestimmen und kontrollieren sind. Hier sind noch viele offene Fragen im Bereich der sogenannten ‚erklärbaren künstlichen Intelligenz‘ zu lösen. Aber selbst, wenn ein solches Audit möglich ist, kann es nur bestimmte Risiken für Diskriminierung ausmachen. Am Ende entsteht diese aber im Zusammenspiel zwischen Trainingsdaten, Algorithmen/Modellierung und Anwendungsdaten. Ein Programm, das in einem Unternehmen problemlos läuft, kann also auf den Daten eines anderen Unternehmens plötzlich diskriminierende Folgen haben.“

Auf die Frage, wie man einer Ungleichbehandlung von Menschen durch Algorithmen vorbeugen kann und ob Algorithmen, wenn sie richtig designt sind, vorurteilsfreier urteilen können als Menschen:
„Das zentrale Problem ist nicht, dass Algorithmen mehr oder weniger diskriminieren als Menschen, sondern anders.“

„Mittels Algorithmen lassen sich tatsächlich einige Probleme, so man sie denn bedenkt, gut ausblenden. Dafür treten neue auf. In ADS (algorithmic decision-making systems) entstehen zum Beispiel oft sogenannte Stellvertreter-Merkmale (proxies). Hier korrelieren Zusammensetzungen von diversen, vermeintlich harmlosen Merkmalen mit gesetzlich geschützten Eigenschaften wie Geschlecht oder Herkunft. Oft sind diese Kombinationen aber so komplex, dass sie von Menschen nur schwer als diskriminierend zu durchschauen sind.“

„Zudem haben Algorithmen einen anderen Impact: Ein sexistischer Personaler hat nur Einfluss auf die Entscheidungen, die über seinen Tisch gehen, ein sexistischer Algorithmus betrifft das gesamte Unternehmen – oder je nach Verbreitung sogar viele Unternehmen.“

Auf die Frage, wie das in dem Paper vorgestellte Framework zu beurteilen ist und inwiefern die vorgestellte Matrix differenziert genug ist:
„Die Matrix benennt die wichtigen Punkte. Allerdings genügt es meines Erachtens nicht, diese nur stichwortartig, wie im Paper benannt, auszufüllen. ‚Data‘, ‚Function‘, ‚Assumptions‘ und ‚Epistemological Roots‘ müssen detaillierter beschrieben werden sowie sozial kulturell und historisch kontextualisiert werden. Hier müssten dann zum Beispiel auch Besonderheiten bestimmter Branchen berücksichtigt werden.“

„Zudem fehlt eine Bewertungsanleitung. Es ist zum Beispiel wichtig, zu erkennen, dass ein System beispielsweise auf (einer bestimmten) ‚social network theory‘ beruht. Aber was folgt daraus? Hier müsste dann jemand mit Kenntnis dieser Theorie mögliche Folgen abschätzen.“

„Die Matrix zeigt also in die richtige Richtung, braucht aber noch weitere Ergänzungen. Schon in ihrer jetzigen Form bedarf es zu ihrer Bearbeitung aber Informationen, die Unternehmen nur intern oder auf gesetzliches Erfordernis hin herausgeben dürften.“

Auf die Frage, ob solche Algorithmen vor dem Einsatz von unabhängigen Stellen überprüft werden müssen und was genau auditiert werden soll:
„Eine unabhängige Überprüfung halte ich zwingend für erforderlich. Das Paper macht meines Erachtens sehr gut deutlich, dass eine Auditierung alle Elemente – Grundannahmen, Modell, Einsatzformen und so weiter – in Zusammenhang stellen muss.“

„Dazu kommt: Gerade datengetriebene Systeme können während der Anwendung diskriminierende Eigenschaften entwickeln. Ein Audit a priori kann also nur einen Teil der Probleme erfassen. Deshalb muss eine solche Maßnahme immer ergänzt werden mit einem Recht auf Auskunft, Beschwerdestellen oder andere Maßnahmen, an die sich potenziell Betroffene wenden können.“

Prof. Dr. Olga Levina

Professorin für Wirtschaftsinformatik, Technische Hochschule Brandenburg

Auf die Frage, wie gut solche Algorithmen im Moment sind und inwiefern sie zuverlässig Informationen liefern können, die in einem Bewerbungsprozess nützlich sind:
„Die Werkzeuge, die anhand von Ton- und Videodaten Berechnungen über Eigenschaften von Menschen treffen, sind äußert unzuverlässig und nicht ausreichend getestet. Werkzeuge, die anhand von Texten Bewerbungen klassifizieren, hängen sehr davon ab, nach welchen Stichwörtern klassifiziert wird. Gefühle oder Einstellungen aus den Texten herauszufiltern sind noch aktive Forschungsthemen, deren Ergebnisse nicht über Sprachen und Kulturen hinweg verallgemeinert oder als zuverlässig bezeichnet werden können.“

„Im Bereich der Personalakquise existieren zahlreichen Möglichkeiten, Analysewerkzeuge zu verwenden. Der Akquiseprozess wird als ‚HR-Trichter‘ (HR-Funnel) bezeichnet. So kann bereits bei der Stellenausschreibung der Text zum Beispiel auf geschlechts- und zielgruppenspezifische Formulierungen geprüft werden, um den potenziellen Kandidat:innenpool abzuschätzen (Beispiel: Textio [1]). Für die Veröffentlichung der Anzeige kann dann das Microtargeting wie auch in der Werbeschaltung bei zum Beispiel LinkedIn verwendet werden. Hier werden direkt Gruppen nach Hierarchieebene, Geschlecht, Erfahrung, Abschluss und so weiter ausgewählt, für die die Anzeige geschaltet werden soll. Da diese Kategorien für die Arbeitssuchenden verborgen bleiben, ist es schwer abzuschätzen, wie sehr hier eine Diskriminierung stattfindet beziehungsweise welche Kategorien überhaupt zur Auswahl stehen. Matching-Werkzeuge bringen dann die anvisierten (targeted) Arbeitssuchenden und Recruiter zusammen, indem sie zum Beispiel eine Liste von potenziellen Kandidat:innen für Recruiter erstellen oder eine Liste von Stellenanzeigen für Suchende (Beispiel: ZipRecruiter [2]). Da es sich um Empfehlungssysteme (recommender systems) handelt, die meist auf Plattformen agieren, werden durch diese Vorschläge, die auf vorgeschlagenen Faktoren beziehungsweise Ähnlichkeiten basieren, die bereits vorhandenen Ungleichheiten und Muster nur verstärkt. Zudem agieren diese Werkzeuge häufig in einer grauen rechtlichen Zone.“

„Weitere Funktionen von Algorithmen können sein: automatisches (aus)Sortieren von Lebensläufen; (linguistische) Auswertung von Anschreiben; Auswertung der Stimme, des Tons beziehungsweise der Mimik beim Bewerbungsgespräch durch Algorithmen.“

„Der Einsatz dieser Algorithmen wurde zunächst dadurch begründet, dass Menschen Vorurteile haben, die den Auswahlprozess der Bewerber:innen behindern. Es wurde – von den Herstellern – behauptet, dass dieses Manko durch den Einsatz von Filterwerkzeugen (Algorithmen) behoben wird. Auch soll der Einsatz dieser Tools – laut den Herstellern – den Ausschreibungsprozess beschleunigen, also effizienter machen. Darüber hinaus sollen diese Werkzeuge ‚bessere‘ Bewerber:innen ‚finden‘, dadurch dass sie aus den verschiedene Daten Muster erkennen, die dem menschlichen Recruiter sonst verborgen blieben. Aktuell stellt sich die Situation so dar: Die Vorurteile können augenscheinlich nicht durch den Einsatz von Algorithmen behoben werden. Dagegen kann die Definition von objektiven Kriterien – wie zum Beispiel ‚Abi-Note‘, ‚Höchster akademischer Abschluss‘, ‚Führerscheinklasse‘ und so weiter – die Menge an Kandidat:innen, die für das weitere Bewerbungsverfahren in Frage kommen, bei einer großen Menge an Bewerber:innen effizient reduziert werden.“

Auf die Frage, wo solche Algorithmen in der Praxis eingesetzt werden und ob es belastbare Daten zu deren Effekten gibt:
„Informationen über den Einsatz dieser Werkzeuge gibt es meist aus englischsprachigen Ländern wie Großbritannien und den USA. In der Pharmaindustrie und bei Banken wird angeblich häufig auf die Unterstützung solcher Algorithmen bei der Auswahl der Bewerber:innen zurückgegriffen. Die öffentliche Debatte über HR-Algorithmen wurde 2018 durch deren Einsatz bei Amazon ausgelöst [3]. Effekte kann man aus Studien [4] vermuten beziehungsweise bei den Herstellern nachlesen [5]. Die Effekte sind abhängig davon, in welcher Phase des HR-Trichters die Werkzeuge eingesetzt werden und an welchen Daten das entsprechende Modell trainiert wurde. Insgesamt würde ich die Datenlage zum effizienten Einsatz der Werkzeuge im Bewerbungsprozess noch nicht als belastbar bewerten. Auch sind die Werkzeuge nicht geeignet, wirkliche Unterstützung bei der Auswahl der Bewerber:innen – über statische Metriken wie Alter, Arbeitserfahrung oder höchsten Abschluss hinaus – zu bieten. Der betriebswirtschaftliche Nutzen dieser Werkzeuge ist gegenüber dem Gespräch mit einem menschlichen Recruiter (noch?) nicht ersichtlich. Es gibt auch meines Wissens keine betrieblichen Prozesse in den Unternehmen, die solche Werkzeuge einsetzen, um deren Effizienz zu messen beziehungsweise ihre Ergebnisse zu überprüfen.“

Auf die Frage, wie das in dem Paper vorgestellte Konzept zu beurteilen ist und inwiefern die vorgestellte Matrix differenziert genug ist:
„Der Ansatz, eine Matrix bei der Bewertung von Technologien oder Prozessen einzusetzen, geht auch auf die Ethical Matrix [6] oder die Arbeit von Ian Sommerville zur Entwicklung von Sozio-technischen Systemen [7] [8] zurück. Damit können mehrere Dimensionen miteinander verknüpft werden. Insofern ist der Ansatz schlüssig. Allerdings fehlt für diese spezifische Matrix der theoretische und empirischere Unterbau. Als Forschungsartefakt ist es also aus meiner Sicht höchstens eine Ankündigung eines Audit-Rahmenwerkes, aber keine fundierte wissenschaftliche Evidenz. Was den Inhalt der Matrix betrifft, zielt dieser auf die Anwender:innen der Algorithmischen Systeme in der Praxis ab. Die Methoden der Interviews mit den Systementwickler:innen finde ich im betrieblichen Kontext deswegen wenig praktikabel.“

„Die angesprochenen Aspekte sind wichtig, aber nicht umfassend. Es fehlt beispielsweise der Vergleich zwischen Trainingsdaten des Systems und dem eigenen potenziellen Pool an Bewerber:innen. Qualitäts- und rechtssichernde Maßnahmen bei dem Einsatz eines solchen Werkzeugs fehlen ebenfalls. Auch sind nicht die Meta-Daten des Modells für die Bewertung ausschlaggebend, sondern die Datenkategorien, die zur Ableitung der Empfehlung beziehungsweise des Ergebnisses des Systems führen – also die Frage, welche Merkmale verwendet werden. Das können zum Beispiel Geburtsort, Alter, Schule oder die Anzahl gesprochener Fremdsprachen sein. Auch müssen die wesentlichen Angaben über den Datensatz, das Model, den erwarteten Mehrwert, die Auswirkungen der Entscheidungen auf den Gesamtprozess und auf die Mitarbeiter:innen des Unternehmens sowie die Kandidat:innen und den Einsatzkontext bei der Produktbeschreibung eindeutig vermittelt werden. Des Weiteren muss die Bedienung des Systems berücksichtigt werden. Hier ist es wichtig für die anwendenden Mitarbeiter:innen zu wissen, anhand welcher Kriterien und mit welcher Sicherheit die Berechnung stattgefunden hat – zum Beispiel ‚der Kandidat passt zu 34 Prozent nicht zur ausgeschriebenen Stelle‘ – und welche Konsequenzen und nächste Prozessschritte daraus folgen können und sollen.“

Auf die Frage, ob das Beurteilen der Leistungsfähigkeit und Eignung von Personen durch einen Algorithmus ein Feld ist, in dem Algorithmen hilfreich sein können oder ob sie dabei grundsätzliche Probleme haben werden und ob es technisch möglich ist, „vorurteilsfreie“ Algorithmen zu designen:
„Die in dem Artikel angedeuteten HR- Algorithmen werden zur Beurteilung von Personen und deren Leistungen anhand ihres Aussehens (Video) und ihrer Stimme (Stimmauswertung) eingesetzt. Das halte ich grundsätzlich für nicht vertretbar. Der betriebliche Mehrwert dieser Algorithmen für den Bewerbungsprozess ist zum einen nicht bewiesen, zum anderen auch theoretisch nicht nachvollziehbar, ethisch falsch und technologisch nicht ausgereift.“

„Es gibt keine Möglichkeit, objektive Algorithmen zu gestalten. Also werden diese bei der Beurteilung von Menschen oder menschlichen Eigenschaften keine objektive Entscheidung ermöglichen können.“

„Es ist nicht möglich ‚vorurteilsfreie‘ Algorithmen zu gestalten. Algorithmen beschreiben Muster in Daten auf eine mathematische Art und Weise, also durch Formeln. Die Algorithmen geben also dieselben Muster mit neuen Daten wieder. Die Daten, die zur Ableitung der Formel verwendet wurden, stammen aus der realen Welt. In der realen Welt werden Entscheidungen in verschiedenen Kontexten unter verschiedenen Annahmen getroffen, die für die Mustererkennung in den Entscheidungen nicht sichtbar sind. Das heißt es können nur tatsächliche, also subjektiv und kontextgeprägte Entscheidungen, als Datenpunkte zur Musterbeschreibung verwendet werden. Algorithmen werden in den Berechnungen also immer eine subjektive und kontextbezogene Information – Bias – beinhalten.“

Auf die Frage, ob solche Algorithmen vor dem Einsatz von unabhängigen Stellen überprüft werden müssen und was genau auditiert werden sollte:
„Der AI Act der EU [9] stuft algorithmische Systeme im Kontext der Einstellung von Personal als ‚sehr kritisch‘ ein. Das heißt sie werden in Zukunft sehr sorgfältig auditiert werden müssen, um auf den Markt zu gelangen.“

„Der AI Act der EU schlägt eine Auditierung anhand des gesamten Systemlebenszyklus vor – Datensammlung, Kriterienbestimmung, Datenverarbeitung, Modelltraining, Modell-Schwellenwerte, Einbindung in die betrieblichen Prozesse, Mechanismen der menschlichen Kontrolle und Transparenz sowie Widerspruchfähigkeit der Kandidat:innen und so weiter. Das Vorgehen und die Einstufung im AI Act unterstütze ich und möchte noch einfügen, dass hier auch ein ‚Beipackzettel‘ seitens des Herstellers dieser Systeme an den Nutzenden a priori, also als Teil der Produktbeschreibung, bereitzustellen ist. Die eigentlichen Nutzenden müssen geschult und darüber informiert werden, worauf die Berechnungen basieren, inwiefern das Modell und die Daten auf den jeweiligen Kontext anzuwenden sind, welche Auswirkungen eine falsche Berechnung des Systems für den Prozess und für Kandidat:innen sein können, mit welcher ‚Richtigkeit‘ das System die Berechnungen einstuft und anhand welcher Kriterien die Berechnung stattfindet. Auch müssen Informationen zur Anwendung von algorithmischen Systemen im Prozess gegenüber den Kandidat:innen vor dem eigentlichen Prozess offengelegt werden und Möglichkeiten des Widerspruchs kommuniziert werden.“

Auf die Frage, wie man einer Ungleichbehandlung von Menschen durch Algorithmen vorbeugen kann und ob Algorithmen, wenn sie richtig designt sind, vorurteilsfreier urteilen können als Menschen:
„Ich schätze die Gefahr der Ungleichbehandlung bei ‚Bewerbungsalgorithmen als sehr hoch ein. Einige ethische Bedenken sind:“

„1. Verantwortung (accountability): Wer ist verantwortlich zum Beispiel dafür, dass ein:e Bewerber:in im Bewerbungsprozess weiter kommt oder nicht?“

„2. Das Machtungleichgewicht (power asymmetry) zwischen Bewerber:in und Recruiter wird potenziell noch verstärkt durch Komplexität – besonders wenn mehrere Algorithmen eingesetzt werden – und Intransparenz: Welchen Gruppen wurden die Stellenanzeigen angezeigt? Wer trifft die Entscheidung für das Vorankommen im Bewerbungsprozess? Wann wurde welcher Algorithmus zu welchem Zweck angewandt? Warum wurde eine bestimmte Entscheidung getroffen?“

„3. Gleichberechtigung/nicht-Diskriminierung: Beurteilung von Bewerber:innen anhand personenbezogener Eigenschaften, anstatt Kompetenzen.“

„Dieser Ungleichbehandlung kann man nur vorbeugen, indem man keine Algorithmen dazu verwendet, Entscheidungen über Menschen oder ihre Leistungen zu treffen.“

„Algorithmen können nicht vorurteilsfreier urteilen als Menschen. Algorithmen sind Rechenvorschriften. Die Daten zum Rechnen – also vergangene Entscheidungen – kommen von Menschen. Die Rechenvorschriften und somit ihre Ergebnisse sind also direkt abhängig von den Vorurteilen früherer Entscheider:innen.“

„Einige Anmerkungen: Zu den ‚pseudowissenschaftlichen Erkenntnissen‘, die in dem beigefügten Artikel erwähnt wurden: Die Algorithmen, die während des Bewerbungsgesprächs eingesetzt werden, um anhand der Mimik, Gestik und des Tonfalls die Leistung oder Eigenschaften von Kandidat:innen zu beurteilen basieren auf der Annahme, dass a) menschliche Mimik korrekt Emotionen widerspiegelt, b) das Gesicht Aufschlüsse über den Charakter und weitere Eigenschaften des Menschen geben kann, c) dass Emotionen über die menschliche Tonlage eindeutig vermittelt werden und d) dass Emotionen aus der Mimik und dem Tonfall von anderen Menschen aus allen Kulturen eindeutig erkannt und identifiziert werden können. Alle diese Annahmen sind nicht eindeutig wissenschaftlich bewiesen. Bei den Annahmen a) und d) gibt es Hinweise, dass Mimik und Emotionsvermittlung kulturell unterschiedlich sind, die Annahme b) basiert nicht auf wissenschaftlichen Erkenntnissen, wurde jedoch bereits in vielen Diktaturen zur ‚Begründung‘ von Abgrenzung bestimmter Bevölkerungsgruppen herangezogen. Für Annahme c) gibt es keine fundierte wissenschaftliche Basis. Bei der Annahme d) gibt es Hinweise darauf, dass nicht alle Emotionen von allen Menschen – auch aus demselben Kulturkreis – eindeutig oder überhaupt identifiziert werden können. Die Bezeichnung der Grundlagen dieser Technologien als ‚pseudowissenschaftlich‘ ist somit richtig.“

„Bei der Annahme a) muss noch die Datenverarbeitungs-Pipeline der algorithmischen Systeme betrachtet werden. Die Emotionen werden anhand der Gesichtsmuskelbewegung bestimmt. Diese werden durch bereits annotierten Bilder den Algorithmen ‚vermittelt‘ (supervised learning). Das heißt es werden Bilder von unterschiedlichen Menschen aufgenommen, die unterschiedliche Emotionen ausdrücken sollen. Andere Menschen schauen sich diese Bilder an und beschriften (taggen) diese mit den Emotionen, die sie auf dem Bild zu erkennen glauben [10]. Das heißt es gibt mehrere potenzielle Bias-Quellen: Es müssen alle möglichen Emotionen vertreten sein, sie müssen eindeutig erkennbar sein – kulturelle Unterschiede in der Darstellung und Interpretation sowie kognitive Unterschiede in der Interpretation erschweren das –, die erkannten Emotionen müssen eindeutig beschriftet sein (Taxonomie) und so weiter. Diese beschrifteten Bilder werden zur Mustererkennung verwendet und die Beschriftungen (tags) sind dann die Ergebnisse der Berechnung. Taucht beispielsweise die Emotion ‚glücklich‘ oder ‚kompetent‘ in der Taxonomie gar nicht auf, kann ein:e Kandidat:in dann gar nicht als solche:r vom Algorithmus klassifiziert werden. Werden zum Beispiel Frauen in dem Datensatz statistisch seltener als ‚kompetent‘ getaggt – basierend auf persönlichen oder gesellschaftlichen Vorurteilen –, dann werden auch Kandidatinnen auch seltener so klassifiziert. Dazu kommen noch Berechnungsfehler wie Falschklassifizierungen. Kate Crawford hat die gesellschaftlichen Auswirkungen, die dieser Prozess nach sich ziehen kann, bereits sehr gut beschrieben und dargestellt [11].“

PD Dr. Jessica Heesen

Leiterin des Forschungsschwerpunkts Medienethik und Informationstechnik, Internationales Zentrum für Ethik in den Wissenschaften, Eberhard Karls Universität Tübingen

Auf die Frage, wie die Gefahr von Diskriminierung bei „Bewerbungsalgorithmen“ einzuschätzen ist:
„Es gibt ein reales Risiko, dass der Einsatz von Algorithmen für die Personalauswahl zu Diskriminierungen führt. Das haben verschiedene Beispiele und Studien gezeigt. Algorithmen sollen in den Augen der Anbieter solcher Systeme zu mehr Effizienz und auch mehr Fairness in der Personalauswahl führen. Es kann hierbei jedoch zu Diskriminierung kommen, wenn die verwendeten Trainingsdaten für die Auswahlprogramme nicht ausgewogen sind oder die Algorithmen Bewertungskriterien unfair gewichten. Zum Beispiel kann es sein, dass es ‚Lücken‘ in einem beruflichen Lebenslauf gibt aufgrund von Betreuungszeiten für Kinder oder kranke Verwandte. Diese Lücke kann durch einen Bewerbungsalgorithmus detektiert und schlecht bewertet werden, ohne den Kontext zu kennen. Das kann auch passieren, wenn eine menschliche Personalverantwortliche die Entscheidung trifft. Aber hier gibt es doch eine bessere Chance, den Kontext in den Blick zu nehmen und gegebenenfalls gerade einen solchen Aspekt positiv oder zumindest nicht negativ zu bewerten.“

„Bei der kritischen Auseinandersetzung mit algorithmischen Entscheidungssystemen für die Personalauswahl geht es häufig um die Einforderung von ‚Gleichheit‘ im Sinne von fairer und gerechter Behandlung.“

„Fairness kann aber auch bedeuten, dass auf Unterschiede zwischen den Menschen geachtet wird. Und das bedeutet dann, Ungleiches auch ungleich zu behandeln. Menschen mit Behinderungen zum Beispiel sollten in bestimmten Bereichen besonders behandelt werden, damit sie letztlich die gleichen Chancen wie Menschen ohne diese Einschränkungen haben. Ungleiche Behandlung kann so zu mehr Gerechtigkeit und Fairness führen. Dazu ist jedoch eine individuelle und kontextbezogene Einschätzung der Situation wichtig und das ist eine Fähigkeit, die algorithmische Entscheidungssysteme bislang nicht haben.“

Auf die Frage, wie man einer Ungleichbehandlung von Menschen durch Algorithmen vorbeugen kann und ob Algorithmen, wenn sie richtig designt sind, vorurteilsfreier urteilen können als Menschen:
„Um einer ungerechtfertigten Schlechterstellung von Menschen durch Algorithmen vorzubeugen, gibt es verschiedene Maßnahmen. Dazu gehört die Sicherstellung einer hohen Qualität der Trainingsdaten, die Durchführung von Überprüfungen durch zum Beispiel Audits und entsprechend die rechtlichen Regulierungsanforderungen, um diese Maßnahmen in der Praxis verpflichtend zu machen. Es ist vor diesem Hintergrund gut möglich, ADM-Systeme (ADM – Algorithmic Decision Making) bei der Personalauswahl zu nutzen, die menschliche Entscheidungen besser machen. Aber die Auswahl sollte nie nur auf ein ADM-System zurückgehen und wenn ein solches System einbezogen wird, sollten die Bewerberinnen und Bewerber darüber in Kenntnis gesetzt werden.“

Auf die Frage, wo solche Algorithmen in der Praxis eingesetzt werden und ob es belastbare Daten zu deren Effekten gibt:
„Algorithmische Entscheidungssysteme werden für die unterschiedlichsten Gesellschaftsbereiche wie öffentliche Verwaltung, Bildung, Transport oder Kriminalitätsbekämpfung global bereits eingesetzt – in armen Ländern wie in reichen, in totalitären Staaten und in Demokratien. Man spricht in der Wissenschaft international hier von ‚Governance by Algorithms‘ oder auch ‚Algocracy‘. Die Nichtregierungsorganisation AlgorithmWatch fertigt dazu unter dem Begriff ‚Automating Society‘ regelmäßig Berichte an [12].“

Auf die Frage, wie das in dem Paper vorgestellte Konzept zu beurteilen ist und inwiefern die vorgestellte Matrix differenziert genug ist:
„Das vorgestellte Rahmenkonzept ist gut, weil es nach den Kontexten für die Bewertung von ADM-Systemen fragt und aufzeigt, dass bereits sehr viele ebenfalls teils algorithmisch gesteuerte Vorannahmen in Dienste zur Steuerung von Bewerbungsprozessen einfließen. Singuläre Betrachtungsweisen ergeben in Bezug auf algorithmische Systeme nur selten Sinn, weil die meisten dieser Systeme auf einem Netzwerk von verarbeiteten Informationen beruhen.“

„Das Rahmenkonzept ist jedoch nicht ausreichend, weil es nur auf die technischen Probleme für die Vermeidung von Diskriminierungen in der Berufswelt setzt. Man kann den Einsatz von automatisierten Verfahren in der Personalauswahl auch grundsätzlich in Frage stellen. In einer erweiterten Perspektive muss immer wieder darauf hingewiesen werden, dass es häufig ohnehin bestehende gesellschaftliche Diskriminierungsmuster sind, die dazu führen, dass auch Entscheidungssysteme nicht neutral sind.“

„Trotzdem ist die Grundannahme des Beitrags richtig, dass die gesetzlichen Regulierungsvorschläge für die Auditierung von ADM-Systemen noch sehr unpräzise sind und detailliertere Vorschläge zur Ausgestaltung ein wichtiger Beitrag zur zielgerichteten Verankerung von Standards für algorithmische Entscheidungssysteme.“

Auf die Frage, ob solche Algorithmen vor dem Einsatz von unabhängigen Stellen überprüft werden müssen und was genau auditiert werden sollte:
„Im Regulierungsvorschlag für Künstliche Intelligenz (KI) der EU [9] vom April 2021 werden vier Risikokategorien zur Klassifizierung von KI vorgeschlagen. Algorithmische Entscheidungssysteme werden sehr häufig mit KI-Anwendungen kombiniert. Die Nutzung von KI im Personalmanagement wird hier explizit als ‚hohes Risiko‘ eingestuft, weil es hierbei um die Realisierung von Lebenschancen geht. KI-Anwendungen mit einem hohen Risiko unterliegen nach diesem Regulierungsvorschlag einer Konformitätsbewertung und müssen registriert werden. Für diese Bewertung kommen dann unabhängige Stellen in Frage, aber auch eine Durchführung der Überprüfung in eigener Verantwortung ist denkbar. Der Vorschlag ist hier noch nicht eindeutig. Nach meiner Auffassung muss gesichert sein, dass die Form der Auditierung transparent und nachvollziehbar ist. Welche Modelle für die Auditierung genutzt werden sollten, kann jetzt noch nicht zufriedenstellend beantwortet werden. Dazu brauchen wir noch weitere Diskussionen in Wissenschaft und Gesellschaft sowie Regulierungs- und Standardisierungseinrichtungen.“

Prof. Dr. Barbara Hammer

Professorin für Maschinelles Lernen, Universität Bielefeld

Auf die Frage, wie gut solche Algorithmen im Moment sind und inwiefern sie zuverlässig Informationen liefern können, die in einem Bewerbungsprozess nützlich sind:
„Es gibt verschiedene intelligente Software-Ansätze zur Unterstützung von Bewerbungsabläufen mit sehr unterschiedlicher Funktionalität. Da es zunehmend Bereiche gibt, in denen geeignete Bewerbungen fehlen, geht es dabei nicht unbedingt direkt um eine Auswahl von Personen, sondern oft eher um eine Vermittlung, um Stellen überhaupt zu besetzen. Beispiele für einen unmittelbaren Mehrwert intelligenter Unterstützungssoftware sind je nach Software der Zugriff auf eine große Datenbank von möglichen Personen und einfaches Filtern nach relevanten Kriterien, eine schnelle und individuelle Information über mögliche Stellenangebote in einem Unternehmen und die dafür benötigten Bewerbungsunterlagen durch Chatbots, ein Check unmittelbarer und einfach überprüfbarer Anforderungen – wie Sprachkenntnisse oder Programmierkenntnisse –, die Möglichkeit einer viel schnelleren Rückmeldung in Bereichen mit großem Bedarf und so weiter. Ziel ist hier oft ausschließlich die Beschleunigung des Informationsaustauschs und die Erweiterung des Horizonts von Personen beziehungsweise Stellen. Beschreibungen populärer Anbieter finden sich etwa hier [13].“

Auf die Frage, wo solche Algorithmen in der Praxis eingesetzt werden und ob es belastbare Daten zu deren Effekten gibt:
„Auf der Basis von Daten trainierte Modelle zum Filtern von Personen stellen einen Teilbereich dar. Sie adressieren entweder eher allgemeine, abstrakte Kompetenzen oder Eigenschaften, die prognostiziert und für die Stelle als relevant erachtet werden – etwa die Big Five Persönlichkeitsmerkmale –, oder sie versuchen direkt, die angeblich besten Personen herauszufiltern. Letztere werden auf gegebenen Daten von als erfolgreich getaggten Personen trainiert. Solche Modelle können nur in Bereichen, in denen es genügend Trainingsdaten gibt, eingesetzt werden – also eher für standardisierte Jobs. Es gibt Berichte über die Verwendung verschiedener Hiring-Technologien in Branchen mit einem großen Turnaround und standardisierten Jobs. In einem Bericht [14] werden zum Beispiel McDonalds, L’Oréal, Deloitte und Poshmark genannt. Eine belastbare Auswertung, wie erfolgreich diese Versuche sind, ist dabei prinzipiell schwierig, da dazu automatisches Hiring mit klassischen Hiring-Prozessen unter denselben Bedingungen verglichen werden müsste. Zudem müsste gut bewertbar sein, was ‚erfolgreich‘ im Spezialfall bedeutet. Dies ist meiner Ansicht nach nur beschränkt möglich, da Stellen immer zu einem gewissen Grad individuell sind.“

Auf die Frage, ob das Beurteilen der Leistungsfähigkeit und Eignung von Personen durch einen Algorithmus ein Feld ist, in dem Algorithmen hilfreich sein können oder ob sie dabei grundsätzliche Probleme haben werden und ob es technisch möglich ist, „vorurteilsfreie“ Algorithmen zu designen:
„Modelle können auf gegebenen Daten durch Kreuzvalidierung evaluiert werden und sind hier mehr oder weniger gut. Da Modelle, die direkt mit historischen Daten trainiert wurden, oft Black-Box Modelle sind, die auf Korrelationen beruhen statt Kausalitäten, sind Biases in den Daten in der Regel ohne entsprechende Maßnahmen in solchen Modellen widergespiegelt. Es existieren Verfahren, solche Biases aus Modellen zu entfernen (siehe etwa [15]) und einige Softwarehersteller von Vermittlungssoftware werben mit so-genannter ‚fairer‘ KI. Dazu müssen allerdings mögliche Dimensionen von Biases, wie mögliche benachteiligte Gruppen, bekannt sein – eine an sich problematische Annahme, da Biases bezogen auf relevante, aber noch nicht thematisierte Gruppen immer bestehen könnten – und zum Teil müssen, ohne ‚Bias‘ ist kein Lernen möglich, da Modelle aus Daten in irgendeiner Weise generalisieren müssen. Dieses ist zum Teil durch die in der Studie vorgeschlagene Matrix thematisiert. Allerdings besteht eine relativ große Diskrepanz zu konkret umsetzbaren technologischen Anforderungen für die KI-Algorithmen.“

Auf die Frage, ob solche Algorithmen vor dem Einsatz von unabhängigen Stellen überprüft werden müssen und was genau auditiert werden sollte:
„Zertifizierungen oder Anforderungen können das Entstehen solcher möglicherweise irreführenden Korrelationen oder Biases offenlegen. Ich persönlich halte dieses Vorgehen allerdings für grundsätzlich problematisch, da Anforderungen nicht wirklich in hinreichender Präzision formalisierbar sind. Eine Auditierung kann möglichen Missbrauch oder auch – das gibt es auch schon – umgekehrt ein Optimieren von Lebensläufen für eine positive Bewertung durch Bewerbungssoftware letztendlich nicht komplett verhindern. Meiner Ansicht nach wäre es hilfreicher, zu verlangen, KI-Verfahren, die keine ‚Black-Box‘ Modelle sind, zu verwenden – dieses ist in Einschränkungen technisch möglich und erlaubt in kanonischer Weise die Kooperation mit menschlichen Entscheidern.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Barbara Hammer: „Diese Aussagen spiegeln meine persönliche Meinung wider. Es liegt kein Interessenskonflikt und kein kommerzielles Interesse vor.“

Alle anderen: Keine Angaben erhalten.

Primärquelle

Sloane M et al. (2022): A Silicon Valley love triangle: Hiring algorithms, pseudo-science, and the quest for auditability. Patterns. DOI: 10.1016/j.patter.2021.100425.

Literaturstellen, die von den Experten zitiert wurden

[1] Textio. Homepage.

[2] ZipRecruiter. Homepage.

[3] Dastin J (11.10.2018): Amazon scraps secret AI recruiting tool that showed bias against women. Reuters.

[4] Li D et al. (2020): Hiring as Exploration. National Bureau of Economic Research. DOI: 10.3386/w27736.

[5] HireVue: HireVue case studies.

[6] Mepham B et al. (2006): Ethical Matrix Manual.

[7] University of St Andrews, School of Computer Science: Socio Technical Systems Engineering Handbook.

[8] Sommerville I (2014): Designing for the Don't Cares: A story about a sociotechnical system. arXiv.
Es handelt sich um eine noch nicht wissenschaftlich begutachtete (peer reviewed) Studie, die daher mit Vorsicht zu behandeln ist.

[9] Europäische Kommission: Excellence and trust in artificial intelligence.

[10] Denton E at al. (2021): Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation. arXiv.
Es handelt sich um eine noch nicht wissenschaftlich begutachtete (peer reviewed) Studie, die daher mit Vorsicht zu behandeln ist.

[11] Crawford K et al.: Excavating AI – The Politics of Images in Machine Learning Training Sets.

[12] AlgorithmWatch (2020): Automating Society.

[13] Strazzulla P (01.02.2022): The Top 13 Best Applicant Tracking Systems (ATS) – 2022. SelectSoftware Reviews.

[14] Koidan K (23.07.2020): 7 AI Companies Revolutionizing Recruiting. Topbots.

[15] Caton S et al. (2020): Fairness in Machine Learning: A Survey. arXiv.
Es handelt sich um eine noch nicht wissenschaftlich begutachtete (peer reviewed) Studie, die daher mit Vorsicht zu behandeln ist.

Weitere Recherchequellen

Heesen J et al. (2021): Kritikalität von KI-Systemen in ihren jeweiligen Anwendungskontexten. Plattform Lernende Systeme.

Loi M et al. (2021): Automated Decision-Making Systems in the Public Sector – An Impact Assessment Tool for Public Authorities. AlgorithmWatch.

Denkfabrik Digitale Arbeitsgesellschaft (2022): Neues Forschungsprojekt: KITQAR entwickelt Qualitätsstandards für KI-Test- und Trainingsdaten. Projekt zum Thema Trainingsdatenqualität am Bundesarbeitsministerium.

Heesen J et al. (2021): Diskriminierung durch Algorithmen vermeiden. Analysen und Instrumente für eine digitale demokratische Gesellschaft. In: Bauer G et al.: Diskriminierung und Antidiskriminierung – Beiträge aus Wissenschaft und Praxis.

Wachter S et al. (2021): Why Fairness Cannot Be Automated: Bridging the Gap Between EU Non-Discrimination Law and AI. Computer Law & Security Review. DOI: 10.2139/ssrn.3547922.