Neben Thomas Müller, dem Fußballspieler, gibt es rund 50.000 Leute mit gleichen Namen in Deutschland. Das ist kein Problem, da sich die alle in der Wirklichkeit leicht voneinander unterscheiden lassen. Das Problem stellt sich für die Polizei, die nicht nur Leute in der WIRKLICHKEIT sieht, sondern vor allem auch ‚Datensätze‘ über Personen in ihren Informationssystemen. Also kam der Wunsch auf, dass es doch Hilfsmittel geben müsste, um Personen-Datensätze mit ähnlichen Namensbestandteilen auf Übereinstimmungen zu untersuchen: Die Idee vom ‚Kreuztreffer‘ war geboren.
Um das Ende gleich vorweg zu nehmen: Entscheidend für die Nützlichkeit und Tragfähigkeit von Kreuztreffern ist die fachliche Begleitung und technische Realisierung. Wenn es an beidem mangelt, wird aus dem Kreuztreffer-Verfahren ein Verdachts-Generierungs-Algorithmus – der Betroffene in schlimmste Probleme bringen kann und Polizeibediensteten nur noch mehr Arbeit macht. | Lesedauer: Ca. 7 Minuten
Wissenswertes über Kreuztreffer
Kreuztreffer spielen eine Rolle beim automatischen Abgleich von Datensätzen. Es werden Datensätze daraufhin untersucht, ob in verschiedenen Datensätzen gleichartige Begriffe in gleichen oder unterschiedlichen Datenfeldern/Merkmalsbedeutungen vorkommen.
Der Abgleich auf Kreuztreffer wird insbesondere bei Polizei- und Sicherheitsbehörden eingesetzt. Dahinter steckt die Überlegung, dass EIN- UND DIESELBE Person in der Wirklichkeit u.U. mit verschiedenen Personalien-Angaben in den verwendeten Datenbanken erfasst sein kann [Dazu mehr in A]. Das kann der Fall sein
- innerhalb des gleichen Informationssystems (z.B. Vorgangsbearbeitungssystem einer Polizeibehörde)
- oder wenn Datensätze von Personen abgeglichen werden sollen, die in unterschiedlichen, aber verwandten Informationssystemen vorkommen, wie z.B. im Vorgangsbearbeitungssystem des Landes X und dem gemeinsamen Auskunfts- und Fahndungssystem aller deutschen Polizeibehörden – INPOL-Z
Mit solchen Kreuztreffer-Algorithmen (von „KI“ – künstlicher Intelligenz sollte man dabei meiner Ansicht nach noch nicht sprechen …) sollen Datensätze miteinander abgeglichen werden, wenn zu unterstellen ist, dass identifizierende Merkmale – insbesondere über Personen –
- bei der Erfassung nicht exakt bekannt waren,
- oder dass Erfassungsvarianten – auch Schreibfehler und unterschiedliche Schreibweisen von gleich klingenden Begriffen (Homonymen, wie z.B. Schmidt/Schmitt oder Maier/Meyer/Mayer… – vorliegen können,
- oder dass Informationen aus verschiedenen Informationssystemen miteinander abgeglichen werden sollen und im jeweiligen Informationssystem unterschiedliche Erfassungsregeln galten. Das ist z.B. der Fall beim Abgleich zwischen Fluggastdaten und polizeilichen Informationssystemen [B].
Ein Kreuztreffer liegt dann vor, wenn gleiche Begriffe gefunden werden, die in den untersuchten Datensätzen in gleichen oder unterschiedlichen Merkmalsbedeutungen vorkommen, wie z.B. in den folgenden Beispielen:
Familienname: Berthold | Vorname: Berthold |
Familienname: Hahn | Geburtsort: Hahn |
Vor- und Nachteile der Kreuztrefferei
Betreiber und manche Nutzer von Informationssystemen versprechen sich von der Kreuztrefferei, dass dem suchenden Nutzer damit auch mehr potenzielle Treffer angeboten werden und damit eine Hilfe angezeigt wird, um Personen-Datensätze anzuzeigen, die sich – möglicherweise – auf EIN- UND DIESELBE PERSON in der Wirklichkeit beziehen.
Die Kreuztrefferei hat aber auch erheblicheNachteile für den Benutzer
- Wer SUCHFRAGEN in einem Informationssystem formuliert, will damit die Menge der möglichen Treffer EINGRENZEN auf die, die ihn wirklich interessieren. Mit der Kreuztrefferei wird die Zahl potenzieller Treffer dagegen ausgeweitet. Es erscheinen auch solche vermeintlichen Treffer, die mit dem an sich gesuchten Objekt tatsächlich nur zufällig in einem bestimmten Merkmalsbegriff (Otto / Berthold / Hahn) übereinstimmen. Wobei in der wirklichen Welt zwischen den so ausgewiesenen Treffern keinerlei Übereinstimmung bestehen muss. Sie sind also völlig irrelevant!
- Wenn dann noch hinzukommt, dass dem Benutzer eines solchen Informationssystems gar nicht bewusst ist, dass er/sie nicht nur Ergebnisse der eigenen Suchfragen präsentiert bekommt, sondern auch von einem Algorithmus im Hintergrund produzierte Kreuztreffer, dann wird das Fundament, auf dem weitere „Erkenntnisse“ gewonnen und polizeiliche Entscheidungen getroffen werden, extrem brüchig!
Probleme mit der der Kreuztrefferei
Ob Verfahren zum Aufspüren von Kreuztreffern Fluch oder Segen sind, hängt entscheidend von der fachlichen und technischen Qualität ihrer Implementierung ab:
Fachliche Aspekte
Damit sind vor allem Aspekte gemeint, die sich aus der Erfahrung mit und der Art des Datenmaterials ergeben, das zur Bildung von Kreuztreffern herangezogen wird:
Die Zahl der notwendigerweise übereinstimmenden Merkmale darf nicht zu gering sein
Damit überhaupt eine Wahrscheinlichkeit der Übereinstimmung von Personen angenommen werden kann, die in unterschiedlichen Datensätzen dargestellt sind, muss es übereinstimmende Begriffe in einer SIGNIFIKANTEN ANZAHL von relevanten Merkmalen geben.
Dazu dieses Beispiel: Thomas Müller, der Fußballspieler, sagt auf seiner Webseite, dass es rund 50.000 weitere Thomas Müllers in Deutschland gibt.
Es soll Kreuztreffer-Verfahren in deutschen Polizeibehörden geben, die einen Kreuztreffer schon dann ausweisen, wenn NUR ZWEI Merkmalsbegriffe in den Personalien verschiedener Datensätze übereinstimmen. Wobei, auch das muss noch erwähnt werden, für die Kreuztrefferei nicht nur Führungs- und rechtmäßige Personalien herangezogen werden, sondern auch noch sämtliche Alias-Personalien.
Beim Fußballspieler Thomas Müller ergäben sich aufgrund seiner rechtmäßigen=Führungspersonalie also zigtausende von Kreuztreffern allein aufgrund des übereinstimmenden Vor- und Familiennamens. Weitere Merkmale, wie Geburtsdatum und Geburtsort, ZUSAMMEN mit dem häufigen Familiennamen ‚Müller‘ und dem seit vielen Jahren unter den Top20 der Vornamen rangierenden ‚Thomas‘ würde jedoch noch zu sehr viel mehr Kreuztreffern führen, wie die folgende Skizze nur andeutet …
Wie umgehen polizeiliche Informationssysteme das Signifikanz-Problem?
- Die Verantwortlichen für das polizeiliche Verbundsystem INPOL wissen um das Problem mit der notwendigen Zahl von Merkmalen: Daher werden bei INPOL für eine konkrete SUCHfrage mindestens drei Suchkriterien verlangt (z.B. Familienname, Vorname, Geburtsdatum).
- Langjährige Erfahrung besagt, dass die Angabe von VIER Personalien-Bestandteilen in der großen Mehrzahl der Personalien nur EINEN Treffer produziert. Doch selbst das ist bei häufig vorkommenden Vor- und Nachnamen und Geburtsort in Großstädten nicht sicher.
- Im Informationssystem POLYGON wird bei der Anlage eines Personen-Datensatzes automatisch eine künstliche Bezeichnung gebildet, die aus familienname_vorname_geburtsdatum_geburtsort besteht, also im Fall des Fußballspielers Müller_Thomas_19890913_Weilheim.
Bei der Neu-Anlage jedes Personen-Datensatzes wird vom System automatisch geprüft, ob es schon eine Person(alie) im System gibt, die mit den neuen Namensbestandteilen übereinstimmt. Darüber wacht der so genannte Wachtdog (auch so ein „Algorithmus“). Wenn er feststellt, dass es ein so benanntes Personenobjekt schon gibt, erhält der Benutzer einen Hinweis. Er muss dann ein weiteres, unterscheidendes Merkmal vergeben, das Bestandteil der künstlichen Objektbezeichnung wird, z.B. Müller_Thomas_19890913_Weilheim_2.
Die für den Abgleich verwendeten Merkmale sollten nicht zigtausendfach vorkommen
Das Beispiel Müller macht es schon deutlich: Eine knappe Million Leute in Deutschland heißen Müller. Auch bei den Vornamen gibt es Moden, die sich in der Häufung der gleichen Vornamen niederschlagen. In einer Millionenstadt, wie Berlin, Hamburg, Köln oder München geboren worden zu sein, erhöht auch nicht gerade die Eindeutigkeit des Namens. Hans Müllers oder Thomas Müllers oder Christian Müllers gibt es in jeder dieser Großstädte schockweise.
Kreuztreffer-Implementierungen, die sich mit gerade einmal ZWEI übereinstimmenden Merkmalen begnügen UND von denen einer dann „Müller“ ist, haben – rein statistisch gesehen – eine wesentlich größere Wahrscheinlichkeit einen Kreuztreffer zu produzieren. Der ist mit hoher Wahrscheinlichkeit völlig irrelevant und erhöht damit die Arbeit für den verantwortungsvoll handelnden Polizeibeamten nur unnötig. Letzterer müsste dann nämlich überprüfen, ob auch in der WIRKLICHKEIT eine Identität zwischen den ausgewiesenen vom Kreuztreffer getroffenen Personen besteht.
Das unbekannte Geburtsdatum von Asylbewerbern als Verstärkung für die Wahrscheinlichkeit von Kreuztreffern
2015/2016, das waren die Jahre, in denen sehr viele Asylbewerber nach Deutschland kamen und erfasst wurden. Bei sehr vielen war das genaue Geburtsdatum nicht bekannt. Daher wurde als Standardwert „19920101“, also der 1. Januar 1992 eingesetzt. Der tiefere, quasi technische Grund dahinter besteht darin, dass IRGENDEIN Geburtsdatum eingegeben werden MUSSTE und dass unbekannt“ aufgrund des vorgeschriebenen Datenformats (nur Datum!) nicht eingegeben werden KANN. Also wurde der Standardwert ‚19920101‘ vorgegeben.
Dieses scheinbar präzise Geburtsdatum ‚19920101‘ kommt als Geburtsdatum also in (zig-)tausenden von Datensätzen von Asylbewerbern vor, obwohl ‚unbekannt‘ richtiger gewesen wäre. Daher hat ein solches Geburtsdatum nicht die geringste Signifikanz für einen Kreuztreffervergleich.
Ich halte es für geradezu fahrlässig, das Standard-Geburtsdatum für Asylbewerber = 19920101 für einen Kreuztreffer-Abgleich heranzuziehen. In Kombination mit häufig vorkommenden Namensbestandteilen, wie ‚Amed‘ oder ‚Mohammed‘, ‚Ali‘ oder ‚Mehmed‘ bei gleichzeitiger Verwendung von NUR ZWEI Merkmalen, die übereinstimmen müssen, um einen Kreuztreffer zu produzieren, MUSS sich eine Menge von irrelevanten Kombinationen ergeben, die für eine Eingrenzung auf bestimmte Personen völlig ungeeignet sind. Bei diesem Vorgehen werden zahlreiche potenzielle Treffer ausgewiesen, die es dem Benutzer nur schwerer machen zu bestimmen, welcher von den zahlreichen ausgewiesenen potenziellen Kandidaten nun tatsächlich IN DER WIRKLICHKEIT mit seiner näher betrachteten Person aufweist identisch ist.
Unscharf gemachte Merkmale für die Kreuztrefferei
Ich hörte vor kurzem von einem Kreuztreffer-Verfahren, das die Irrelevanz der Ergebnisse auf die Spitze treibt. Da wird angeblich abgeglichen zwischen den Merkmalen der Zielperson und Führungs- und Alias-Personalien in anderen Personen-Datensätzen. Das ist vollkommen legitim.
Bei allen Alias-Personalien, die zum Abgleich herangezogen werden, soll allerdings auch schon dann ein Kreuztreffer ausgewiesen werden, wenn lediglich das JAHR des Geburtsdatums übereinstimmt (also im obigen Beispiel vom ‚19920101‘ nur noch ‚1992‘ übrig bleibt!). Das ist – meiner Ansicht nach – fachlich einfach nur inkompetent und unverantwortlich und ähnelt eher einem Verdachts-Generierungs-Algorithmus, als einem sinnvollen Eingrenzungsverfahren auf mögliche Namensübereinstimmungen.
Denn bei diesem Verfahren müssten sich dann doch HUNDERTE oder TAUSENDE von Kreuztreffern ergeben aufgrund dieses Datums bzw. irgend eines Geburtsdatums im Jahr 1992 (‚1992*‘) und Namensbestandteilen, wie ‚Amed‘ oder ‚Mohammed‘, ‚Ali‘ oder ‚Mehmed‘ u.a., die bei Asylbewerbern häufig vorkommen …
Wenn zu einem solchen Verfahren auch noch hinzukommt, dass die Benutzer eines Systems, in dem solche Algorithmen wirken, NICHT WISSEN oder NICHT DARAN DENKEN, DASS bzw. OB und WIE im Hintergrund Kreuztreffer ihr Wesen treiben, dann verdient eine solches System die Bezeichnung ‚polizeiliches FEHLINFORMATIONSsystem‘.
Kreuztreffer als Möglichkeit zur Hypothesenbildung – ganz anderer Art …
Andererseits, auch diese Folge soll nicht unerwähnt bleiben, sieht der Benutzer bei diesem Vorgehen natürlich auch einen Strauß von potenziell identischen Personen (mit seiner Zielperson) und kann in Folge davon u.U. auch Einblick erlangen in die weitergehende polizeiliche Historie solcher potenziell identischer Personen – einschließlich offener Haftbefehle und Fahndungsnotierungen.
Ansätze für eine technisch saubere Implementierung eines Kreuztreffer-Algorithmus
Die grobe Anforderungsspezifikation eines solchen Verfahrens würde hier zu weit führen und SIE vermutlich langweilen. Einige Eckpunkte möchte ich dennoch erwähnen:
- Verwendung einer ausreichenden Anzahl von Merkmalen/Kriterien in einer ersten Prozessstufe
- Eliminierung im Rohergebnis der ersten Prozessstufe von unsignifikanten, weil zu häufig vorkommenden „Allerweltsbegriffe“, wie häufig vorkommende Familien- und Vornamen, Namen von Großstädten als Geburtsort und – vor allem – Aussondern eines Erfassungs-Standardwertes, wie ‚19920101‘ als in Frage kommendes Geburtsdatum.
Einen solchen Watchdog auf Identitäten TECHNISCH funktionsfähig und fachlich effektiv und nutzbringend zu implementieren ist nicht trivial. Es erfordert die Zusammenarbeit zwischen der polizeilichen Fachlichkeit und kompetenten Entwicklern, eine Spezifikation, die diesen Namen auch verdient, sowie Zeit und Geld. „Quick and dirty“, wie es in der Technik heißt, Schnellschüsse also, wie die oben beschriebenen, dagegen rächen sich …
Vielleicht ergäbe sich ja Verbesserungspotenzial für das zugrunde liegende Problem – nämlich die Datenqualität bei Personalien – auch auf einem ganz anderen Gebiet: Mehr Sorgfalt bei den Erfassungskräften, größeres Bewusstsein um die Wichtigkeit dieser Informationen und um die möglichen Folgen von Fehlern und – vor allem – bessere Kenntnis über das Informationssystem, mit dem es der Polizbeamte bzw. -beschäftigte zu tun hat und über dessen Funktionen und Schwachstellen und zeitnahe Beseitigung von vorhandenen und zu polizei-fachlich gravierenden Fehlern führende Fehlfunktionen.
Disclaimer
Die Autorin dieses Artikels war zwischen 1993 und 2013 Projektleiterin für das polizeiliche Informationssystem POLYGON und in diesem Zusammenhang leitende Entwicklerin von Fachanwendungen für Einsatz von POLYGON in der Polizei. Die Sicherstellung zwischen Personen in der Wirklichkeit und ihrem „Abbild“ im polizeilichen Datensystem war dabei ein ständiges Thema, ebenso wie die Eindeutigkeit des Abbilds EINER Person in der Wirklichkeit durch EINEN (und NUR EINEN) Datensatz im System.
Verwandte Artikel
[A] Personen und Identitäten – in Datenbanken der Polizei und in der Wirklichkeit
https://police-it.net/personen-und-identitaeten-in-datenbanken-der-polizei-und-in-der-wirklichkeit
https://police-it.net/erste-erfahrungen-mit-dem-fluggastendaten-informationssystem
Trotz 99% irrelevanter Treffer beim Abgleich von Fluggastdaten: Fluggastdaten: Bundesregierung erkennt „Kein Verbesserungspotenzial!“
https://police-it.net/fluggastdaten_bundesregierung_erkennt_kein_verbesserungspotenzial
Copyright und Nutzungsrechte
(C) 2020 CIVES Redaktionsbüro GmbH
Sämtliche Urheber- und Nutzungsrechte an diesem Artikel liegen bei der CIVES Redaktionsbüro GmbH bzw. bei dem bzw. den namentlich benannten Autor(en). Links von anderen Seiten auf diesen Artikel, sowie die Übernahme des Titels und eines kurzen Textanreißers auf andere Seiten sind zulässig, unter der Voraussetzung der korrekten Angabe der Quelle und des/der Namen des bzw. der Autoren. Eine vollständige Übernahme dieses Artikels auf andere Seiten bzw. in andere Publikationen, sowie jegliche Bearbeitung und Veröffentlichung des so bearbeiteten Textes ohne unsere vorherige schriftliche Zustimmung ist dagegen ausdrücklich untersagt.