Datenanonymisierung

Der Swiss AI Hub integriert Presidio zur Erkennung und Anonymisierung von persönlich identifizierbaren Informationen (PII) in Benutzerfragen, bevor diese externe LLM-Anbieter erreichen.

Was Presidio schützt

Presidio erkennt PII, die Benutzer versehentlich in ihre Fragen aufnehmen:

„Können Sie diesen Vertrag für John Smith (john.smith@company.com) überprüfen?“
„Wie lautet die Richtlinie für Kreditkarte 4532-1234-5678-9012?“
„Wie verarbeite ich die Rechnung für die Telefonnummer +41 79 123 45 67?“

Ohne Presidio wird diese PII als Teil der API-Anfrage an externe LLM-Anbieter (OpenAI, Google) gesendet.

Funktionsweise

Presidio läuft als Guardrail in der LiteLLM-Proxy-Schicht. Es scannt Benutzerfragen nach PII-Mustern, bevor Anfragen an Sprachmodelle gesendet werden.

Zwei Anonymisierungsmodi:

Der Maskierungsmodus ersetzt erkannte PII durch Platzhalter wie [PERSON] oder [EMAIL_ADDRESS]. Die Frage „Können Sie diesen Vertrag für John Smith überprüfen?“ wird zu „Können Sie diesen Vertrag für [PERSON] überprüfen?“, bevor sie das LLM erreicht. Das Modell kann den Kontext weiterhin verstehen und eine nützliche Antwort generieren.

Der Blockierungsmodus lehnt die gesamte Anfrage ab, wenn bestimmte PII-Typen auftreten. Verwenden Sie dies für hochsensible Daten wie Kreditkartennummern. Der Benutzer erhält eine Fehlermeldung anstelle einer Antwort.

Unterstützte PII-Typen

Presidio erkennt Personennamen, E-Mail-Adressen, Kreditkartennummern, Telefonnummern, Sozialversicherungsnummern, IP-Adressen sowie Daten oder Orte, die Personen identifizieren könnten. Die Erkennung verwendet Musterabgleich, reguläre Ausdrücke und Modelle zur Erkennung benannter Entitäten. Das System unterstützt mehrere Sprachen, darunter Englisch, Deutsch, Französisch und Italienisch.

Konfiguration

Presidio-Guardrails werden in LiteLLM konfiguriert, sind aber standardmäßig deaktiviert. Administratoren aktivieren sie pro Deployment basierend auf den Anforderungen an die Datensensibilität.

Beispiel-Guardrail-Konfiguration:

yaml

guardrails:
  - guardrail_name: "presidio-mask-guard"
    litellm_params:
      guardrail: presidio
      default_on: false
      mode: "pre_call"
      presidio_language: "de"
      output_parse_pii: true
      pii_entities_config:
        PERSON: "MASK"
        EMAIL_ADDRESS: "MASK"

  - guardrail_name: "presidio-block-guard"
    litellm_params:
      guardrail: presidio
      default_on: false
      mode: "pre_call"
      pii_entities_config:
        CREDIT_CARD: "BLOCK"

Konfigurieren Sie, welche PII-Typen maskiert oder blockiert werden sollen, über den Abschnitt pii_entities_config. Setzen Sie default_on: true, um den Guardrail für alle Anfragen zu aktivieren.

Wann Anonymisierung eingesetzt werden sollte

Szenario	Empfehlung
Externe LLM-Anbieter (OpenAI, Google usw.)	Aktivieren Sie Presidio, um Daten zu schützen, bevor sie Ihre Infrastruktur verlassen
Selbstgehostete Modelle On-Premises	Optional – Ihre Daten verlassen niemals Ihre Kontrolle
Benutzergenerierte Inhalte	Aktivieren Sie, wenn Benutzer versehentlich PII einschließen könnten
Vorab bereinigte Daten	Überspringen Sie Presidio, um unnötigen Overhead zu vermeiden
Regulatorische Anforderungen (DSGVO, HIPAA)	Aktivieren Sie, um PII-Schutzmassnahmen zu demonstrieren

Presidio gilt für alle Anfragen, wenn es aktiviert ist. Verwenden Sie den Blockierungsmodus sparsam – nur für hochsensible PII-Typen wie Kreditkarten, bei denen eine strikte Ablehnung und keine Maskierung erforderlich ist.

Überwachung und Alarmierung

Einrichtung des Identitätsanbieters

Microsoft Entra ID

Sources

Datenanonymisierung ​

Was Presidio schützt ​

Funktionsweise ​

Unterstützte PII-Typen ​

Konfiguration ​