Grundlagen von Pipelines
Implementierung mit Dagster
Pipelines werden als Python-Code mit Dagster definiert. Dieser Ansatz ermöglicht:
- Kundenspezifische Verarbeitungslogik für bestimmte Inhaltstypen, Geschäftsregeln oder Qualitätsstandards
- Bedingte Workflows, bei denen die Verarbeitungswege je nach Dokumentinhalt, Quelle oder Klassifizierung variieren
- Fehlerbehandlung für Netzwerkprobleme, Datenanomalien oder Systemausfälle
Pipeline-Code ist über verschiedene Datenquellen und Agenten hinweg wiederverwendbar. Teams können Pipelines erstellen und ändern, ohne den Agenten-Code anpassen zu müssen.
Datenquellen
Die Plattform umfasst einen vorgefertigten SharePoint-Konnektor für die automatisierte Synchronisierung mit SharePoint-Sites und Dokumentenbibliotheken. Dokumente können auch manuell über die Benutzeroberfläche zur Verarbeitung hochgeladen werden.
Benutzerdefinierte Konnektoren für zusätzliche Quellen erfordern die Implementierung von I/O-Managern und Operationen, die spezifisch für Ihre Datenquelle sind, unter Verwendung des Pipeline-SDKs.
Qualitäts- und Sicherheitskontrollen
Pipelines können Validierungs- und Sicherheitsschritte umfassen:
- Die Inhaltsvalidierung prüft eingehende Daten auf Qualität und Vollständigkeit. Dokumente, die die Validierung nicht bestehen, können zur Überprüfung unter Quarantäne gestellt werden.
- Das Security Scanning prüft auf bösartige Inhalte oder Richtlinienverstöße vor der Aufnahme.
- Die Datenbereinigung wendet Transformationsregeln an, um sensible Informationen zu redigieren oder Klassifizierungsrichtlinien durchzusetzen.
Alle Pipeline-Aktionen werden protokolliert, wodurch eine Audit-Spur von der Dokumentenabfrage über die Verarbeitung bis zur Speicherung entsteht.
