Skip to content

Kapitel 06: Datenmanagement, Integration und Ingestion

Kapitelziel

Dieses Kapitel erläutert den ganzheitlichen Ansatz der Plattform zur sicheren Aggregation, Strukturierung und Verarbeitung von Unternehmenswissen aus heterogenen Quellen. Es wird dargelegt, wie Daten durch vielfältige Integrationsmethoden automatisch synchronisiert und unter Berücksichtigung granularer Zugriffskontrollen in eine hierarchische Wissensarchitektur überführt werden. Ein zentraler Schwerpunkt liegt auf der intelligenten Dokumentenverarbeitung, welche Inhalte unabhängig vom Format extrahiert und für eine semantische Suche optimiert aufbereitet. Des Weiteren wird beschrieben, wie durch transparente Quellennachweise und eine lückenlose Daten-Lineage die Nachvollziehbarkeit und Vertrauenswürdigkeit generierter Antworten sichergestellt wird. Abschließend werden die implementierten Validierungs- und Sicherheitsmechanismen beleuchtet, die die Integrität der Datenbasis während des gesamten Aufnahmeprozesses gewährleisten.

Kernaussagen

  • Strukturierte Wissensarchitektur: Die Plattform organisiert Daten in einer hierarchischen Struktur (Collections), die eine logische Trennung nach Abteilungen, Themen oder Sensitivitätsstufen erlaubt und als Basis für die Zugriffssteuerung dient.
  • Kontrolliertes RAG-Scoping: Diese Struktur ermöglicht ein präzises „Collection-Scoping“, wodurch administrativ exakt festgelegt wird, auf welche abgegrenzten Wissenspools die KI für eine Antwort zugreifen darf und welche Daten ausgeschlossen bleiben.
  • Automatisierte Konnektivität: Integrierte Konnektoren für gängige Enterprise-Systeme (z. B. SharePoint, S3-Speicher, Netzwerk-Shares) ermöglichen die automatische Synchronisierung und Indexierung von Inhalten aus heterogenen Quellen.
  • Intelligente Dokumentenverarbeitung (OCR/Chunking): Die Ingestion-Pipeline nutzt OCR und semantisches Chunking, um auch unstrukturierte Daten – einschließlich gescannter PDFs, Bilder oder Tabellen – automatisch zu extrahieren und für KI-Prozesse zu optimieren.
  • Skalierbare Ingestion-Engine: Die Verarbeitungspipeline ist für Enterprise-Anforderungen skaliert und darauf ausgelegt, sowohl sehr große Einzeldateien als auch Millionen von Dokumenten effizient und performant zu verarbeiten.
  • Integritätssicherung beim Upload (Malware Scan): Sicherheitsmechanismen wie die Überprüfung auf Malware sind direkt in den Ingestion-Prozess integriert, um die Integrität der Wissensdatenbank zu schützen, bevor bösartige Dateien verarbeitet werden oder in den Vektor-Store gelangen.
  • Generierung der Datenherkunft (Data Lineage): Bereits während der Datenaufnahme wird die Herkunft (inkl. Versionierung) der Informationen lückenlos dokumentiert; diese Metadaten bilden die Grundlage für die transparente Quellenzitierung in den KI-Antworten.

Umfang

max. 900 Wörter, 3 Seiten

Business-Fragen, die das Kapitel beantwortet

  • Wie organisiere ich meine Unternehmensdokumente strukturiert in der Plattform?
  • Was ist der Unterschied zwischen Datenbanken, Collections und Dokumenten?
  • Wie stelle ich sicher, dass Nutzer nur auf autorisierte Dokumente zugreifen?
  • Kann ich Dokumente nach Abteilung, Projekt oder Thema trennen?
  • Wie funktioniert Collection-Scoping für RAG-Antworten?
  • Welche Möglichkeiten habe ich, bestehende Dokumente in die Plattform zu bringen?
  • Kann die Plattform automatisch mit SharePoint synchronisieren?
  • Unterstützt die Plattform Netzwerk-Shares und File-Server?
  • Wie funktioniert die Integration mit S3-kompatiblen Object-Stores?
  • Kann ich öffentliche Webseiten automatisch crawlen und indexieren?
  • Wie oft werden neue Dokumente automatisch verarbeitet?
  • Welche Dokumentformate werden unterstützt?
  • Kann die Plattform gescannte PDFs und Bilder verarbeiten (OCR)?
  • Wie funktioniert semantisches Chunking?
  • Werden Metadaten automatisch aus Dokumenten extrahiert?
  • Kann die Plattform Tabellen und Grafiken aus Dokumenten verstehen?
  • Wie werden große Dokumente (z.B. 500-seitige PDFs) verarbeitet?
  • Wie werden Tausende von Dokumenten effizient verarbeitet?
  • Wann finden Ingestion-Durchläufe statt (Echtzeit vs. nächtlich)?
  • Wie lange dauert die Verarbeitung eines Dokuments?
  • Kann die Plattform Millionen von Dokumenten verwalten?
  • Wie greift die AI auf Dokumente zu, um Fragen zu beantworten?
  • Woher weiss ich, dass AI-Antworten auf echten Dokumenten basieren?
  • Wie werden Quellenangaben bereitgestellt?
  • Kann ich nachvollziehen, welche Dokument-Chunks für eine Antwort verwendet wurden?
  • Wie funktioniert Versions-Verfolgung für regulatorische Dokumente?
  • Wie werden hochgeladene Dokumente auf Malware geprüft?
  • Schützt die Plattform vor Advanced Persistent Threats (APTs)?
  • Gibt es Größenbeschränkungen für Dokument-Uploads?
  • Wie wird verhindert, dass bösartige Dateien das System kompromittieren?

Built with ❤️ in Switzerland 🇨🇭