Datenintegration in den unternehmensweiten Data Lakehouse

Kunde

Ein global führendes Unternehmen im Bereich Consumer Health.

Herausforderung

Der Kunde hatte Schwierigkeiten, eine einheitliche Sicht auf sein Geschäft zu gewinnen, um Entscheidungsprozesse zu unterstützen. Zu den wichtigsten Herausforderungen gehörten:

Mehrere, voneinander getrennte Datenquellen, einschließlich einiger Legacy- und proprietärer Systeme,
Daten verschiedener Typen und Modalitäten, einschließlich unstrukturierter Daten,
Schlecht verwaltete Stammdaten.

Zusätzlich befanden sich einige der unstrukturierten Daten in Legacy-Systemen, was den Kunden daran hinderte, die neuesten KI-basierten Lösungen zu nutzen, um das in diesen isolierten Systemen verborgene Wissen zu erschließen.

Der Kunde benötigte skalierbare und effiziente Datenpipelines, die ein ordnungsgemäßes Master-Data-Management und Governance fördern und gleichzeitig eine zuverlässige Datenintegration und Analytik zu angemessenen Kosten ermöglichen (unter Berücksichtigung großer Datenvolumina).

Lösung: Datenintegration in den unternehmensweiten Data Lake

1. Einheitlicher Datenzugang
2. Vereinfachte Architektur
3. Skalierbare Ingestion-Pipelines
4. KI-gestützte Datenkatalogisierung
5. Wissensabfrage in natürlicher Sprache

Eine nahtlose Datenintegration unterschiedlicher Quellen in einen zentralisierten Data Lake (auf Basis des Databricks-Technologie-Stacks), um eine Single Source of Truth sicherzustellen und Erkenntnisse im gesamten Unternehmen zu vereinheitlichen.
Nutzte eine moderne Data-Lakehouse-Architektur und setzte ein gemeinsames Integrationsmuster ein, um die Datenarchitektur zu vereinfachen und zu standardisieren.
Entwickelte skalierbare Pipelines, um Daten aus verschiedenen Quellen über mehrere Schnittstellen (einschließlich Datenbank-Connectoren, APIs, dateibasierter Integration usw.) mit einem optimalen Kosten-Leistungs-Verhältnis zu extrahieren.
Führte Datenkatalogisierung durch und generierte Stammdatenentitäten über KI-gesteuerte Datenpipelines, um eine stärkere Data Governance und Datenverwaltung zu ermöglichen.
Ermöglichte ein fortschrittliches RAG auf unstrukturierten Inhalten, um Benutzern zu erlauben, „mit Dokumenten zu sprechen“ und Wissen aus großen Textquellen zu extrahieren.

Zentrale Ergebnisse

Eine skalierbare Datenplattform, die den Best Practices für eine Referenz-Lakehouse-Architektur folgt, vereinfachte die gesamte Datenarchitektur und machte sie leichter verwaltbar sowie einfacher weiter auszubauen.

Eine Single Source of Truth und eine einheitliche Sicht auf das Geschäft ermöglichen eine deutlich breitere Palette an Reporting- und Analytics-Anwendungsfällen für Entscheidungsprozesse.
Ein optimales Kosten-Leistungs-Verhältnis machte selbst die komplexeste Datenverarbeitung erschwinglich und erschloss eine größere Bandbreite an Anwendungsfällen.
GenAI-Technologien ermöglichten eine schnelle Wissensextraktion aus umfangreichen Textdatenbanken, steigerten die Produktivität und eröffneten neue Anwendungsfälle für die F&E-Abteilung.