Azure Data Factory ist der ETL-Clouddienst von Azure für die serverlose Datenintegration und Datentransformation mit horizontaler Skalierung. Der Dienst bietet eine Benutzeroberfläche ohne Code für die intuitive Erstellung sowie Überwachung und Verwaltung über eine zentrale Konsole. Sie können vorhandene SSIS-Pakete auch per Lift & Shift in Azure übertragen und bei voller Kompatibilität in ADF ausführen.
In Zeiten von Big Data werden unorganisierte Rohdaten häufig in relationalen, nicht relationalen und anderen Speichersystemen gespeichert. Für sich genommen mangelt es den Rohdaten allerdings an Kontext bzw. an der nötigen Aussagekraft, um von Analyst*innen, Datenspezialist*innen oder Entscheidungsträger*innen in Unternehmen sinnvoll genutzt werden zu können.
Für Big Data ist ein Dienst zur Orchestrierung und Operationalisierung von Prozessen erforderlich, mit dem diese enormen Rohdatenmengen in verwertbare geschäftliche Erkenntnisse verwandelt werden. Azure Data Factory ist ein spezieller verwalteter Clouddienst für diese komplexen Hybridprojekte mit ETL (Extrahieren, Transformieren und Laden), ELT (Extrahieren, Laden und Transformieren) und Datenintegration.
Die Azure Data Factory-Plattform ist der cloudbasierte ETL- und Datenintegrationsdienst, mit dem Sie datengesteuerte Workflows erstellen können, um Datenverschiebungen und -transformationen bedarfsgesteuert zu orchestrieren. Mit Azure Data Factory können Sie datengesteuerte Workflows (so genannte Pipelines) erstellen und planen, die Daten aus unterschiedlichen Datenspeichern erfassen. Sie können komplexe ETL-Prozesse erstellen, bei denen Daten visuell mit Datenflüssen oder mit Computediensten wie Azure HDInsight Hadoop, Azure Databricks und Azure SQL-Datenbank transformiert werden.
Außerdem können Sie Ihre transformierten Daten in Datenspeichern, z. B. Azure Synapse Analytics, veröffentlichen, damit sie von BI-Anwendungen (Business Intelligence) genutzt werden können. Über Azure Data Factory können Rohdaten letztendlich in aussagekräftigen Datenspeichern und Data Lakes organisiert und für bessere geschäftliche Entscheidungen genutzt werden.
Data Factory bietet eine codefreie Datenintegrations- und Transformationsebene, die all Ihre Initiativen für digitale Transformation unterstützt.
Azure Data Factory unterstützt Unternehmen bei der Modernisierung von SSIS.
Die Datenerfassung aus mehreren unterschiedlichen Quellen kann kosten- und zeitaufwändig sein, manchmal auch mehrere Lösungen erfordern. Azure Data Factory bietet einen einzelnen Dienst mit nutzungsbasierter Bezahlung. Sie haben folgende Möglichkeiten:
Mit Azure Data Factory erfassen Sie Daten aus lokalen, hybriden und Multicloud-Quellen. Der nächste Schritt: Transformieren Sie diese in Azure Synapse Analytics.
Mit Azure Data Factory rehosten Sie SQL Server Integration Services (SSIS) mit ein paar Klicks, außerdem erstellen Sie codefrei ETL- / ELT-Pipelines mit integrierter Git- sowie CI/CD-Unterstützung.
Mit Azure Data Factory nutzen Sie einen vollständig verwalteten, serverlosen Clouddienst, der bedarfsgesteuert skaliert sowie nutzungsbasiert abgerechnet wird.
Azure Data Factory bietet zur Erfassung aller lokalen und SaaS (Software-as-a-Service)-Daten mehr als 90 integrierten Konnektoren. Nutzen Sie die bedarfsgesteuerte Orchestrierung und Überwachung.
Azure Data Factory bietet autonomes ETL, um die betriebliche Effizienz zu steigern und Integratoren ohne Programmiererfahrung zu unterstützen.
Die von areto entwickelte Referenzarchitektur bietet viele Vorteile.
Die Verwendung der Referenzarchtiketur von areto bietet den Kund*innen architektonische Best Practices für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter und kostengünstiger Systeme in der Cloud. aretos Architekturlösungen werden dabei konsequent an Microsoft Best Practices gemessen, um so den Kund*innen den höchsten Nutzen zu liefern.
Die areto Referenzarchitektur basiert auf fünf Säulen: Operational Excellence, Sicherheit, Zuverlässigkeit, Leistungseffizienz, Kostenoptimierung.
Operational Excellence
Optimale Gestaltung von Betrieb und Monitoring der Systeme sowie kontinuierliche Verbesserung unterstützender Prozesse und Verfahren
Security
Schutz von Informationen, Systemen, Anlagen, Risikobewertungen und Strategien zur Risikominderung
Kostenoptimierung
Maximierung des ROI durch den kontinuierlichen Prozess der Verbesserung des Systems über seinen gesamten Lebenszyklus
Zuverlässigkeit
Gewährleistung von Sicherheit, Notfallwiederherstellung, zur Geschäftskontinuität, da Daten an mehreren redundanten Standorten gespiegelt werden
Leistungseffizienz
Effiziente Nutzung von Computerressourcen, Skalierbarkeit um kurzfristige Anforderungspeaks zu erfüllen, Zukunftsfähigkeit
Gartner, Magic Quadrant for Cloud Infrastructure & Platform Services, Raj Bala, Bob Gill, Dennis Smith, Kevin Ji, David Wright, 27 July 2021. Gartner and Magic Quadrant are registered trademarks of Gartner, Inc. and/or its affiliates in the U.S. and internationally and is used herein with permission. All rights reserved. Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings. Gartner research publications consist of the opinions of Gartner’s research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
This graphic was published by Gartner, Inc. as part of a larger research document and should be evaluated in the context of the entire document. The Gartner document is available upon request from AWS. Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings or other designation. Gartner research publications consist of the opinions of Gartner’s research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
Mit den Microsoft-Expertenteam von areto zur data driven company!
Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?
kostenfreie Beratung & Demotermine
Haben Sie schon eine Strategie für Ihre zukünftige Micrsoft Data Analytics-Lösung? Nutzen Sie bereits die Vorteile moderner Cloud Plattformen und Automatisierungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kund*innen die agilen und skalierbaren Microsoft-Lösungen von areto bereits nutzen.
Workshops / Coachings
Sie erhalten in unseren Microsoft Workshops und Coachings das nötige Know-how z.B. für den Aufbau einer modernen Cloud-Strategie oder eines IBCS-konformen Reportings mit Power BI . Das areto Microsoft-TrainingCenter bietet eine breite Auswahl an Lerninhalten.
Proof of Concepts
Herstellen einer Verbindung / Sammeln von Daten
In Unternehmen sind verschiedene Arten von Daten in unterschiedlichen Quellen gespeichert (lokal, in der Cloud, strukturiert, unstrukturiert als auch teilweise strukturiert), meist gehen alle in unterschiedlichen Intervallen, mit unterschiedlicher Geschwindigkeit ein.
Der erste Schritt bei der Erstellung eines Informationssystems für die Produktion umfasst das Herstellen der Verbindung mit allen erforderlichen Daten- sowie Verarbeitungsquellen, z.B. SaaS-Dienste (Software-as-a-Service), Datenbanken, Dateifreigaben und FTP-Webdienste. Der nächste Schritt umfasst das Verschieben der Daten an einen zentralen Ort zur weiteren Verarbeitung. Ohne Data Factory müssen Unternehmen benutzerdefinierte Komponenten für die Datenverschiebung erstellen oder benutzerdefinierte Dienste schreiben, um diese Datenquellen und die Verarbeitung zu integrieren. Das Integrieren bzw. Verwalten dieser Systeme ist teuer und aufwändig. Häufig fehlen für Unternehmen geeignete Überwachungs- , Warnfunktionen sowie die Steuerungsmöglichkeiten eines vollständig verwalteten Diensts.
Mit Data Factory können Sie die Kopieraktivität in einer Datenpipeline nutzen, um Daten sowohl aus lokalen als auch aus cloudbasierten Quelldatenspeichern zur weiteren Analyse in einen zentralen Datenspeicher in der Cloud zu verschieben. Beispielsweise können Sie Daten in Azure Data Lake Storage sammeln und später transformieren, indem Sie einen Azure Data Lake Analytics-Computedienst verwenden. Außerdem können Sie Daten in Azure Blob Storage sammeln und später per Azure HDInsight Hadoop-Cluster transformieren.
Transformieren / Erweitern
Wenn Daten in einem zentralisierten Datenspeicher in der Cloud vorliegen, können Sie die gesammelten Daten mit ADF-Zuordnungsdatenflüssen verarbeiten oder transformieren. Mit Datenflüssen können Datentechniker Graphen für die Datentransformation erstellen sowie verwalten, die unter Spark ausgeführt werden, ohne mit Spark-Clustern oder der Spark-Programmierung vertraut sein zu müssen.
Falls Sie das manuelle Codieren von Transformationen vorziehen: ADF unterstützt externe Aktivitäten zur Ausführung Ihrer Transformationen mit Computediensten, z. B. HDInsight Hadoop, Spark, Data Lake Analytics, Machine Learning.
CI/CD und Veröffentlichung
Data Factory verfügt über vollständige Unterstützung von CI/CD für Ihre Datenpipelines per Azure DevOps und GitHub. Dies ermöglicht Ihnen das inkrementelle Entwickeln und Bereitstellen Ihrer ETL-Prozesse vor der Veröffentlichung des fertigen Produkts. Nachdem die Rohdaten in einem für Unternehmen nutzbaren Format vorliegen, laden Sie sie mit Azure Data Warehouse, Azure SQL-Datenbank, Azure CosmosDB oder einer anderen Analyse-Engine, auf die Ihre Benutzer*innen in ihren Business Intelligence-Tools verweisen können.
Überwachen
Nachdem Sie Ihre Pipeline für die Datenintegration erfolgreich erstellt und bereitgestellt haben um einen geschäftlichen Nutzen aus den optimierten Daten zu ziehen, können Sie die geplanten Aktivitäten als auch Pipelines auf Erfolgs- und Fehlerraten überwachen. Azure Data Factory bietet integrierte Unterstützung für die Pipelineüberwachung per Azure Monitor, API, PowerShell, Azure Monitor-Protokolle und Integritätsbereiche im Azure-Portal.
Allgemeine Konzepte
Ein Azure-Abonnement kann über mindestens eine Azure Data Factory-Instanz (bzw. Data Factory) verfügen. Azure Data Factory besteht aus den folgenden Hauptkomponenten:
Zusammen stellen sie die Plattform dar, auf der Sie datengesteuerte Workflows mit Schritten zum Verschieben sowie Transformieren von Daten zusammenstellen können.