Databricks ajoute la gouvernance des données et les fonctionnalités du marché
6 min readParallèlement à l’open resource Delta Lake lors de son sommet annuel Details + AI, le fournisseur de details lake Databricks a lancé mardi un nouveau marché de données ainsi que de nouvelles fonctionnalités d’ingénierie de données.
Le nouveau marché, qui sera disponible dans les mois à venir, permettra aux entreprises de partager des actifs de données et d’analyse tels que des tables, des fichiers, des modèles d’apprentissage automatique, des blocs-notes et des tableaux de bord, a déclaré la société, ajoutant que les données n’ont pas besoin d’être déplacées. ou répliqué à partir du stockage cloud à des fins de partage.
Le marché, selon la société, accélérera l’ingénierie des données et le développement d’applications, car or truck il permet aux entreprises d’accéder à un ensemble de données au lieu d’en développer un et de s’abonner à un tableau de bord pour l’analyse au lieu d’en créer un nouveau.
La place de marché de Databricks permet aux utilisateurs de partager et de monétiser des données
Databricks a déclaré que le marché permettra aux entreprises partageant des actifs de données de les monétiser additionally facilement.
Le nouveau marché ressemble à celui de Snowflake marché des données dans la conception et la stratégie, ont déclaré les analystes.
“Chaque plate-forme d’entreprise majeure (y compris Snowflake) doit disposer d’un écosystème d’applications viable pour être véritablement une plate-forme et Databricks ne fait pas exception. Il cherche à être un marché central pour les actifs de données et doit être considéré comme une opportunité immédiate pour les ISV et les programs. développeurs qui cherchent à construire au-dessus du lac Delta », a déclaré Hyoun Park, analyste en chef chez Amalgam Insights.
En comparant le marché de Databricks à celui de Snowflake, Doug Henschen, analyste principal chez Constellation Exploration, a déclaré que, dans sa forme actuelle, Databricks Info Market est très nouveau et ne traite que du partage de données, à la fois en interne et en externe, contrairement à Snowflake qui a ajouté des intégrations et un aid pour monétisation des données.
Dans un effort pour promouvoir la collaboration de données avec d’autres entreprises de manière sécurisée, la société a déclaré qu’elle introduisait un environnement, baptisé Cleanrooms, qui sera disponible dans les mois à venir.
Une salle blanche de données est un environnement sécurisé qui permet à une entreprise d’anonymiser, de traiter et de stocker des informations personnellement identifiables afin de les mettre ultérieurement à disposition pour la transformation des données d’une manière qui ne viole pas les règles de confidentialité.
Les salles blanches de Databricks fourniront un moyen de partager et de joindre des données entre les entreprises sans avoir besoin de réplication, a déclaré la société, ajoutant que ces entreprises pourront collaborer avec des clientele et des partenaires sur n’importe quel cloud avec la flexibilité d’exécuter des calculs et des rates de travail complexes à l’aide à la fois SQL et science des données outils, y compris Python, R et Scala.
La promesse de se conformer aux normes de confidentialité est une proposition intéressante, a déclaré Park, ajoutant que son check décisif sera son adoption dans les secteurs des expert services financiers, gouvernementaux, juridiques et de la santé qui ont des directives réglementaires strictes.
Databricks met à jour l’ingénierie des données et les outils de gestion
Databricks a également lancé plusieurs ajouts aux outils d’ingénierie de données.
L’un des nouveaux outils, Enzyme, selon la société, est une nouvelle couche d’optimisation pour accélérer le processus d’extraction, de transformation, de chargement (ETL) dans Delta Reside Tables que la société a rendu généralement disponible en avril de cette année.
“La couche d’optimisation est axée sur la prise en cost des pipelines d’intégration de données incrémentielles automatisées à l’aide de Delta Dwell Tables grâce à une combinaison de approach de requête et d’analyse des exigences de modification des données”, a déclaré Matt Aslett, directeur de recherche chez Ventana Analysis.
Et cette couche, selon Henschen, devrait “cocher un autre ensemble de capacités attendues par les consumers qui la rendront as well as compétitive en tant qu’alternative aux plates-formes d’entrepôt de données et de datamart conventionnelles”.
Databricks a également annoncé la prochaine génération de Spark Structured Streaming, baptisée Task Lightspeed, sur sa plate-forme Delta Lake qui, selon elle, réduira les coûts et réduira la latence en utilisant un écosystème étendu de connecteurs.
Databricks fait référence à Delta Lake comme un lac de données, construit sur une architecture de données offrant à la fois des capacités de stockage et d’analyse, contrairement à lacs de données, qui stockent les données au structure natif, et les entrepôts de données, qui stockent les données structurées (souvent au structure SQL) pour une interrogation rapide.
“Les données en streaming sont un domaine dans lequel Databricks se différencie de certains des autres fournisseurs de data lakehouse et apparel de furthermore en additionally l’attention à mesure que les apps en temps réel basées sur les données et les événements en streaming deviennent in addition courantes”, a déclaré Aslett.
La deuxième itération de Spark, selon Park, montre l’intérêt croissant de Databricks pour la prise en demand de resources de données plus petites pour l’analyse et l’apprentissage automatique.
“L’apprentissage automatique n’est as well as seulement un outil pour les mégadonnées massives, mais un précieux mécanisme de rétroaction et d’alerte pour les données en temps réel et distribuées”, a déclaré l’analyste.
De as well as, afin d’aider les entreprises dans la gouvernance des données, la société a lancé le Facts Lineage for Unity Catalog, qui sera généralement disponible sur AWS et Azure dans les semaines à venir.
« La disponibilité générale de Unity Catalog contribuera à améliorer les facets de sécurité et de gouvernance des actifs Lakehouse, tels que les fichiers, les tables et les modèles ML. C’est essentiel pour protéger les données sensibles », a déclaré Sanjeev Mohan, ancien vice-président de la recherche pour le Significant Knowledge et l’analyse. chez Gartner.
La société a également lancé Databricks SQL Serverless (sur AWS) pour offrir un assistance entièrement géré pour maintenir, configurer et faire évoluer l’infrastructure cloud sur le Lakehouse.
Certaines des autres mises à jour incluent une fonctionnalité de fédération de requêtes pour Databricks SQL et une nouvelle fonctionnalité pour SQL CLI, permettant aux utilisateurs d’exécuter des requêtes directement à partir de leurs ordinateurs locaux.
La fonctionnalité de fédération permet aux développeurs et aux scientifiques des données d’interroger des resources de données distantes, notamment PostgreSQL, MySQL, AWS Redshift et d’autres, sans avoir besoin d’extraire et de charger d’abord les données des systèmes resources, a déclaré la société.
Copyright © 2022 IDG Communications, Inc.