November 28, 2022

Branches Tech

Engagé pour la qualité technologique

Apache Doris just ‘graduated’: Why care about this SQL data warehouse

5 min read

Au cas où vous vous demanderiez qui “elle” est et dans quelle école elle est allée, Doris est un entrepôt de données analytiques de traitement massivement parallèle (MPP) open supply basé sur SQL qui était en cours de développement chez Apache Incubator.

La semaine dernière, Doris a obtenu le statut de projet de haut niveau, ce qui, selon l’Apache Program Basis (ASF), signifie qu’« il a prouvé sa capacité à être correctement autogéré ».

L’entrepôt de données a récemment été publié en version 1., sa huitième version en cours de développement à l’incubateur (avec six versions de connecteur). Il a été conçu pour prendre en cost les expenses de travail de traitement analytique en ligne (OLAP), souvent utilisées dans science des données scénarios.

Doris, à l’origine connue sous le nom de Palo, est née au sein du géant chinois de la recherche sur Internet Baidu en tant que système d’entreposage de données pour son activité publicitaire avant d’être open up source en 2017 et d’entrer dans l’incubateur Apache en 2018.

Doris a des racines dans Apache Impala et Google Mesa

Doris, selon Apache Program Basis, est basé sur l’intégration de Google Mesa et Apache Impala, un moteur de requête open supply MPP SQL, développé en 2012 et basé sur les fondements de Google F1.

Mesa, qui a été conçu pour être un système d’entreposage de données analytiques hautement évolutif vers 2014, a été utilisé pour stocker des données de mesure critiques liées aux activités de publicité sur Web de Google.

Selon ses développeurs, tant chez Baidu qu’à l’incubateur Apache, Doris offre une architecture de conception uncomplicated tout en offrant une disponibilité, une fiabilité, une tolérance aux pannes et une évolutivité élevées.

“La simplicité (de développement, de déploiement et d’utilisation) et la pleasure de nombreuses exigences de provider de données dans un seul système sont les principales caractéristiques de Doris”, a déclaré l’Apache Software package Basis dans un communiqué, ajoutant que l’entrepôt de données prend en cost les rapports multidimensionnels, les portraits d’utilisateurs, les publicités. requêtes ponctuelles et tableaux de bord en temps réel.

Certaines des autres fonctionnalités de Doris incluent le stockage en colonnes, l’exécution parallèle, la technologie de vectorisation, l’optimisation des requêtes, ANSI SQL et l’intégration avec les écosystèmes de Large Info through des connecteurs pour Apache Flink, Apache Hive, Apache Hudi, Apache Iceberg, Apache Spark et Elasticsearch, entre autres systèmes.

L’adoption des bases de données open up resource devrait augmenter

On s’attend à ce que l’adoption de bases de données open up source de niveau entreprise augmente. Dans le rapport Point out of the Open up-Resource DBMS Market place 2019 de Gartner, la société de conseil a prédit que in addition de 70 % des nouvelles programs internes seront développées sur un système de gestion de base de données Open up Source (OSDBMS) ou une plate-forme de base de données basée sur OSDBMS. -a-Service (dbPaaS) d’ici fin 2022.

De furthermore, à mesure que les données prolifèrent et que le besoin d’analyse en temps réel des entreprises augmente, une foundation de données de traitement simple mais massivement parallèle, également open resource, semble être le besoin de l’heure.

« À mesure que les volumes de données augmentaient, les bases de données MPP sont devenues le seul moyen réaliste de traiter les données assez rapidement ou à moindre coût pour répondre aux demandes des organisations », a déclaré David Menninger, directeur de recherche chez Ventana Analysis.

L’architecture cloud alimente l’intérêt pour les bases de données MPP

Les autres tendances qui alimentent les bases de données MPP sont la disponibilité d’instances de serveurs basées sur le cloud relativement peu coûteuses, qui peuvent être utilisées dans le cadre de la configuration MPP, éliminant ainsi le besoin de se procurer et d’installer le matériel physique utilisé par ces systèmes, a déclaré Menninger.

Prenant en demand Doris, Menninger a déclaré que bien qu’il existe de nombreuses options de foundation de données MPP, dont certaines sont open up supply, il n’y a pas vraiment d’alternative open up source MPP MySQL.

“MySQL lui-même et MariaDB ont été étendus pour prendre en demand des charges de travail analytiques additionally importantes, mais ils ont été initialement conçus pour le traitement des transactions”, a déclaré Menninger, ajoutant que la base de données open up source PostreSQL Greenplum et les solutions hyperscaler tels que Google BigQuery, Amazon RedShift et Microsoft Synapse pourraient être considérés comme des rivaux de Doris.

En outre, ClickHouse, Apache Druid et Apache Pinot pourraient également être considérés comme des rivaux, a déclaré Sanjeev Mohan, ancien vice-président de la recherche pour le significant info et l’analyse chez Gartner.

Selon la Fondation Apache, l’utilisation de Doris pourrait présenter de multiples avantages, tels que la simplicité architecturale et des temps de requête moreover rapides.

L’une des raisons de la simplicité de Doris est sa non-dépendance à plusieurs composants pour des tâches telles que la gestion des courses, la synchronisation et la communication. Ses temps de requête rapides peuvent être attribués à la vectorisation, un processus qui permet à un programme ou à un algorithme de fonctionner sur plusieurs ensembles de valeurs à la fois plutôt que sur une seule valeur.

Selon les développeurs de la Fondation Apache, un autre avantage de l’entrepôt de données est la prise en demand de la simultanéité extremely-élevée de Doris, ce qui signifie qu’il peut gérer les demandes de dizaines de milliers d’utilisateurs pour traiter les données et obtenir des informations à partir de la base de données en même temps.

Le besoin d’une simultanéité élevée a augmenté parce que la plupart des organisations permettent à leurs employés d’accéder aux données afin de générer des informations basées sur les données, contrairement aux seuls cadres de la suite C ayant accès aux analyses.

Copyright © 2022 IDG Communications, Inc.