indexing.rst @ 63

Revision 62, 10.0 KB checked in by thomasg, 12 years ago (diff)
Fin correction typo et orthographe V2 du document

Partie 14 : L'indexation spatiale

Rapellez-vous que l'indexation spatiale est l'une des trois fonctionnalitÃ©s clÃ©s d'une base de donnÃ©es spatiales. Les index permettent l'utilisation de grandes quantitÃ©s de donnÃ©es dans une base. Sans l'indexation, chaque recherche d'entitÃ© nÃ©cessitera d'accÃ©der sÃ©quentiellement Ã tous les enregistrements de la base de donnÃ©es. L'indexation accÃ©lÃšre les recherches en organisant les donnÃ©es dans des arbres de recherche qui peuvent Ãªtre parcourus efficacement pour retrouver une entitÃ© particuliÃšre.

L'indexation spatiale l'un des plus grands atouts de PostGIS. Dans les exemples prÃ©cÃ©dents, nous avons construit nos jointures spatiales en comparant la totalitÃ© des tables. Ceci peut parfois s'avÃ©rer trÃšs coÃ»teux : rÃ©aliser la jointure de deux tables de 10000 enregistrements sans indexation nÃ©cessitera de comparer 100000000 valeurs, les comparaisons requises ne seront plus que 20000 avec l'indexation.

Lorsque nous avons chargÃ© la table nyc_census_blocks, l'outil pgShapeLoader crÃ©e automatiquement un index spatial appelÃ© nyc_census_blocks_the_geom_gist.

Pour dÃ©montrer combien il est important d'indexer ses donnÃ©es pour la performance des requÃªtes, essayons de requÃªter notre table nyc_census_blocks sans utiliser notre index.

La premiÃšre Ã©tape consiste Ã supprimer l'index.

DROP INDEX nyc_census_blocks_the_geom_gist;

Note

La commande DROP INDEX supprime un index existant de la base de donnÃ©es. Pour de plus amples informations Ã ce sujet, consultez la documentation officielle de PostgreSQL.

Maintenant, regardons le temps d'exÃ©cution dans le coin en bas Ã droite de l'interface de requÃªtage de pgAdmin, puis lanÃ§ons la commande suivante. Notre requÃªte recherche les blocs de la rue Broad.

SELECT blocks.blkid
FROM nyc_census_blocks blocks
JOIN nyc_subway_stations subways
ON ST_Contains(blocks.the_geom, subways.the_geom)
WHERE subways.name = 'Broad St';

      blkid
-----------------
 360610007003006

La table nyc_census_blocks est trÃšs petite (seulement quelque milliers d'enregistrements) donc mÃªme sans l'index, la requÃªte prends 55 ms sur l'ordinateur de test.

Maintenant remettons en place l'index et lanÃ§ons de nouveau la requÃªte.

CREATE INDEX nyc_census_blocks_the_geom_gist ON nyc_census_blocks USING GIST (the_geom);

Note

l'utilisation de la clause USING GIST spÃ©cifie Ã PostgreSQL de crÃ©er une structure (GIST) pour cet index. Si vous recevez un message d'erreur ressemblant Ã ERROR: index row requires 11340 bytes, maximum size is 8191 lors de la crÃ©ation, cela signifie sans doute que vous avez omis la clause USING GIST.

Sur l'ordinateur de test le temps d'exÃ©cution se rÃ©duit Ã 9 ms. Plus votre table est grande, plus la diffÃ©rence de temps d'exÃ©cution pour une requÃªte utilisant les index augmentera.

Comment les index spatiaux fonctionnent

Les index des bases de donnÃ©es standards crÃ©ent des arbres hiÃ©rarchiques basÃ©s sur les valeurs des colonnes Ã indexer. Les index spatiaux sont un peu diffÃ©rents - ils ne sont pas capables d'indexer des entitÃ©s gÃ©omÃ©triques elles-mÃªme mais ils indexent leur Ã©tendues.

Dans la figure ci-dessus, le nombre de lignes qui intersectent l'Ã©toile jaune est unique, la ligne rouge. Mais l'Ã©tendue des entitÃ©s qui intersectent la boÃ®te jaune sont deux, la boÃ®te rouge et la boÃ®te bleue.

La maniÃšre dont les bases de donnÃ©es rÃ©pondent de maniÃšre efficace Ã la question "Quelles lignes intersectent l'Ã©toile jaune ?" correspond premiÃšrement Ã rÃ©pondre Ã la question "Quelle Ã©tendue intersecte l'Ã©tendue jaune" en utilisant les index (ce qui est trÃšs rapide) puis Ã calculer le rÃ©sultat exact de la question "Quelles lignes intersectent l'Ã©toile jaune ?" seulement en utilisant les entitÃ©s retournÃ©es par le premier test.

Pour de grandes tables, il y a un systÃšme en "deux Ã©tapes" d'Ã©valuation en utilisant dans un premier temps l'approximation Ã l'aide d'index, puis en rÃ©alisant le test exact sur une quantitÃ© bien moins importante de donnÃ©es ce qui rÃ©duit drastiquement le temps de calcul nÃ©cessaire Ã cette deuxiÃšme Ã©tape.

PotGIS et Oracle Spatial partage la mÃªme notion d'index structurÃ© sous la forme "d'arbres R" [1]. Les arbres R classent les donnÃ©es sous forme de rectangles, de sous-rectangles etc. Cette structure d'index gÃšre automatiquement la densitÃ© et la taille des objets.

RequÃªte avec seulement des index

System Message: WARNING/2 (<string>, line 70)

Title underline too short.

RequÃªte avec seulement des index
--------------------------------

La plupart des fonctions utilisÃ©es par PostGIS (:command:`ST_Contains`, :command:`ST_Intersects`, :command:`ST_DWithin`, etc) prennent en compte les index automatiquement. Mais certaines fonctions (comme par exemple : :command:`ST_Relate`) ne les utilisent pas.

System Message: ERROR/3 (<string>, line 72); backlink