indexing.rst @ 47

Revision 47, 10.0 KB checked in by nbozon, 13 years ago (diff)
Some more typos corrected -

Rev	Line
[1]	1	.. _indexing:
	2
[40]	3	Partie 14 : L'indexation spatiale
[33]	4	=================================
[1]	5
[47]	6	Rapellez-vous que l'indexation spatiale est l'une des trois fonctionnalitÃ©s clÃ©s d'une base de donnÃ©es spatiales. Les indexes permettent l'utilisation de grandes quantitÃ©s de donnÃ©es dans une base. Sans l'indexation, chaque recherche d'entitÃ© nÃ©cessitera d'accÃ©der sÃ©quentiellement Ã tout les enregistrements de la base de donnÃ©es. L'indexation accÃ©lÃšres les recherche en organisant les donnÃ©es dans des arbres de recherche qui peuvent Ãªtre parcouru efficacement pour retrouver une entitÃ© particuliÃšre.
[1]	7
[47]	8	L'indexation spatiale l'un des plus grands atouts de PostGIS. Dans les exemples prÃ©cÃ©dents, nous avons construit nos jointures spatiales en comparant la totalitÃ© des tables. Ceci peut parfois s'averrer trÃšs coÃ»teux : RÃ©aliser la jointure de deux tables de 10000 enregistrements sans indexation nÃ©cessitera de comparer 100000000 valeurs, les comparaisons requises ne seront plus que 20000 avec l'indexation.
[1]	9
[33]	10	Lorsque nous avons chargÃ© la table ``nyc_census_blocks``, l'outils pgShapeLoader crÃ©e automatiquement un indexe spatial appelÃ© ``nyc_census_blocks_the_geom_gist``.
[1]	11
[33]	12	Pour dÃ©montrer combien il est important d'indexer ses donnÃ©es pour la performance des requÃªtes, essayons de requÃªter notre table ``nyc_census_blocks`` sans utiliser notre indexe.
[1]	13
[47]	14	La premiÃšre Ã©tape consiste Ã supprimer l'index.
[1]	15
	16	.. code-block:: sql
	17
	18	DROP INDEX nyc_census_blocks_the_geom_gist;
	19
	20	.. note::
	21
[33]	22	La commande ``DROP INDEX`` supprime un index existant de la base de donnÃ©es. Pour de plus amples informations Ã ce sujet, consultez la `documentation officielle de PostgreSQL <http://docs.postgresql.fr/9.1/sql-dropindex.html>`_.
[1]	23
[47]	24	Maintenant, regardons le temps d'exÃ©cution dans le coin en bas Ã droite de l'interface de requÃªtage de pgAdmin, puis lanÃ§ons la commande suivante. Notre requÃªte recherche les blocs de la rue Broad.
[1]	25
	26	.. code-block:: sql
	27
	28	SELECT blocks.blkid
	29	FROM nyc_census_blocks blocks
	30	JOIN nyc_subway_stations subways
	31	ON ST_Contains(blocks.the_geom, subways.the_geom)
	32	WHERE subways.name = 'Broad St';
	33
	34	::
	35
	36	blkid
	37	-----------------
	38	360610007003006
	39
[39]	40	La table ``nyc_census_blocks`` est trÃšs petite (seulement quelque millier d'enregistrements) donc mÃªme sans l'index, la requÃªte prends 55 ms sur l'ordinateur de test.
[1]	41
[47]	42	Maintenant remettons en place l'index et lanÃ§ons de nouveau la requÃªte.
[1]	43
	44	.. code-block:: sql
	45
	46	CREATE INDEX nyc_census_blocks_the_geom_gist ON nyc_census_blocks USING GIST (the_geom);
	47
[47]	48	.. note:: l'utilisation de la clause ``USING GIST`` spÃ©cifie Ã PostgreSQL de crÃ©er une structure (GIST) pour cet index. Si vous recevez un message d'erreur ressemblant Ã ``ERROR: index row requires 11340 bytes, maximum size is 8191`` lors de la crÃ©ation, cela signifie sans doute que vous avez omis la clause ``USING GIST``.
[1]	49
[39]	50	Sur l'rdinateur de test le temps d'exÃ©cution se rÃ©duit Ã 9 ms. Plus votre table est grande, plus la diffÃ©rence de temps d'exÃ©cution pour une requÃªte utilisant les indexes augmentera.
[1]	51
[33]	52	Comment les indexes spatiaux fonctionnent
	53	-----------------------------------------
[1]	54
[47]	55	Les indexes des base de donnÃ©es standards crÃ©ent des arbres hierarchiques basÃ©s sur les valeurs des colonnes Ã indexer. Les indexes spatiaux sont un peu diffÃ©rents - ils ne sont pas capables d'indexer des entitÃ©s gÃ©omÃ©triques elles-mÃªme mais indexe leur Ã©tendues.
[1]	56
	57	.. image:: ./indexing/bbox.png
	58
[39]	59	Dans la figure ci-dessus, le nombre de lignes qui intersectent l'Ã©toile jaune est unique, la ligne rouge. Mais l'Ã©tendue des entitÃ©s qui intersectent la boÃ®te jaune sont deux, la boÃ®te rouge et la boÃ®te bleue.
[1]	60
[47]	61	La maniÃšre dont les bases de donnÃ©es rÃ©pondent de maniÃšre efficace Ã la question "Quelles lignes intersectent l'Ã©toile jaune ?" correspond premiÃšrement Ã rÃ©pondre Ã la question "Quelle Ã©tendue intersecte l'Ã©tendue jaune" en utilisant les indexes (ce qui est trÃšs rapide) puis Ã calculer le rÃ©sultat exact de la question "Quelles lignes intersectent l'Ã©toile jaune ?" seulement en utilisant les entitÃ©s retournÃ© par le premier test.
[1]	62
[39]	63	Pour de grandes tables, il y a un systÃšme en "deux Ã©tapes" d'Ã©valuation en utilisant dans un premier temps l'approximation Ã l'aide d'indexes, puis en rÃ©alisant le test exact sur une quantitÃ© bien moins importante de donnÃ©es ce qui rÃ©duit drastiquement le temps de calcul nÃ©cessaire Ã cette deuxiÃšme Ã©tape.
[1]	64
[39]	65	PotGIS et Oracle Spatial partage la mÃªme notion d'index structurÃ© sous la forme "d'arbres R" [#RTree]_. Les arbres R classent les donnÃ©es sous forme de rectangles, de sous-rectangles etc. Cette structure d'index gÃšre automatiquement la densitÃ© et la taille des objets.
[1]	66
	67	.. image:: ./indexing/index-01.png
	68
[39]	69	RequÃªte avec seulement des indexes
	70	----------------------------------
[1]	71
[39]	72	La plupart des fonctions utilisÃ©es par PostGIS (:command:`ST_Contains`, :command:`ST_Intersects`, :command:`ST_DWithin`, etc) prennent en compte les indexes automatiquement. Mais certaines fonctions (comme par exemple : :command:`ST_Relate`) ne les utilisent pas.
[1]	73
[39]	74	Pour utiliser une recherche par Ã©tendue utilisant les indexes (et pas de filtres), vous pouvez utiliser l'opÃ©rateur :command:`&&`. Pour les gÃ©omÃ©tries, l'opÃ©rateur :command:`&&` signifie "l'Ã©tendue recouvre ou touche" de la mÃªme maniÃšre que l'opÃ©rateur :command:`=` sur des entiers signifie que les valeurs sont Ã©gales.
[1]	75
[47]	76	Essayons de comparer une requÃªte avec seulement un indexe pour la population du quartier 'West Village'. En utilisant la commande :command:`&&` notre requÃªte ressemble Ã cela :
[1]	77
	78	.. code-block:: sql
	79
	80	SELECT Sum(popn_total)
	81	FROM nyc_neighborhoods neighborhoods
	82	JOIN nyc_census_blocks blocks
	83	ON neighborhoods.the_geom && blocks.the_geom
	84	WHERE neighborhoods.name = 'West Village';
	85
	86	::
	87
	88	50325
	89
[33]	90	Maintenant essayons la mÃªme requÃªte en utilisant la fonction plus prÃ©cise :command:`ST_Intersects`.
[1]	91
	92	.. code-block:: sql
	93
	94	SELECT Sum(popn_total)
	95	FROM nyc_neighborhoods neighborhoods
	96	JOIN nyc_census_blocks blocks
	97	ON ST_Intersects(neighborhoods.the_geom, blocks.the_geom)
	98	WHERE neighborhoods.name = 'West Village';
	99
	100	::
	101
	102	27141
	103
[47]	104	Un plus faible nombre de rÃ©sultats ! La premiÃšre requÃªte nous renvoit tout les blocs qui intersectent l'Ã©tendue du quartier, la seconde nous renvoit seulement les blocs qui intersectent le quartier lui-mÃªme.
[1]	105
[33]	106	Analyse
[1]	107	---------
	108
[33]	109	Le plannificateur de requÃªte de PostgreSQL choisit intelligemment d'utiliser ou non les indexes pour rÃ©aliser une requÃªte. Il n'est pas toujours plus rapide d'utiliser un index pour rÃ©aliser une recherche : si la recherche doit renvoyer l'ensemble des enregistrements d'une table, parcourir l'index pour rÃ©cupÃ©rer chaque valeur sera plus lent que de parcourir linÃ©airement l'ensemble de la table.
[1]	110
[39]	111	Afin de savoir dans quelle situation il est nÃ©cessaire d'utiliser les idexes (lire une petite partie de la table plutÃŽt qu'une grande partie), PostgreSQL conserve des statistiques relatives Ã la distribution des donnÃ©es dans chaque colonne indexÃ©e. Par dÃ©faut, PostgreSQL rassemble les statistiques sur une base rÃ©guliÃšre. NÃ©namoins, si vous changez dramatiquement le contenu de vos tables dans une pÃ©riode courte, les statisuqes ne seront alors plus Ã jour.
[1]	112
[39]	113	Pour vous assurez que les statistiques correspondent bien au contenu de la table actuelle, il est courrant d'utiliser la commande ``ANALYZE`` aprÃšs un grand nombre de modifications ou de suppression de vos donnÃ©es. Cela force le systÃšme de gestion des statistiques Ã rÃ©cupÃ©rer l'ensemble des donnÃ©es des colonnes indexÃ©es.
[1]	114
[33]	115	La commande ``ANALYZE`` demande Ã PostgreSQL de parcourir la table et de mettre Ã jour les statistiques utilisÃ©es par le plannificateur de requÃªtes (la plannification des requÃªtes sera traitÃ© utiltÃ©rieurement).
[1]	116
	117	.. code-block:: sql
	118
	119	ANALYZE nyc_census_blocks;
	120
[33]	121	NÃ©ttoyage
[1]	122	---------
	123
[33]	124	Il est souvent stressant de constater que la simple crÃ©ation d'un indexe n'est pas suffisant pour que PostgreSQL l'utilise efficacement. Le nettoyage doit Ãªtre rÃ©alisÃ© aprÃšs qu'un indexe soit crÃ©Ã© ou aprÃšs un grand nombre de requÃªtes UDATE, INSERT ou DELETE est Ã©tÃ© rÃ©alisÃ© sur une table. La commande ``VACUUM`` demande Ã PostgreSQL de rÃ©cupÃ©rer chaque espace non utilisÃ© dans les pages de la table qui sont laissÃ© en l'Ã©tat lors des requÃªtes UPDATE ou DELETE Ã cause du modÃšle d'estapillage multi-versions.
[1]	125
[33]	126	Le nettoyage des donnÃ©es est tellement important pour une utilisation efficace du serveur de base de donnÃ©es PostgreSQL qu'il existe maintenant une option "autovacuum".
[1]	127
[47]	128	ActivÃ©e par dÃ©faut, le processus autovacuum nettoie (rÃ©cupÃšre l'espace libre) et analyse (met Ã jour les statistiques) vos tables suivant un interval donnÃ© dÃ©terminÃ© par l'activitÃ© des bases de donnÃ©es. Bien que cela fonctionne avec les bases de donnÃ©es hautement transactionnelles, il n'est pas supportable de devoir attendre que le processus autovacuum se lance lors de la mise Ã jour ou la suppression massive de donnÃ©es. Dans ce cas, il faut lancer la commande ``VACUUM`` manuellement.
[1]	129
[47]	130	Le nettoyage et l'analyse de la base de donnÃ©es peut Ãªtre rÃ©alisÃ© sÃ©parÃ©ment si nÃ©cessaire. Utiliser la commande ``VACUUM`` ne mettra pas Ã jour les statistiques alors que lancer la commande ``ANALYZE`` ne rÃ©cupÃšrera pas l'espace libre des lignes d'une table. Chacune de ces commandes peut Ãªtre lancÃ©e sur l'intÃ©gralitÃ© de la base de donnÃ©es, sur une table ou sur une seule colonne.
[1]	131
	132	.. code-block:: sql
	133
	134	VACUUM ANALYZE nyc_census_blocks;
	135
[33]	136	Liste des fonctions
	137	-------------------
[1]	138
[33]	139	`geometry_a && geometry_b <http://postgis.org/docs/ST_Geometry_Overlap.html>`_: retourne TRUE si l'Ã©tendue de A cheuvauche celle de B.
[1]	140
[33]	141	`geometry_a = geometry_b <http://postgis.org/docs/ST_Geometry_EQ.html>`_: retourne TRUE si l'Ã©tendue de A est la mÃªme que celle de B.
[1]	142
[33]	143	`ST_Intersects(geometry_a, geometry_b) <http://postgis.org/docs/ST_Intersects.html>`_: retourne TRUE si l'objet Geometrie/Geography "intersecte spatiallement" - (ont une partie en commun) et FALSE sinon (elles sont dijointes).
[1]	144
	145	.. rubric:: Footnotes
	146
	147	.. [#RTree] http://postgis.org/support/rtree.pdf
	148

Note: See TracBrowser for help on using the repository browser.

PostGIS.fr

Bienvenue sur PostGIS.fr

source: trunk/workshop-foss4g/indexing.rst @ 47

Download in other formats: