Antidoublons `{!doublons}` vs Tableau `#ARRAY` : dans quels cas utiliser l’un ou l’autre ?

Thiébaut

Mars 2015

Pour réunir en un seul panier les objets sélectionnés par différentes boucles... et récupérer ensuite cette récolte dans une autre boucle, on peut :

Utiliser l’antidoublons... par exemple
1. Avec {doublons panier}, je prélève objets souhaités, dans mes différentes boucles de sélection, tout en éliminant les éventuels doublons ;
2. On récupère ensuite le contenu de son panier dans une boucle de restitution avec {!doublons panier}
Utiliser les tableaux... par exemple
1. Avec #SET{panier,#ARRAY}, je déclare un tableau avant ma boucle
2. Puis dans ma boucle de sélection, avec #SET{panier,#GET{panier}|push{#ID_OBJET}}, je mémorise dans ce tableau les identifiants des objets sélectionnés
3. Enfin, avec le critère {id_objet IN #GET{panier}}, on reprend la sélection dans une autre boucle

A priori, l’antidoublons est plus rapide à coder pour (presque) le même résultat... tandis que le tableau semble avoir l’avantage de conserver l’ordre dans lequel on y a mis (avec |push) les clés des éléments.

Dans quel cas privilégier l’une ou l’autre de ces techniques ? Selon la quantité d’informations à traiter, laquelle des deux serait plus performante côté serveur ?

Et puis, si le tableau permet de savoir que l’on sélectionne par exemple les identifiants des objets ou les titres... ou autre... que sélectionne le mystérieux {doublons} ? Uniquement les identifiants des objets ?

Merci par avance !

Résolu

Par note Par date Par date chronologique

Indiquez l’intérêt que vous portez à cette réponse

0
Mars 2015
Dans le cadre d’un panier c’est pas un doublons mais une quantité, apres tu fais bien ce que tu veux :)

sinon lorsqu’on push dans un tableau il faut bien le nettoyer un peu :
```
[(#GET{panier}|array_unique)] 
```
Indiquez l’intérêt que vous portez à cette réponse

0

Mars 2015

[(#GET{panier}|array_unique)]
mais le mieux amha c’est doublons qui doit correspondre a un
SELECT DISTINCT id_chose FROM table ;
Indiquez l’intérêt que vous portez à cette réponse

0

Mars 2015

j’utilise jamais doublon mais en fait je viens de relire et tu fais au moins 2 boucles donc a priori c’est pas terrible le mieux c’est un critère perso

qui fasse SELECT DISTINCT id_chose FROM table ;

Apres si dans une table panier t’as 2 fois le même objet pour la même personne dans le mm panier y a un problème de conception. Si t’ajoute un objet dans un panier c’est sa quantité qui doit changer. Il devrait y avoir une contrainte d’unicité pour empêcher ça.

Dans le monplugin_administration on peut ’déclarer’ une contrainte comme ça :
sql_alter("TABLE spip_panier ADD UNIQUE id_objet (id_objet, objet, id_auteur)) // Un auteur ne peux pas avoir 2 fois le mm produit dans son panier
Et dans la fonction d’ajout panier il faudrait une insertion sql :
"ON DUPLICATE KEY UPDATE"

qui veut dire que si la clef existe on incremente une la valeur ’qte’ de + qte ajouté.

My deux sous
Indiquez l’intérêt que vous portez à cette réponse

0

Thiébaut

Mars 2015

En fait quand je dis "panier", c’est une image. Car il s’agit d’articles ou de documents, pas de produits. C’était juste pour savoir quelle était la meilleure méthode par exmple pour faire un "coup de lasso" sur des articles, dans plusieurs boucles, selon des critères distinct... puis de traiter tous ces articles dans une boucle de restitution, qui les affichera selon de nouvelles règles.
Indiquez l’intérêt que vous portez à cette réponse

0

Thiébaut

Mars 2015

Il n’y a donc pas de question de quantité.
Indiquez l’intérêt que vous portez à cette réponse

0
Thiébaut

Mars 2015
Je repose donc mon exemple, pour éviter la confusion avec les paniers :
- Utiliser l’antidoublons.
  Avec {doublons imagesdefleurs}, je sélectionne des images de fleurs dans mes différentes boucles de sélection (par exemple la première cherche les images dans telle rubrique, la deuxième cherche celles d’un auteur en particulier) tout en éliminant les éventuels doublons ;
  On récupère ensuite le contenu de son panier dans une boucle de restitution avec {!doublons imagesdefleurs}
- Utiliser les tableaux
  Avec #SET{imagesdefleurs,#ARRAY}, je déclare un tableau avant ma boucle de sélection (il vide pour l’instant)
  Puis dans ma boucle de sélection, avec #SET{imagesdefleurs,#GET{imagesdefleurs}|push{#ID_DOCUMENT}}, je mémorise dans ce tableau les identifiants des images sélectionnées
  Enfin, avec le critère {id_document IN #GET{imagesdefleurs}}, on reprend la sélection dans une autre boucle
Laquelle de ces deux méthodes est préférable ?
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Je me heurte à un problème analogue en SPIP 3.0.15 (dans mon cas c’est un problème, pas une question) :
- J’ai une liste de 27 critères statiques dans un #ARRAY déroulés par une boucle DATA
- A l’intérieur de cette boucle DATA, je compte avec une boucle ARTICLES les articles dans la base qui remplissent ce critère. Cette boucle imbriquée est donc exécutée 27 fois.
- Dans cette boucle imbriquée, le nombre d’articles ainsi que des informations additionnelles sont rangées dans un #ARRAY à deux dimensions à l’aide de |push{#LISTE{}}.
- Enfin, une dernière boucle DATA reprend ce tableau et affiche les résultats. Elle est donc exécutée au plus 27 fois.
Cette méthode ressemble un peu à la seconde que décrit Thiébaut.

Mon soucis est qu’elle est d’une extrême lenteur. Pour donner un ordre d’idée, elle prend environ 800ms sur mon serveur.

Une technique "sauvage" consistant à faire une seule boucle ARTICLES (qui me sort environ 800 articles) puis à trier et compter les résultats avec du PHP en dur dans le code prend à peu près 70ms.

J’obtiens le même temps en restant en SPIP mais en déroulant toute ma boucle (donc une succession de 27 boucles ARTICLES) avec les critères en dur sans utiliser d’#ARRAY. C’est un code volumineux et particulièrement sale, mais il va vite.

En essayant de voir ce qui se passe, j’arrive pour le moment à la conclusion que l’essentiel de la lenteur est causée par la manipulation des #ARRAY.

Je ne sais pas quelle utilisation des #ARRAY est si lente. Mes tableaux sont à 2 dimensions ? Est-ce le |push ? Peut-être une syntaxe comme :#GET{motif}|table_valeur{#GET{cpt}} ?

En tous cas, ça coince... Et pour répondre à la question, {doublons} est probablement meilleur du point de vue de la vitesse.
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Pour avancer sur ce sujet qui me travaille. Je pense que le problème n’est pas dans la gestion des #ARRAY mais dans la balise #SET (qu’il est inévitable d’utiliser si on a des #ARRAY)

Donc, sur un serveur dédié, je fais les expériences suivantes :
- squelette ultra-minimal
- je mesure le temps de compilation/génération/réception d’une page contenant une boucle de 802 itérations (l’appel de la page en l’absence de cache)
- la mesure est faite avec Chrome (qui sort les mêmes résultats que var_mode=debug mais c’est pour être sûr et comme je mesure le temps total, Chrome va bien.)
Voici donc le squelette de départ :
<html><head></head><body> <BOUCLE_articles(ARTICLES){id_secteur=9}> #SET{variable,#TITRE} </BOUCLE_articles> </body></html>
Le temps total de réception de cette page (incluant donc la compilation et l’exécution du php résultant) est d’environ 120ms.

Maintenant, je rajoute des espaces devant le #SET ; 10 par exemple. Cela me donne :
<html><head></head><body> <BOUCLE_articles(ARTICLES){id_secteur=9}> #SET{variable,#TITRE} </BOUCLE_articles> </body></html>
Le temps de réception de la page passe à 930ms !!
Si au lieu de rajouter 10 espaces devant, je saute 10 lignes, c’est aussi 930ms. Si j’entoure le #SET de [()] c’est poil plus long encore.

Voici les résultats en augmentant le nombre d’espaces :
- 10 espaces : 930ms
- 20 espaces : 3.06s
- 40 espaces : 11.2s
- 80 espaces : 30.02s
Le temps n’est pas loin du carré du nombre d’espaces qui précèdent la balise #SET !

Si je mets autre chose que des espaces, par exemple :
<html><head></head><body> <BOUCLE_articles(ARTICLES){id_secteur=9}> le petit chat est mort[(#SET{variable,#TITRE})] </BOUCLE_articles> </body></html>
le temps de génération redescend à 140ms (il y a du texte à écrire donc c’est un peu plus long que sans rien).

Conclusions :
- Il y a un bug quelque-part dans le compilateur de mon SPIP 3.0.15
- En l’état, il ne doit pas y avoir d’espaces ni de sauts de ligne avant le début de la balise #SET sans quoi la pénalité de temps de compilation de la page peut devenir important. Autrement dit, l’indentation fait mal...
- Dans mon message précédent, j’indentais mon code. Les performances mesurées étaient donc très dégradées. C’est ce qui m’a fait croire que le problème venait des #ARRAY.
J’ai essayé rapidement avec d’autres balises, #GET par exemple et pour le moment, je n’en ai trouvé aucune autre avec ce comportement.
Indiquez l’intérêt que vous portez à cette réponse

0

Pierrox

Mars 2015

Vous pouvez tester plutôt :
[(#SET{variable,#GET{variable}|push{#ID_ARTICLE}})] [(#SET{variable,#GET{variable}|push{#ID_ARTICLE}})]
pas de difference en theorie ;
Quand la balise #SET n’est pas entre "crochet parenthèse" le compilateur doit passer du temps à bien parcourir et interpréter chaque ligne : :)
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Pas de problème brain_damage, voici les résultats :
<html><head></head><body> #SET{variable,#ARRAY} <BOUCLE_articles(ARTICLES){id_secteur=9}> [(#SET{variable,#GET{variable}|push{#ID_ARTICLE}})] </BOUCLE_articles> </body></html>
=> Temps de génération de la page : environ 110ms

Avec les espaces (il y en a 13 dans votre exemple) :
<html><head></head><body> #SET{variable,#ARRAY} <BOUCLE_articles(ARTICLES){id_secteur=9}> [(#SET{variable,#GET{variable}|push{#ID_ARTICLE}})] </BOUCLE_articles> </body></html>
=> Temps de génération de la page : environ 1.38s

Cela correspond à ce que j’écrivais plus haut, les [()] ne changent pas grand chose et l’#ARRAY lui-même n’est pas en cause, c’est la balise #SET.

Au passage, la construction :
<html><head></head><body> #SET{variable,#ARRAY} <BOUCLE_articles(ARTICLES){id_secteur=9}> [ (#SET{variable,#GET{variable}|push{#ID_ARTICLE}})] </BOUCLE_articles> </body></html>
est générée/affichée en environ 110ms, c’est à dire la durée normale.

Pour aller plus loin, le temps de génération évolue peu ou prou comme le carré du nombre d’espaces inutiles produits. Comment est-ce possible ???.
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Ayé, j’ai trouvé ! c’est la compression HTML. La boucle empile des espaces que le compresseur HTML met un temps quadratique à effacer.

Je comprends maintenant :)

Le compilateur n’aurait jamais dû empiler des espaces inutiles que le compresseur s’échine à effacer après :( Si on fait des boucles à beaucoup de tours et qu’on laisse des espaces inutiles, le HTML produit va être énorme :
- si le compresseur est activé, ça peut être d’une lenteur à pleurer
- si le compresseur n’est pas activé, la page HTML va être énorme et mettra beaucoup de temps à être transmise.
A tous les coups on perd. Il ne faut éviter au maximum les espaces inutiles dans les boucles qui font beaucoup de tours. Tout sur une seule ligne :(
Indiquez l’intérêt que vous portez à cette réponse

0

Thiébaut

Mars 2015

Si je comprends bien, cela signifie qu’avec ou sans compression, il faut mieux virer les espaces (ou tabulations inutiles )dans les boucles ? C’est pourtant si pratique pour la lisibilité du code. Je vais faire des essais en ce sens.

Mais je reprends ma question première, pour laquelle j’ai peut-être un élément de réponse, non vérifié, ici :
Subject : Re : Variable dans un critère doublons
Newsgroups : gmane.comp.web.spip.zone

Où il est dit, je cite

mieux vaut oublier doublons qui est très très gourmand.

Alors quelqu’un l’a t-il déjà vérifié ?

Par exemple une comparaison entre...

Avec #ARRAY
[(#REM)A. Je mémorise les id des mots des articles de la rub 1] #SET{montableaudemots,#ARRAY} <BOUCLE_motsarticles_(MOTS){id_article}{id_rubrique=1}> #SET{montableaudemots,#GET{montableaudemots}|push{#ID_MOT}} </BOUCLE_motsarticles> [(#REM)B. Je mémorise les id des mots de doc de la rub 5] <BOUCLE_motsdocuments_(MOTS){id_document}{id_rubrique=5}> #SET{montableaudemots,#GET{montableaudemots}|push{#ID_MOT}} </BOUCLE_motsdocuments> [(#REM)C. J'affiche les titres de tous ces mots] <BOUCLE_listedesmots_(MOTS){id_mot IN #GET{mots_choisis}}> #TITRE </BOUCLE_listedesmots>
Avec l’antidoublons
[(#REM)A. Je mémorise les id des mots d'articles de la rub 1] <BOUCLE_motsarticles_(MOTS){id_article}{id_rubrique=1}{doublons mots}/> [(#REM)B. Je mémorise les id des mots de doc de la rub 5] <BOUCLE_motsdocuments_(MOTS){id_document}{id_rubrique=5}{doublons mots}/> [(#REM)C. J'affiche les titres de tous ces mots] <BOUCLE_listedesmots_(MOTS){!doublons mots}> #TITRE </BOUCLE_listedesmots>
La deuxième méthode, avec antidoublons, est moins longue à écrire, mais si elle est plus gourmande...
Indiquez l’intérêt que vous portez à cette réponse

0

Thiébaut

Mars 2015

Oups, Edit... pour ceux qui ne connaitraient pas #ARRAY : dans mon premier exemple, une erreur de copié-collé s’est glissée ligne 13 : lire #GET{montableaudemots} au lieu de #GET{mots_choisis}

Mel

Mars 2015

Oui, la compression HTML pose problème et perturbe considérablement l’interprétation. Ceci dit, voici la mesure toujours sur un dédié avec SPIP 3.0.15.

J’ai légèrement modifié les boucles pour faciliter la mesure que j’ai réalisée toujours avec Chrome sur un groupe de 1442 mot-clés.

Cas n°1 : avec des #ARRAY

<html><head></head><body>
[(#REM)A. Je mémorise les id des mots de la 1ère moitié du groupe 11]
#SET{montableaudemots,#ARRAY}
<BOUCLE_motsarticles(MOTS){id_groupe=11}{0,721}>
#SET{montableaudemots,#GET{montableaudemots}|push{#ID_MOT}}
</BOUCLE_motsarticles>

[(#REM)B. Je mémorise les id des mots de la 2e moitié du groupe 11]
<BOUCLE_motsdocuments(MOTS){id_groupe=11}{722,1442}>
#SET{montableaudemots,#GET{montableaudemots}|push{#ID_MOT}}
</BOUCLE_motsdocuments>

[(#REM)C. J'affiche les titres de tous ces mots]
<BOUCLE_listedesmots(MOTS){id_mot IN #GET{montableaudemots}}>
#TITRE
</BOUCLE_listedesmots></body></html>

Résultat : temps complet de génération/réception de la page = environ 260ms dont 40ms causés par la compression HTML => 220ms pour le calcul proprement dit.

Cas n°2 : avec des doublons :

<html><head></head><body>
[(#REM)A. Je mémorise les id des mots du groupe 11]
<BOUCLE_motsarticles(MOTS){id_groupe=11}{doublons mots}/>

[(#REM)B. Je mémorise les id des mots du groupe 11]
<BOUCLE_motsdocuments(MOTS){id_groupe=11}{doublons mots}/>

[(#REM)C. J'affiche les titres de tous ces mots]
<BOUCLE_listedesmots(MOTS){id_groupe=11}{!doublons mots}>
#TITRE
</BOUCLE_listedesmots></body></html>
</body></html>

Résultat : temps complet de génération/réception de la page = environ 170ms. La compression HTML ne prend pas de temps grâce à la fermeture raccourcie des deux premières boucles doublons.

Conclusion : ici la méthode "doublons" va nettement plus vite que la méthode #ARRAY. J’observe donc le contraire de ce qu’a écrit toutati dans la liste précédemment citée.

Indiquez l’intérêt que vous portez à cette réponse

0

Thiébaut

Mars 2015

Bonjour Mel, en fait, je n’utilise pas la compression html et le site que j’administre, valleeducousin.fr, est sous spip 3.0.17

Mais il est probable que la différence des temps de calculs soit la même ? Je veux dire, en défaveur de #ARRAY ? Cela m’arrange, car l’antidoublons est globalement plus simple à utiliser et convient dans la plupart des cas.

Toutefois, ce que j’ai cru comprendre, c’est que compression html ou pas, il faut éviter les espaces dans les boucles ? Ou seulement avant les balises #SET / #GET ?

Je vais essayer de faire des tests de mon côté, car j’ai apparemment des problèmes de vitesse de calcul de page à améliorer...
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Bonjour Thiébaut, je découvre à mesure que je réponds :)

On est dans un effet de bord qui peut mener au désastre... Les constructions doublons/antidoublons ont l’air plus efficaces que celles à base d’#ARRAY mais ce n’est pas une différence majeure. Là où ça tue, c’est quand on se retrouve à faire sans le savoir des boucles qui génèrent des quantités importantes de caractères parasites. Et cela arrive très facilement avec les #ARRAY.

Il y a quelques temps j’ai remplacé un code PHP tout sale intégré à ma homepage par du joli code SPIP à base d’#ARRAY. J’avais l’espoir que le cache soit mieux géré et par conséquent, que ma page se charge plus vite (c’est ce que disent tous les articles : « ne mixez pas le PHP et le langage SPIP, c’est un péché mortel »). Mais horreur, ma page mettait maintenant des secondes à se charger. J’en ai déduit abusivement que les #ARRAY étaient inexploitables dès lors que les boucles faisaient beaucoup de tours.

En fait ce n’est pas tout à fait ça. Certes les codes à base de #ARRAY ne sont pas des foudres de guerre, mais quand on les utilise on peut se faire abuser par les espaces et les retours chariots qu’on est amené à insérer sans même s’en douter.

Pour commencer, toutes les boucles de la forme <BOUCLEx(){}> blabla </BOUCLEx> émettent des caractères à chaque tour. Au minimum, il y a un retour chariot à chaque tour => un octet donc. Par conséquent, la boucle suivante qui boucle sur une un groupe de 1442 mot-clés sans rien faire :
<html><head></head><body> <BOUCLE_motsarticles(MOTS){id_groupe=11}> </BOUCLE_motsarticles> </body></html>
produit un résultat d’un peu plus de 1442 octets.

On ne fait pas en général des boucles à beaucoup de tours de ce type, sauf si on utilise des #ARRAY car dans ce cas, l’objectif est d’affecter des variables dans la boucle pour faire le tri plus tard. Elles ressemblent donc à ça :
<BOUCLE_x(TABLE){critères}> #SET{tableau,#GET{tableau}|push{#BALISE}} </BOUCLE_x>
Cette boucle n’est pas censée afficher quoique soit, et on ne s’attend pas à ce que des caractères soient émis. D’ailleurs, lorsque le compresseur HTML est activé, la boucle ne sort effectivement rien.

Mais comme toutes les boucles dans la forme décrite précédemment, elle émet des caractères parasites. Dans cet exemple, c’est un retour chariot à chaque tour de boucle. En pratique donc :
<html><head></head><body> #SET{tableau,#ARRAY} [(#REM) Passe en revue les 1442 mots du groupe 11] <BOUCLE_motsarticles(MOTS){id_groupe=11}> #SET{tableau,#GET{tableau}|push{#ID_MOT}} </BOUCLE_motsarticles> </body></html>
produit une page d’un peu plus de 1442 octets que le compresseur HTML va redescendre à 40 octets.

Disons que là mon écriture était serrée et que je veuille faire « plus propre » en indentant :
<html> <head> </head> <body> #SET{tableau,#ARRAY} [(#REM) Passe en revue les 1442 mots du groupe 11] <BOUCLE_motsarticles(MOTS){id_groupe=11}> #SET{tableau,#GET{tableau}|push{#ID_MOT}} </BOUCLE_motsarticles> </body> </html>
Booom ça me pète à la figure : la page produite fait maintenant 18.4ko dont 1.4ko de retours chariot et 17ko d’espaces inutiles !
Le compresseur HTML va toujours redescendre la page à 40 octets, mais malheureusement, il fait avec une performance désastreuse. Il met 3.7s à supprimer ces 18.4ko de cochonneries. Cette petite boucle de rien rend mon site presque inexploitable ! Par chance, je n’indente pas beaucoup :)

Si la base est petite (quelques dizaines d’articles, quelques mot-clés etc.) il n’y a pas de problème, les boucles ne feront jamais beaucoup de tours. Il n’y aura pas beaucoup de caractères parasites et tout se passera bien. Mais si le site commence à prendre de l’importance avec des milliers d’éléments, c’est critique.

Il y a plusieurs solutions pour s’en sortir lorsqu’on a besoin de faire des boucles à beaucoup de tours :
- utiliser des constructions de boucle qui ne produisent pas de caractères parasites comme tes boucles à doublons/antidoublons
- ne pas indenter, tout sur la même ligne
- minifier soi-même avec la balise #FILTRE
En ce qui concerne le compresseur HTML de SPIP :
SPIP 3 utilise la librairie Minify de Stephen Clay. Elle a quasiment une performance quadratique : doubler le nombre d’espaces à supprimer lui prend presque 4 fois plus de temps. J’ai l’impression de voir où est le problème dans le code : les protections de SCRIPT, STYLE, PRE, TEXTAREAs et INPUT utilisent des expressions régulières où on recherche d’éventuels espaces avant et après ce qui tue la perf. Je ne vois pas l’intérêt de rechercher des espaces avant et après, mais comme les auteurs de SPIP n’y ont pas touché, c’est peut-être plus compliqué que ça...
Indiquez l’intérêt que vous portez à cette réponse

0
Thiébaut

Mars 2015
Merci pour ces précisions... que je vais essayer de reformuler pour être sûr d’avoir bien compris :
1. Dans les cas où l’on a le choix entre antidoublons et #ARRAY
  Constat : l’anti-doublons semble plus efficace, même dans les boucles à faible nombre de tours ;
  Cause : #SET{tableau,#GET{tableau}|push{#BALISE}} génère des caractères parasites à chaque tour de boucle... (dans le meilleur des cas, celui d’un code non indenté, ces parasites sont de simples retours chariots) alors que doublons/antidoublons ne génère aucun parasite ;
  Solution préconisée : privilégier doublons/anti-doublons chaque fois que possible
2. Quand on est obligé d’utiliser #ARRAY
  Constat : le ralentissement est d’autant plus problématique que la boucle contenant #SET{tableau,#GET{tableau}|push{#BALISE}} a un nombre de tours important... et s’aggrave considérablement si le code a été indenté ;
  Cause : les caractères parasites s’accumulent à chaque tour de boucle... ce qui est d’autant plus grave quand le code a été indenté pour des questions de lisibilité : en effet, les indentations s’ajoutent aux retours chariots ;
  Solution la moins performante, curieusement : activer la compression html permet de supprimer les caractères parasites... mais curieusement, en prenant son temps pour des raisons supposées encore incertaines ;
  Solution performante la plus simple : ne pas indenter son code pour limiter le nombre de caractères parasites aux retours chariots (c’est déjà ça) ;
  Solution performante la plus aboutie : garder les indentations... et minifier soi-même le résultat du squelette avec #FILTRE.
Au-delà de doublons vs #ARRAY, quand on sait que toutes les boucles de la forme <BOUCLEx(){}> blabla </BOUCLEx> émettent des caractères à chaque tour (au minimum un retour chariot)... et de l’autre que la compression html n’est apparemment pas si performante que cela, doit-on en déduire que les deux dernières solutions proposées pour gérer ce phénomène (pas d’indentation, ou utilisation de #FILTRE), en lieu et place de la compression html, pourraient êtres également préconisées pour tous les squelettes ?

Et dans ce cas, que mettre dans #FILTRE{} pour supprimer ces parasites (espaces, tabulations) ? Je veux dire uniquement les parasites ?

Merci par avance
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Bonjour Thiébaut,

Oui ton résumé synthétique ne me semble pas mal.

La balise #FILTRE permet de faire la minification HTML soi-même avant d’appliquer éventuellement le compresseur HTML de SPIP. La méthode est expliquée sur cette page : http://www.paris-beyrouth.org/tutoriaux-spip/article/objectif-pagespeed-100-100-avec

Mon code pour la fonction mini_html est le suivant :
function mini_html($texte) { $texte = preg_replace(",\s+,"," ", $texte); $texte = preg_replace(",\n[\n\t\s]*,", "\n", $texte); return $texte; }
Une fois la page minifiée par cette fonction un peu barbare, on peut appliquer sans risque le compresseur HTML de SPIP qui finit le travail. Il n’a plus en entrée d’éléments de nature à lui faire perdre les pédales et il est très efficace. En conséquence, la vitesse de génération est convenable et la page générée est très petite.

Attention cependant, mon code ne protège pas les constructions qui pourraient en avoir besoin. C’est ainsi qu’elle peut casser les script, les textarea, les input etc. qui se trouvent dans la page HTML. Elle empêche par exemple un player mediaelements.js de fonctionner correctement (l’appel au player est du javascript écrit dans la page HTML).

En fait, il faudrait protéger certaines constructions de la minification "sauvage". Or x’est justement ce que fait parfois très lentement le compresseur HTML intégré à SPIP 3.0. Mais il n’est pas question de réécrire un minificateur complet et fiable pour contourner les problèmes de vitesse de celui intégré à SPIP.

Heureusement, dans mon cas, je m’en sort :
- mes boucles qui font beaucoup de tours sont dans des sous-squelettes inclus.
- ces sous-squelettes se limitent à ces fonctions d’analyse et de tri. Ils ne contiennent pas de javascript, de textareas ou d’autres constructions qui ne supportent pas la minification sauvage de mon #FILTRE{mini_html}.
- en les incluant avec des <INCLURE ...> je peux leurs ajouter à la fin un #FILTRE{mini_html} sans que ça perturbe la page toute entière car le #FILTRE n’est appliqué qu’aux sous-squelettes.
Indiquez l’intérêt que vous portez à cette réponse

0
Thiébaut

Mars 2015
Merci Mel ! C’est très clair. Deux cas de figure :
- Dans le meilleur des cas,celui de squelettes sans scripts ou autre code sensible (raison supplémentaire d’utiliser des INCLURE), on utilise la meilleure des solutions en deux étapes :
  Quand on a un code indenté, la minification sauvage avec #FILTRE permet d’élaguer le plus gros, ;
  La compression html, finit le travail en beauté.
  Contrairement à ce que je croyais, l’un n’exclut pas l’autre.
- Dans le cas de squelettes risquant d’être perturbés par cette minification sauvage, il ne reste plus que la solution de secours, le pis-aller : désindenter ses boucles au risque de rendre son code moins lisible.
Dans ce dernier cas, sans minification, j’imagine que la compression html retrouve ses problèmes de performance... ? Et donc n’est peut-être plus judicieuse ?
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Bonjour Thiébaut,

J’ai eu une meilleure idée :
- la fonction mini_html que j’ai proposée est tellement sauvage qu’elle casse des constructions comme le javascript, les textarea etc. De ce fait, son usage était réservé aux fichiers qui n’en faisaient pas usage et donc poussait à utiliser les <INCLURE>.
- Mais est-il possible d’écrire une fonction mini_html qui ne casse pas ces constructions tout en empêchant le compresseur HTML de s’envoyer en l’air sur des suites d’espaces inutiles produites par des boucles légitimes ?
- La réponse est oui :)
En voici un exemple :
function mini_html($texte) { $texte = preg_replace("/\s{128,}/"," ", $texte); return $texte; }
Je décide dans cette fonction que plus de 128 espaces de suite, c’est abuser. En fait, ça ne peut guère être généré que par des boucles à beaucoup de tours qui produisent des espaces en rafale, ou un programmeur qui s’est endormi sur son clavier. Ça ne se trouve dans aucune construction normale, même dans un textearea.

Donc avant que le compresseur HTML soit appelé, avec la balise #FILTRE, je supprime ces suites interminables d’espaces. Il reste ensuite au compresseur HTML la tâche de fignoler. Mais comme il n’a plus ces longues séries d’espaces à gérer, il va très vite.

Ça semble marcher parfaitement :)

Le code suivant :
<html> <head> </head> <body> #SET{tableau,#ARRAY} [(#REM) Passe en revue les 1442 mots du groupe 11] <BOUCLE_motsarticles(MOTS){id_groupe=11}> [(#SET{tableau,#GET{tableau}|push{#ID_MOT}})] </BOUCLE_motsarticles> </body> </html>
produit une page de 66.8ko. Le compresseur HTML échoue à le compresser en moins des 30s autorisés pour mes scripts PHP (il prend 100% du temps CPU pendant la compression !).
Avec la fonction mini_html décrite plus haut et le compresseur HTML, c’est magique : la page envoyée fait 407 octets et elle est générée en 120ms. Les constructions compliquées sont préservées, c’est donc le meilleur des deux mondes :)

Idéalement, je préférerais mettre l’unique ligne qui supprime ces longues lignes d’espaces en tête de la fonction process de la classe Minify_HTML (c’est la classe PHP du compresseur HTML dans le plugin Compresseur). Cela éviterait d’avoir à ajouter un #FILTRE{mini_html} à la fin de tous les fichiers squelettes. Malheureusement, patcher le code de SPIP est un peu délicat à cause des mises à jour...
Indiquez l’intérêt que vous portez à cette réponse

0

Pierrox

Mars 2015

Mais c’est pénible de devoir ajouter la balise #FILTRE à chaque squelettes inclus...

n y aurait il pas une solution plus propre afin d’appliquer ça automatiquement à toutes les page ?
Indiquez l’intérêt que vous portez à cette réponse

0

Pierrox

Mars 2015

Mais c’est pénible de devoir ajouter la balise #FILTRE à chaque squelettes inclus...

n y aurait il pas une solution plus propre afin d’appliquer ça automatiquement à toutes les pages ?
Indiquez l’intérêt que vous portez à cette réponse

0
Mel

Mars 2015
Bonjour brain_damage,

Ce doit être possible en écrivant un plugin car le compresseur est lui-même un plugin. Maintenant, ça n’a pas l’air très simple car il faut se placer après les autres filtres et avant le compresseur.

Je suis bien d’accord que rajouter un #FILTRE{mini_html} sur chaque page, c’est un peu la misère. Il est nettement plus simple de patcher le compresseur de SPIP, même si ça pose des problèmes lors des mises à jour.

J’ai donc fait un essai en modifiant la fonction process de Minify_HTML (il s’agit juste de rajouter $this->_html = preg_replace("/\s{128,}/"," ", $this->_html); avant le reste des traitements de la compression HTML) pour voir ce que ça donne suivant le nombre de tours de boucle.

Je fais varier le nombre de tours (ici 1000) dans le squelette suivant où les sauts de lignes permettent de produire des \n inutiles :
<html> <head> </head> <body> #SET{tableau,#ARRAY} [(#REM) Passe en revue des mots du groupe 11] <BOUCLE_motsarticles(MOTS){id_groupe=11}{0,1000}> [(#SET{tableau,#GET{tableau}|push{#ID_MOT}})] </BOUCLE_motsarticles> </body> </html>
Puis je mesure avec Chrome le temps de génération/arrivée de la page, avec et sans modification de Minify_HTML. J’obtiens les résultats suivants :

Temps de génération de la page de test
Nombre de tours Durée Minify_HTML standard Durée Minify_HTML modifié

10 65ms 60ms

50 125ms 60ms

100 300ms 65ms

500 5.7s 75ms

1000 22.6s 95ms

A ma grande surprise, la méthode donne un gain significatif dès 50 tours de boucles. Si on peut considérer que boucler sur des milliers d’éléments est un peu bizarre, boucler sur seulement 50 ne l’est pas du tout...
Indiquez l’intérêt que vous portez à cette réponse

0

Thiébaut

Mars 2015

On peut dire que tu vas jusqu’au bout des choses !

Je mets en résolu, car je pense avoir suffisamment d’éléments répondant à ma question initiale.

Mais je reste évidemment très intéressé par la suite d’éventuels nouveaux tests de performances de minification... sauvage ou non !

Merci beaucoup.
Indiquez l’intérêt que vous portez à cette réponse

0

nicod_

Août 2015

Pour traiter le html de la page finale, il suffit d’utiliser le pipeline affichage_final :

http://programmer.spip.net/affichage_final

Le compresseur HTML est en fait déconseillé, il est pas mal buggé et disparaitra dans la version 3.1 de SPIP.

« Précédent 1 2 Suivant »

Temps de génération de la page de test
Nombre de tours	Durée Minify_HTML standard	Durée Minify_HTML modifié
10	65ms	60ms
50	125ms	60ms
100	300ms	65ms
500	5.7s	75ms
1000	22.6s	95ms

Antidoublons {!doublons} vs Tableau #ARRAY : dans quels cas utiliser l’un ou l’autre ?

Antidoublons `{!doublons}` vs Tableau `#ARRAY` : dans quels cas utiliser l’un ou l’autre ?