Oui, le fichier est encodé en UTF-8 sans BOM,
Le header contient ça
HTTP/1.1 200 OK
Date: Wed, 08 Aug 2012 14:09:56 GMT
Server: Apache/2.2.14 (Unix)
X-Powered-By: PHP/5.2.5
Vary: Cookie,Accept-Encoding
Composed-By: SPIP @ www.spip.net
X-Spip-Cache: 0
Cache-Control: no-cache, must-revalidate
Pragma: no-cache
Last-Modified: Wed, 08 Aug 2012 14:09:57 GMT
Content-Type: text/xml; charset=utf-8
Content-Language: fr
Transfer-Encoding: chunked
le fichier squelette est
[(#REM)
Exemple tres simple de sitemap.xml accessible via URL_SITE_SPIP/sitemap.xml
(copier htaccess.txt en .htaccess pour en beneficier)
Ce sitemap affiche la liste des rubriques, breves et articles, en se limitant a 1000 rubriques, 1000 breves et 2000 articles pour des raisons
de performances.
Duree de reindexation et priorite ne sont pas precisees,
sauf pour l'accueil.
Mais si date_modif est recente (1 jour) on l'indique, pour que ce
soit reindexe en priorite
(On pose un cache a zero pour echapper au test _IS_BOT)
]#CACHE{0}
#HTTP_HEADER{Content-Type: text/xml; charset=utf-8}
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>#URL_SITE_SPIP/</loc>
<priority>1.0</priority>
</url>
<BOUCLE_r(RUBRIQUES){!par date} {id_rubrique !IN 1,13,32,43,44,45} {0,1000}>[
<url><loc>(#URL_RUBRIQUE|url_absolue)</loc><priority>0.8</priority></url>]</BOUCLE_r>
[(#SET{recent,[(#VAL{Y-m-d H:i:s}|date{#VAL{"-1 day"}|strtotime})]})]
<BOUCLE_a(ARTICLES){!par date_modif}{!par date}{id_rubrique !IN= 43,44} {0,2000}>[
<url><loc>(#URL_ARTICLE|url_absolue)</loc>[(#DATE_MODIF**|>{#GET{recent}}
|?{[<lastmod>(#DATE_MODIF**|date_iso)</lastmod>]})]<priority>0.6</priority></url>]</BOUCLE_a>
<BOUCLE_b(ARTICLES){!par date}{id_rubrique = 44}{age<60} {0,2000}>[
<url><loc>(#URL_ARTICLE|url_absolue)</loc>[(#DATE_MODIF**|>{#GET{recent}}
|?{[<lastmod>(#DATE_MODIF**|date_iso)</lastmod>]})]<priority>0.4</priority></url>]</BOUCLE_b>
</urlset>
Le début du fichier XML, c’est
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.mydomain.com/</loc>
<priority>1.0</priority>
</url>
<url><loc>http://www.mydomain.com/-rubrique1-.html</loc><priority>0.8</priority></url>
...
<url><loc>http://www.mydomain.com/articlex.html</loc><priority>0.6</priority></url>
...
<url><loc>http://www.mydomain.com/articley.html</loc><priority>0.4</priority></url>
...
</urlset>
Le site est en ISO-8859-1 mais au niveau du XML, ça ne change rien avec les URL propres2.
Je n’ai rien changé au fichier sitemap.xml.html entre la V2 et la V3, mais alors qu’il fonctionne sans problème en V2, ça merdouille en V3, et seulement sur le Google webmaster.
La seule différence au niveau du header, c’est le no-store en plus avec la V2
Cache-Control : no-store, no-cache, must-revalidate
Je vais bidouiller /ecrire/public/balises.php pour voir si ça pourrait venir de là.
Edit : Bon, ça ne change rien avec le no-store.