Měl jsem kódování speciální znak v mých Sitemap?

hlasů
1

Mám nějaké adresy URL, která obsahuje speciální znaky. Například:

http://www.example.com/bléèàû.html

Zadáte-li tuto adresu URL v prohlížeči, můj web server ukáže správnou stranu (to zvládne speciální znak).

Díval jsem se na Sitemaps specifikace a to není jasné, zda je či není sitemaps soubor může obsahovat speciální znak. Z toho, co vím protokolu, v případě, že adresa URL je v pořádku a server slouží správnou stránku a soubor XML je kódování UTF-8, pak je to v pořádku.

Například, tato položka je platná položka sitemaps:

   <url>
      <loc>http://www.example.com/bléèàû.html</loc>
      <changefreq>weekly</changefreq>
   </url>

Kdokoliv může potvrdit?

[Aktualizace] Důvod, proč jsem si zdráhají kódovat speciální znaky, je to, že nechci, aby zavedly duplicitní adresy URL pro stejný obsah. Například

http://www.example.com/bl%C3%A9%C3%A8%C3%A0%C3%BB.html

a

http://www.example.com/bléèàû.html

by sloužil stejnou stránku. Předpokládám, že Google by se chytit jak URL s normální indexování a Sitemap. Bohužel, Google mají tendenci downgrade page rank stránky, které mají duplicitní adresy URL ukazující na stejné stránce.

Položena 10/02/2009 v 19:02
zdroj uživatelem
V jiných jazycích...                            


4 odpovědí

hlasů
4

Specifikace sitemaps neříká. Ukazuje příklady URL v různých uniklých formách, ale není definitivně říci, zda je první příklad (výchozí znaků), je přípustná. Volá jim pouze ‚URL, bez odkazu na konkrétní definici‚URL‘nebo RFC, která by objasnila, zda mají na mysli staré školy ASCII URI nebo Iris (které mohou obsahovat jiné znaky než ASCII).

Tak to by bylo nejbezpečnější% -escape UTF-8 kódování URL. Spojení pak bude fungovat na celém světě, a měly by být prezentovány uživateli jako znak Unicode ve všech moderních prohlížečích.

<loc>http://www.example.com/bl%C3%A9%C3%A8%C3%A0%C3%BB.html</loc>
Odpovězeno 10/02/2009 v 19:53
zdroj uživatelem

hlasů
2

I když je pravda, že mapa stránek musí být kódován v UTF-8, to neznamená, že adresy URL v něm obsažené mají všechny UTF-8 jsou jim k dispozici.

URL mají být podmnožinu US-ASCII, jak je uvedeno v dokumentu RFC 1738 . Nevěřím svým vzorové adresy URL:

http://www.example.com/bléèàû.html

platí v souladu s tímto odkazem a že by měl být URL kódovaný / unikl.

Odpovězeno 10/02/2009 v 19:35
zdroj uživatelem

hlasů
0

Pro ty uživatele, kteří nemají možnost snadno zadat speciální znaky **, navrhuji vám také přijmout nejtěsnější přiblížení na straně serveru. (Tj alias nebo dopředu /bleeau.html na /bléèàû.html)

** Například mobilní telefon prohlížeče s omezenými klávesnic a osob s různými jazykovými rozložení klávesnice.

Odpovězeno 10/02/2009 v 20:07
zdroj uživatelem

hlasů
0

Spec říká, že sitemaps musí být kódování UTF-8. V případě, že je adresa URL správná a používá na svých stránkách, pak ano zahrnout ji do souboru Sitemap.

Odpovězeno 10/02/2009 v 19:18
zdroj uživatelem

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more