Encodage HTML. Dans quel encodage enregistrer la page Web. Résoudre les problèmes d'encodage incorrect des pages Web Modifier l'encodage en HTML

1. Nous avons un fichier : Monfichier.html.
2. Vous devez l'enregistrer en Unicode -> encodage UTF-8. Solution 1.
  1. Ouvrez Myfile.html dans un éditeur de texte Carnet de notes.
  2. Sélectionnez « Enregistrer sous... ».
  3. Sélectionnez l'encodage UTF-8.
  4. Cliquez sur le bouton - Enregistrer.

Solution 2.
  1. Ouvrez Myfile.html dans un éditeur de texte Bloc-notes++(il existe également un éditeur PSPad)
  2. Menu -> Encodages.
    Ici, nous voyons (Notepad++ se détermine) l'encodage du fichier que nous avons ouvert.
  3. Choisir Convertir en UTF-8 sans BOM(BOM - Marque d'ordre des octets).
    (Codiroaka "UTF-8 sans BOM" est préféré et diffère simplement de "UTF-8").
  4. Menu -> Fichier -> Enregistrer.

Détection du codage du navigateur

Nous indiquons nous-mêmes au navigateur quel encodage est défini pour ce fichier HTML.
Cela se fait à l'aide de la balise META 1) L'exemple ci-dessus indique au navigateur que le fichier HTML téléchargé est enregistré au format utf-8. Si le fichier HTML est enregistré avec le codage Windows-1251, alors : 2) Important!
Lors du transcodage de fichiers n'oublie pas de changer les directives de la balise META soient pertinentes.
Si un encodage est spécifié dans la balise META et que le fichier est enregistré dans un autre encodage, nous verrons « abracadabra » à l'écran.

3) Si la balise META contient l'encodage requis, mais le site affiche toujours « abracadabra », il faut alors vérifier les paramètres du site sur l'hébergement (serveur web).
Habituellement sur l'hébergement, l'encodage est défini sur utf-8 dans les paramètres du site.
Si les paramètres d'hébergement spécifient le codage Windows-1251, vous devez alors modifier le paramètre en utf-8.

Dans le premier chapitre de ce tutoriel, concernant la construction générale d'un document html, j'ai dit que tous les documents html devaient avoir le modèle de code suivant :

- début du document
- début de la tête
- fermer la tête
- début du corps
- fermeture du corps
- fin du document

Où entre les balises les informations sont indiquées qui sont destinées à être affichées à l'écran sous la forme dont nous avons besoin, et entre les balises exclusivement des informations de service destinées aux moteurs de recherche et aux navigateurs de certains utilisateurs. Alors, de quel type d’informations s’agit-il et à quoi sert-il ? Je répondrai systématiquement et par portions dans ce chapitre.

Tagué </b> nous le connaissons déjà, à l'aide de celui-ci nous indiquons le nom du document dans le titre de la page. Maintenant une nouvelle balise <b><meta> </b>(ne nécessite pas de balise de fermeture) à l'aide de celui-ci, nous indiquerons ces mêmes informations de service sur notre page.</p> <b><meta> </b> la balise a les attributs suivants : <ul><li><b>http-équiv</b>- indique au navigateur comment traiter le contenu principal du document, ou plutôt, en fonction de quelles données.</li><li><b>nom</b>- nom informatif. (utilisé conjointement avec l'attribut <b>contenu</b>)</li><li><b>contenu</b>- le contenu informationnel associé au méta-nom ( <b>nom</b>)</li> </ul><p>Maintenant, à l'aide d'exemples, nous allons plonger dans l'essence du problème.</p> <h2>Codage des caractères et langue</h2> <p>Exemple (très nécessaire et important) :</p> <p> <b><meta http-equiv="Content-Type" Content="text/html; Charset=Windows-1251"> </b></p> <p>Tout d’abord, je vais vous expliquer pourquoi cette ligne est nécessaire dans l’en-tête d’un document HTML. Cette entrée indique au navigateur l'encodage dans lequel cette page a été écrite - le format du document et la disposition du clavier, dans ce cas il s'agit du cyrillique pour Windows. Si cette ligne n'est pas écrite dans le titre de la page, alors il y a de fortes chances que tout le texte de votre page soit affiché sous forme de « hiéroglyphes » incompréhensibles pour l'homme pour les différents utilisateurs de certains navigateurs. Bien entendu, l'utilisateur peut appliquer la commande à un tel document dans le navigateur <b>Affichage->Encodage->Cyrillique</b>, mais il ne connaît peut-être pas cette fonction et pourquoi déranger une personne avec cette action.</p> <p>Décomposons maintenant notre enregistrement syllabe par syllabe : <br><b><meta http-equiv="Content-Type" </b>- indiquez ce que nous allons faire dans cette balise méta <b>Type de contenu</b>- type de contenu <br><b>Contenu="texte/html;</b>- à savoir son texte <br><b>Jeu de caractères=Windows-1251"></b>- document pour Windows - Cyrillique où <b>1251 </b> encodage de la disposition du clavier, ainsi par exemple le clavier anglais sera défini <b>Jeu de caractères = Windows-1252</b></p> <p>Actuellement, les webmasters avancés recommandent d'utiliser l'encodage <b>UTF8</b></p> <p>Autrement dit, écrivez dans l'en-tête du document comme ceci :</p> <p> <b><meta http-equiv="Content-Type" content="text/html; charset=utf-8"> </b></p> <p> <b><meta http-equiv="Content-Language" Content="ru"> </b></p> <p>Cette ligne dit que la langue <b>Langue</b> le document est russe <b>Content="fr"</b></p> <p>Un réglage incorrect de la langue et de la disposition du clavier peut avoir des conséquences désastreuses.</p> <h2>Informations sur les documents</h2> <p> <b><meta name="author" Content="Остап Бендер"> </b> <br><b><meta name="copyright" Content=""Рога и копыта" Остап Бендер"> </b></p> <p>Ces méta-descripteurs sont destinés à fournir une déclaration de copyright directement dans l'en-tête du code HTML, donc <b>nom="auteur"</b> indique le nom de l'auteur de la page, et <b>nom = "droit d'auteur"</b> copyright (copyright), qui peut indiquer le nom, prénom, patronyme de l'auteur du site, le nom de la société, la marque... etc. De plus, en incluant une telle description dans le titre du document, vous simplifier grandement la tâche du moteur de recherche lors de la recherche de votre site par nom d'auteur, raison sociale, marque...</p> <p> <b><meta name ="Generator" Content="Microsoft Notepad"> </b></p> <p>Si vous le souhaitez, vous pouvez indiquer avec quel éditeur html cette page a été écrite.</p> <h2>Description de la page et mots-clés</h2> <p> <b><meta name="description" Content="Nous achetons des cornes et des sabots à des prix compétitifs !"> </b></p> <p><b>Description</b>- une brève description de la page. Cette description est souvent utilisée par les moteurs de recherche pour afficher dans les résultats de recherche, pour toute demande, des informations sur le site et son objet.</p> <p> <b><meta name="keywords" Content ="рога, копыта, рожки, рог, копыто, копытце, закупка, покупка, приобретение, выгодно, продать, купить, сбыть, реализовать, корова, бык, коровьи, бычьи, оплата, деньги, наличные, цена, цене"> </b></p> <p><b>Mots-clés</b>- des mots-clés de la page web, là encore destinés aux moteurs de recherche.</p> <p>Imaginez que vous recherchiez dans un moteur de recherche un site contenant des informations sur les endroits où vous pouvez vendre les mêmes cornes et sabots :) Quels mots et expressions entrerez-vous dans la ligne « Recherche » ? Eh bien, probablement quelque chose comme : « Où puis-je vendre des cornes de vache ? ou "Vendre des sabots à bon prix". Ainsi, si vous définissez des mots-clés et, pour ainsi dire, prédisez les pensées d'un visiteur potentiel, vous pouvez espérer que l'un ou l'autre moteur de recherche fournira un lien vers votre site dans les premières lignes. du résultat de la recherche. Bien entendu, la saisie de ce méta-descripteur ne garantit pas que votre site occupera la première place dans la recherche de ces mots, mais il ne faut quand même pas le négliger. Cependant, il s’agit d’un sujet de discussion distinct.</p> <p>N'oubliez pas que la description <b>description</b> ne doit pas dépasser plus de 200 caractères et les mots-clés <b>mots-clés</b> 1000 caractères, sinon cela pourrait avoir un effet néfaste sur la promotion de votre site dans le TOP des moteurs de recherche.</p> <h2>Adresse</h2> <p> <b><meta name="Publisher-Email" Content="Ваш_e-mail@сервер.домен"> </b> <br><b><meta name="Publisher-URL" Content="http://www.Ваш_сайт/"> </b></p> <p>Je pense que c'est clair.. l'adresse de votre boîte mail est indiquée ici <b>E-mail de l'éditeur</b> et l'adresse du site Web <b>URL de l'éditeur</b></p> <h2>Mise à jour des pages</h2> <p> <b><meta name ="revisit-after" Content="15 days"> </b></p> <p>Si une certaine page de votre site implique une mise à jour constante et/ou un ajout de contenu informatif, alors il serait bon d'inclure cette description dans le titre de cette page. Cette introduction permettra au programme robot de visiter votre site en temps opportun et d'indexer son contenu. Dans notre exemple, nous avons indiqué que nous allons mettre à jour le contenu de la page au moins une fois tous les 15 jours, vous pouvez être assuré que le programme robot prendra note de vos projets et viendra vous « rendre visite » une fois tous les quinze jours. afin de vérifier si quelque chose a changé pour vous...</p> <h2>Validité et cache des documents</h2> <p>Afin d'accélérer le chargement des pages et d'économiser du trafic, les navigateurs modernes enregistrent les pages visitées par l'utilisateur dans un cache (sur le disque dur), et lors de leur nouvelle visite, ils les chargent non pas depuis le serveur, mais directement depuis le cache. En fait, cette fonction est bonne... mais il y a un « mais », le fait est que le navigateur peut afficher des informations obsolètes sur certaines pages. Imaginez, par exemple, que votre site Web soit une sorte de publication périodique d'informations en ligne, et l'utilisateur recevra, au lieu des dernières nouvelles, des informations obsolètes stockées dans son cache !! et sans comprendre quel est le « problème », il prendra votre site pour un site « mort », abandonné et non mis à jour par personne.</p> <p>Afin de forcer le navigateur à charger une page particulière non pas depuis le disque dur, mais depuis le serveur, vous avez besoin d'une balise méta avec cette syntaxe, qui indique le jour de la semaine, le jour, le mois, l'année, l'heure (hh:mm :ss) et le fuseau horaire ( <b>GMT+03:00</b>- heure de Moscou + trois heures). Le jour de la semaine et l'heure de la journée ne peuvent pas être précisés. Désormais, lorsqu'un navigateur lit une page, la page sera chargée depuis le serveur si la date et l'heure spécifiées sont arrivées ou ont expiré, et vice versa depuis le cache si l'heure spécifiée n'est pas encore arrivée.</p> <p>Ci-dessous, juste au cas où, se trouvent des tableaux d'abréviations de mots anglais pour les mois et les jours de la semaine</p> <td valign="top"> </td> <p>Attribut <b>contenu</b> peut se voir attribuer une valeur <b>"0" <meta http-equiv="Expires" content="0"> </b> dans ce cas, la page sera toujours chargée depuis le serveur.</p> <p>Et encore une chose... certains robots de recherche peuvent refuser d'indexer un document dont la date est visiblement obsolète. - ne tente pas le destin...</p> <p> <b><meta http-equiv="pragma" content="no-cache"> </b></p> <p>Et une telle entrée interdirait complètement au navigateur de mettre en cache cette page.</p> <h2>Commandes pour le robot</h2> <p> <b><meta name="robots" content="Index,follow"> </b></p> <p>Cette balise méta est destinée à donner au robot de recherche l'une ou l'autre commande.</p> <p>Liste des commandes possibles pour le robot :</p> <ul><li><b>Indice</b>- indexer la page</li><li><b>Aucun index</b>- ne pas indexer la page</li><li><b>Suivre</b>- suivre les hyperliens sur une page</li><li><b>Ne pas suivre</b>- ne suivez pas les hyperliens sur la page</li><li><b>Tous</b>- indexer la page et suivre les hyperliens sur la page (par défaut)</li><li><b>Aucun</b>- ne pas indexer la page et ne pas suivre les hyperliens sur la page</li> </ul><h2>Transition automatique vers une autre page</h2> <p> <b><meta content="10; URL=http://www.mysite/index.html"> </b></p> <p>Si soudainement, pour une raison quelconque, vous décidez de changer l'adresse URL de votre site, il serait bon de laisser une page comme celle-ci à son ancien emplacement :</p> <p> <html> <br> <head> <br> <meta http-equiv="Content-Type" Content="text/html; Charset=Windows-1251"> <br><b><meta content="10; URL=http://www.mysite/index.html"> </b> <br> <title>Expéditeur



L'adresse du site a été modifiée, au bout de 10 secondes votre navigateur sera automatiquement redirigé vers la nouvelle adresse :
http://www.monsite.ru/
Cliquez ici pour transférer immédiatement.
Nous nous excusons pour la gêne occasionnée.


Analysons et comprenons la ligne de l'exemple :

méta- Actualiser (récupération) indique au navigateur que cette page doit être actualisée
contenu="10;- mise à jour après un nombre de secondes spécifié (dans notre cas dix)
URL=http://www.monsite/index.html"- l'adresse de la nouvelle/différente page à consulter.

Mais si dans le titre Rafraîchir Si vous omettez l'adresse URL, comme indiqué dans l'exemple, alors le navigateur mettra constamment à jour le contenu de cette page toutes les 30 secondes (enfin, ou pas 30... quelle que soit la durée de votre écriture...).

Cette méthode est largement utilisée dans les fils d'actualité, où les informations circulent en flux, pour ainsi dire, et nécessitent une mise à jour constante.

Effets en suivant un lien


Ces titres créent des effets visuels lors du passage d'une page à une autre.

  • Page-Entrée- Effet d'apparence de la page
  • Sortie de page- Effet de disparition de page

Dans lequel :

  • Durée- durée de l'effet en secondes
  • Transition- Un des numéros des effets proposés (de 0 à 23) listés dans le tableau :
NombreDescription de l'effetNombreDescription de l'effet
0 Rectangles à l'intérieur12 Dissolution
1 Rectangles vers l'extérieur13 Panorama vertical vers l'intérieur
2 Cercle vers l'intérieur14 Panorama vertical vers l'extérieur
3 Encerclez15 Panorama horizontal vers l'intérieur
4 Inonder jusqu'au sommet16 Panorama horizontal vers l'extérieur
5 Inonder17 Coins à gauche - en bas
6 Couler vers la droite18 Coins gauche - haut
7 Fondu vers la gauche19 Coins à droite - en bas
8 Stores verticaux20 Coins à droite - vers le haut
9 Stores horizontaux21 Rayures horizontales aléatoires
10 Étapes horizontales22 Rayures verticales aléatoires
11 Marches verticales23 Sélection d'effet aléatoire

Fichier page1.html





Effets de transition de page



Note:


Les effets de transition d'une page à une autre ne fonctionnent pas dans tous les navigateurs.




"Aller"


Fichier page2.html





Effets de transition de page



Note:


Les effets de l'ouverture et de la fermeture des pages Web ne seront visibles que lors de la navigation
d'une page à l'autre ou à l'aide des boutons "précédent" et "suivant".
Lors de la première ouverture de la page, ainsi que lors du redémarrage
les effets de transition ne seront pas visibles.


Cliquez sur "Go" pour accéder à la page suivante
et évaluer l'effet de la transition d'une page à une autre.


"Aller"


    Permettez-moi de vous rappeler encore une fois que les balises méta doivent être utilisées avec habileté et compétence, en particulier lorsqu'il s'agit de commandes pour le robot et d'encodage de caractères, sinon tout votre travail risque d'être perdu.

    Titre Rafraîchir(passage automatique vers une autre page) peut être utilisé de manière non standard. Certains auteurs l'utilisent pour créer une sorte de diaporama de « présentation », où les pages changeantes sont des cadres de la présentation. Imaginez qu'une personne vienne sur un tel site et qu'elle dise ici "Penchez-vous en arrière et détendez-vous..." :) puis des images, des graphiques, des textes apparaissent d'eux-mêmes... et la dernière page est une impasse où l'utilisateur accède au site " entre ses propres mains » ou peut-être proche du premier. Rappelez-vous toujours la règle d’or d’un webmaster : l’essentiel est de ne pas en faire trop !

Plus tard ASCII a été étendu (au départ, il n'utilisait pas les 8 bits), il est donc devenu possible d'utiliser non pas 128, mais 256 (2 à la puissance 8) caractères différents qui peuvent être codés dans un octet d'information.
Cette amélioration a permis d'ajouter au codage ASCII symboles des langues nationales de différents pays, en plus de l'alphabet latin déjà existant.
Options d'encodage étendues ASCII Il y en a beaucoup car il existe également de nombreuses langues dans le monde. Je pense que beaucoup d'entre vous ont entendu parler d'un codage tel que KOI8 (Code of Information Exchange, 8 bits) - c'est aussi un codage étendu ASCII. KOI8 comprenait des chiffres, des lettres de l'alphabet latin et russe, ainsi que des signes de ponctuation, des caractères spéciaux et des pseudographies.

Encodage ISO

L'Organisation internationale de normalisation a créé une gamme d'encodages pour différents alphabets/langues.

Codages de la série ISO 8859

Codage Description
ISO 8859-1 (Latin-1) Latin étendu, comprenant des caractères de la plupart des langues d'Europe occidentale (anglais, danois, irlandais, islandais, espagnol, italien, allemand, norvégien, portugais, romanche, féroïen, suédois, gaélique écossais et certaines parties du néerlandais, finnois, français), comme ainsi que certaines langues d'Europe de l'Est (albanais) et africaines (afrikaans, swahili). Latin-1 n'a pas le signe euro et la lettre majuscule Ÿ. Cette page de codes est considérée comme l'encodage par défaut pour les documents HTML et les messages électroniques. De plus, les 256 premiers caractères Unicode correspondent à cette page de codes.
ISO 8859-2 (Latin-2) Latin étendu, comprenant des caractères des langues d'Europe centrale et d'Europe de l'Est (bosniaque, hongrois, polonais, slovaque, slovène, croate, tchèque). Latin-2, comme Latin-1, n'a pas le signe euro.
ISO 8859-3 (Latin-3) Latin étendu, comprenant des caractères de langues du sud de l'Europe (maltais, turc et espéranto).
ISO 8859-4 (Latin-4) Latin étendu, comprenant des caractères des langues d'Europe du Nord (langues groenlandaise, estonienne, lettone, lituanienne et sami).
ISO 8859-5 (latin/cyrillique) Cyrillique, comprenant des caractères de langues slaves (biélorusse, bulgare, macédonien, russe, serbe et en partie ukrainienne).
ISO 8859-6 (latin/arabe) Symboles utilisés en arabe. Les caractères d'autres langues arabes ne sont pas pris en charge. La prise en charge de l'écriture bidirectionnelle et des formes de caractères contextuelles est requise pour afficher correctement le texte ISO 8859-6.
ISO 8859-7 (latin/grec) Symboles de la langue grecque moderne. Peut également être utilisé pour écrire des textes grecs anciens en orthographe monotone.
ISO 8859-8 (latin/hébreu) Symboles de l'hébreu moderne. Il est utilisé en deux versions : avec un ordre logique des caractères (nécessite la prise en charge de l'écriture bidirectionnelle) et avec un ordre visuel des caractères.
ISO 8859-9 (Latin-5) Une variante du Latin-1 qui remplace les caractères islandais rarement utilisés par des caractères turcs. Utilisé pour les langues turques et kurdes.
ISO 8859-10 (Latin-6) Une variante Latin-4 plus adaptée aux langues scandinaves.
ISO 8859-11 (latin/thaïlandais) Symboles de la langue thaïlandaise.
ISO 8859-13 (Latin-7) Variante Latin-4, plus adaptée aux langues baltes.
ISO 8859-14 (Latin-8) Une écriture latine étendue qui comprend des caractères de langues celtiques telles que le gaélique écossais et le breton.
ISO 8859-15 (Latin-9) Une variante de Latin-1 qui remplace les caractères rarement utilisés par ceux nécessaires à la prise en charge complète du finnois, du français et de l'estonien. De plus, le signe euro a été ajouté au Latin-9.
ISO 8859-16 (Latin-10) Latin étendu, comprenant des caractères de langues d'Europe du Sud et de l'Est (albanais, hongrois, italien, polonais, roumain, slovène, croate), ainsi que certaines langues d'Europe occidentale (irlandais dans la nouvelle orthographe, allemand, finnois, français ). Comme Latin-9, Latin-10 a ajouté le signe euro.

Pour les documents en anglais et dans la plupart des autres langues d'Europe occidentale, l'encodage est largement pris en charge ISO-8859-1.

En HTML ISO-8859-1 est l'encodage par défaut (en XHTML et HTML5, l'encodage par défaut est UTF-8).
Lorsque vous utilisez un encodage de page autre que ISO-8859-1, vous devez l'indiquer dans la balise .

Pour HTML4 :

Pour HTML5 :

Un exemple de codage ANSI est le célèbre Windows-1251.

Windows-1251 se distingue avantageusement des autres encodages cyrilliques 8 bits (tels que CP866 et ISO 8859-5) par la présence de presque tous les caractères utilisés dans la typographie russe pour le texte ordinaire (seul l'accent manque). Il contient également tous les symboles des autres langues slaves : ukrainien, biélorusse, serbe, macédonien et bulgare.
Vous trouverez ci-dessous les valeurs décimales des caractères codés Windows-1251.

Pour afficher les symboles de tableau dans un document HTML, utilisez la syntaxe suivante :

& +code+ ;

Encodage Windows-1251 (CP1251)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .UN .B .C .D .E .F

8.
Ђ
402
Ѓ
403

201A
ѓ
453

201E

2026

2020

2021

20AC

2030
Љ
409

2039
Њ
40A
Ќ
40C
Ћ
40B
Џ
40F

9.
ђ
452

2018

2019

201C

201D

2022

2013
-
2014

2122
љ
459

203A
њ
45A
ќ
45C
ћ
45B
џ
45F

UN.

A0
Ў
40E
ў
45E
Ј
408
¤
A4
Ґ
490
¦
A6
§
A7
Yo
401
©
A9
Є
404
«
AB
¬
A.C.
­
ANNONCE
®
A.E.
Ї
407

B.
°
B0
±
B1
І
406
і
456
ґ
491
µ
B5

B6
·
B7
e
451

2116
є
454
»
BB
ј
458
Ѕ
405
ѕ
455
ї
457

C.
UN
410
B
411
DANS
412
G
413
D
414
E
415
ET
416
Z
417
ET
418
Oui
419
À
41A
L
41B
M
41C
N
41D
À PROPOS
41E
P.
41F

D.
R.
420
AVEC
421
T
422
U
423
F
424
X
425
C
426
H
427
Ch
428
SCH
429
Kommersant
42A
Oui
42B
b
42C
E
42D
Yu
42E
je
42F

E.
UN
430
b
431
V
432
G
433
d
434
e
435
et
436
h
437
Et
438
ème
439
À
43A
je
43B
m
43C
n
43D
Ô
43E
n
43F

F.
r
440
Avec
441
T
442
à
443
f
444
X
445
ts
446
h
447
w
448
sch
449
ъ
44A
s
44B
b
44C
euh
44D
toi
44E
je
44F

Encodages standard UNICODE

Unicode est une norme de codage de caractères qui permet de représenter les caractères de presque toutes les langues écrites du monde, ainsi que les caractères spéciaux. Les caractères représentés en Unicode sont codés sous forme d'entiers non signés. Unicode propose plusieurs formes de représentation des caractères sur un ordinateur : UTF-8, UTF-16 (UTF-16BE, UTF-16LE) et UTF-32 (UTF-32BE, UTF-32LE). (Anglais : format de transformation Unicode - UTF).
UTF-8 est un codage actuellement courant et largement utilisé dans les systèmes d'exploitation et sur le Web. Le texte composé de caractères Unicode numérotés inférieurs à 128 (zone de code U+0000 à U+007F) contient des caractères définis ASCII avec les codes correspondants. Viennent ensuite les zones de caractères de diverses écritures, signes de ponctuation et symboles techniques. Des zones de caractères avec des codes de U+0400 à U+052F, de U+2DE0 à U+2DFF, de U+A640 à U+A69F sont réservées aux caractères cyrilliques.

Codage UTF-8 est universelle et dispose d’une réserve impressionnante pour l’avenir. Cela en fait l’encodage le plus pratique à utiliser sur Internet.



Veuillez activer JavaScript pour afficher le

Lors de la création d'un site Web, les webmasters débutants se posent souvent des questions : quel encodage utiliser pour le site Web, en quoi UTF-8 diffère de Windows-1251 et comment le saisir dans le jeu de caractères META des pages HTML du site. Les réponses à toutes ces questions se trouvent dans cet article.

Qu’est-ce que l’encodage de site et comment ça marche ?

Le codage peut être présenté sous la forme d'un tableau composé de différentes lettres, chiffres et autres symboles compréhensibles par l'homme, qui sont codés d'une certaine manière. Lorsque vous ouvrez un fichier texte contenant des pages HTML, l'ordinateur lit dans l'en-tête du fichier dans quel encodage il a été enregistré et affiche le texte dans l'encodage approprié, convertissant les données informatiques sous une forme compréhensible pour les humains en comparant ces données avec le table d'encodage. Si les informations de codage de l'en-tête du fichier correspondent au codage dans lequel les données sont stockées dans la page HTML, l'utilisateur voit les lettres, chiffres et autres symboles qui lui sont familiers. S'il y a une divergence, le résultat est que l'utilisateur se voit présenter un ensemble de caractères incompréhensible, ce qui arrive particulièrement souvent dans les anciens programmes de messagerie. Si un utilisateur reçoit une lettre avec un charabia incompréhensible, alors simplement en passant par différents encodages, il est généralement possible de deviner et de sélectionner celui dans lequel la lettre est écrite, et par conséquent, un ensemble de caractères incompréhensibles se transforme en un jeu de caractères compréhensible par l'homme. texte.

La même chose se produit avec les pages HTML du site. Si le document a été enregistré, par exemple, en codage UTF-8 et que le document lui-même contient une balise META indiquant qu'il s'agit d'un encodage Windows-1251, alors le navigateur comparera à nouveau les données enregistrées dans le fichier avec le tableau d'encodage. qui lui est spécifié et comme les caractères sont codés différemment selon -, le navigateur affichera un ensemble de caractères incompréhensible au lieu du texte habituel, ou certaines lettres peuvent être sous forme normale, tandis que d'autres lettres ou symboles peuvent être affichés, par exemple par exemple, sous forme de points d’interrogation. Tout ce qui précède s'applique également à l'affichage des noms de fichiers.

Lors de la création d'un nouveau document dans un éditeur de texte, il est préférable de s'assurer immédiatement que l'encodage souhaité est sélectionné. Les éditeurs modernes vous permettent de convertir le texte d'un document ouvert d'un encodage à un autre, et le Bloc-notes standard vous permet de sélectionner l'encodage uniquement lors de l'enregistrement du fichier.

Les encodages les plus courants

Grâce au paragraphe précédent, vous savez déjà ce qu'est l'encodage et pourquoi il est si important de l'écrire correctement dans le code des pages du site. Voyons maintenant lequel des nombreux encodages est le meilleur à choisir pour le futur site. Étant donné que le système d'exploitation le plus courant et le plus facile à apprendre a toujours été le système d'exploitation Windows, la plupart des développeurs Web ont créé des pages HTML dans le codage Windows-1251 (ANSI), qui était utilisé par défaut. Mais Windows-1251 ne prend pas en charge un très grand nombre de lettres et de symboles, et les développeurs souhaitent utiliser diverses flèches, cœurs, carrés et autres symboles dans leurs textes, y compris la nécessité de combiner des mots de différentes langues dans un seul document, donc il a longtemps été remplacé par l'arrivée de l'UTF-8 plus étendu et la plupart des développeurs utilisent cet encodage.

Problèmes d'encodage non seulement dans la page HTML

Le site, qu'il s'agisse simplement d'un ensemble de documents HTML statiques ou de scripts dynamiques complexes générant des pages à la volée, est hébergé sur un serveur web, qui fonctionne également avec un encodage spécifique. Et si le serveur fournit des informations dans un encodage et que vos pages ou scripts sont enregistrés dans un encodage différent, là encore, des problèmes peuvent survenir lors de l'affichage des pages dans le navigateur de l'utilisateur. De nombreux hébergements vous permettent de modifier les paramètres et de sélectionner l'encodage en fonction de celui utilisé dans les fichiers du site via le panneau de configuration, ou vous pouvez l'écrire dans le fichier .htaccess si l'hébergement utilise le populaire serveur Web Apache.

Presque aucun site Web moderne ne peut fonctionner sans utiliser une base de données MySQL, et cela peut également devenir une source de problèmes d'encodage. Si les fichiers du site sont enregistrés dans un encodage et que les informations de la base de données le sont dans un autre, alors sur la page, la partie des informations extraites de la base de données peut être affichée sous la forme des mêmes points d'interrogation ou d'autres symboles incompréhensibles. . Pour éviter des problèmes d'encodage, il doit en être de même pour le serveur web, la base de données MySQL, dans les scripts, dans les pages HTML du site et dans la balise META, qui est écrite dans le code HTML. S'il y a des problèmes avec l'affichage du texte, vérifiez tout ce qui précède pour trouver le problème.

Jeu de caractères META du document HTML

Pour indiquer au navigateur et aux moteurs de recherche dans quel encodage les pages du site sont enregistrées, un META Charset est écrit dans leur code.

Pour l'encodage Windows-1251 :

Titre de la page

Texte de la page


Pour l'encodage UTF-8 :

Titre de la page

Texte de la page


Vous savez maintenant ce qu'est l'encodage du site et où rechercher les problèmes si le texte ne s'affiche pas correctement dans n'importe quelle partie du site.

La copie de l'article est interdite.