HTML kódolás. Milyen kódolással kell menteni a weboldalt. Hibás weboldalkódolási problémák megoldása A kódolás megváltoztatása html-ben

1. Van egy fájlunk: Myfile.html.
2. El kell mentenie Unicode -> UTF-8 kódolással. 1. megoldás.
  1. Nyissa meg a Myfile.html fájlt egy szövegszerkesztőben Jegyzetfüzet.
  2. Válassza a „Mentés másként...” lehetőséget.
  3. Válassza az UTF-8 kódolást.
  4. Kattintson a gombra - Mentés.

2. megoldás.
  1. Nyissa meg a Myfile.html fájlt egy szövegszerkesztőben Jegyzettömb++(van PSPad szerkesztő is)
  2. Menü -> Kódolások.
    Itt látjuk (a Notepad++ meghatározza magát) a megnyitott fájl kódolása.
  3. Válasszon Átalakítás UTF-8-ra BOM nélkül(BOM - Byte Order Mark).
    (Codiroaka "UTF-8 nélkül BOM" előnyben részesített, és eltér az "UTF-8"-tól).
  4. Menü -> Fájl -> Mentés.

Böngésző kódolás észlelése

Mi magunk mondjuk el a böngészőnek, hogy milyen kódolás van beállítva ehhez a HTML-fájlhoz.
Ez a META tag 1 használatával történik.) A fenti példa arra utasítja a böngészőt, hogy a letöltött HTML-fájl utf-8 kódolásban kerüljön mentésre. Ha a HTML fájlt Windows-1251 kódolással menti, akkor: 2) Fontos!
Fájlok átkódolásakor ne felejts el változtatni direktívák a META címkében, hogy relevánsak legyenek.
Ha egy kódolás van megadva a META címkében, és a fájl egy másik kódolásban van elmentve, akkor az „abracadabra” feliratot fogjuk látni a képernyőn.

3) Ha a META tag tartalmazza a szükséges kódolást, de az oldalon továbbra is az „abracadabra” jelenik meg, akkor ellenőrizni kell a webhely beállításait a tárhelyen (webszerveren).
Általában hosting esetén a kódolás utf-8-ra van állítva a webhely beállításaiban.
Ha a tárhely beállításai megadják a Windows-1251 kódolást, akkor módosítania kell a beállítást utf-8-ra.

Ennek az oktatóanyagnak az első fejezetében, amely egy html dokumentum általános felépítéséről szól, azt mondtam, hogy minden html dokumentumnak rendelkeznie kell a következő kódsablonnal:

- a dokumentum eleje
- a fej eleje
- a fej lecsukása
- a test kezdete
- testzárás
- dokumentum vége

Hol a címkék között a képernyőn megjeleníteni kívánt információk az általunk szükséges formában, illetve a címkék között vannak feltüntetve kizárólag bizonyos felhasználók keresőmotorjainak és böngészőinek szánt szolgáltatási információk. Tehát milyen információ ez és mire való? Ebben a fejezetben szisztematikusan és részben válaszolok.

Megjelölt </b> már ismerjük, segítségével az oldalcímben feltüntetjük a dokumentum nevét. Most egy új címke <b><meta> </b>(nem igényel záró címkét) ennek segítségével pont ezt a szolgáltatási információt fogjuk jelezni oldalunkon.</p> <b><meta> </b> a címke a következő attribútumokkal rendelkezik: <ul><li><b>http-equiv</b>- megmondja a böngészőnek, hogyan dolgozza fel a dokumentum fő tartalmát, pontosabban milyen adatok alapján.</li><li><b>név</b>- információs név. (az attribútummal együtt használjuk <b>tartalom</b>)</li><li><b>tartalom</b>- a meta névhez kapcsolódó információs tartalom ( <b>név</b>)</li> </ul><p>Most példákon keresztül elmélyülünk a dolog lényegében.</p> <h2>Karakterkódolás és nyelv</h2> <p>Példa (nagyon szükséges és fontos):</p> <p> <b><meta http-equiv="Content-Type" Content="text/html; Charset=Windows-1251"> </b></p> <p>Először is elmondom, miért van szükség erre a sorra egy html dokumentum fejlécében. Ez a bejegyzés jelzi a böngésző számára azt a kódolást, amelyben ezt az oldalt írták - a dokumentum formátumát és a billentyűzetkiosztást, ebben az esetben ez cirill a Windows számára. Ha ez a sor nincs beírva az oldal címébe, akkor nagy a valószínűsége annak, hogy az oldalon lévő összes szöveg „hieroglifák” formájában jelenik meg, amelyek bizonyos böngészők különböző felhasználói számára érthetetlenek az emberek számára. Természetesen a felhasználó alkalmazhatja a parancsot egy ilyen dokumentumra a böngészőben <b>Nézet->Kódolás->Cirill</b>, de lehet, hogy nem tud erről a funkcióról, és miért kell egy személyt ezzel a művelettel zavarni.</p> <p>Most bontsuk fel a felvételünket szótagonként: <br><b><meta http-equiv="Content-Type" </b>- jelezze, mit fogunk csinálni ebben a metacímkében <b>Tartalom-típus</b>- a tartalom típusa <br><b>Content="text/html;</b>- nevezetesen a szövegét <br><b>Charset=Windows-1251"></b>- dokumentum Windowshoz - Cirill hol <b>1251 </b> billentyűzetkiosztás kódolása, így például az angol billentyűzet lesz beállítva <b>Charset = Windows-1252</b></p> <p>Jelenleg a haladó webmesterek a kódolás használatát javasolják <b>UTF 8</b></p> <p>Vagyis írja be a dokumentum fejébe így:</p> <p> <b><meta http-equiv="Content-Type" content="text/html; charset=utf-8"> </b></p> <p> <b><meta http-equiv="Content-Language" Content="ru"> </b></p> <p>Ez a sor azt a nyelvet mondja <b>Nyelv</b> a dokumentum orosz <b>Content="hu"</b></p> <p>A nyelv és a billentyűzet-kiosztás helytelen beállítása súlyos következményekkel járhat.</p> <h2>Dokumentum információk</h2> <p> <b><meta name="author" Content="Остап Бендер"> </b> <br><b><meta name="copyright" Content=""Рога и копыта" Остап Бендер"> </b></p> <p>Ezek a metaleírók arra szolgálnak, hogy a szerzői jogi nyilatkozatot közvetlenül a html kód fejében adjanak meg, tehát <b>name="szerző"</b> jelzi az oldal szerzőjének nevét, és <b>name="copyright"</b> szerzői jog (copyright), amely feltüntetheti az oldal szerzőjének vezetéknevét, keresztnevét, családnevét, a cég nevét, márkáját... stb. Ezen túlmenően, ha ilyen leírást ad a dokumentum címében, akkor Ön nagyban leegyszerűsíti a kereső feladatát, amikor a szerző neve, cégnév, márka alapján keres az oldalára...</p> <p> <b><meta name ="Generator" Content="Microsoft Notepad"> </b></p> <p>Ha szeretné, megadhatja, hogy melyik html szerkesztővel készült ez az oldal.</p> <h2>Oldalleírás és kulcsszavak</h2> <p> <b><meta name="description" Content="Szarvakat és patákat versenyképes áron vásárolunk!"> </b></p> <p><b>Leírás</b>- az oldal rövid leírása. Ezt a leírást a keresőmotorok gyakran használják arra, hogy a keresési eredmények között bármilyen kérés esetén információt jelenítsenek meg a webhelyről és annak céljáról.</p> <p> <b><meta name="keywords" Content ="рога, копыта, рожки, рог, копыто, копытце, закупка, покупка, приобретение, выгодно, продать, купить, сбыть, реализовать, корова, бык, коровьи, бычьи, оплата, деньги, наличные, цена, цене"> </b></p> <p><b>Kulcsszavak</b>- a weboldal kulcsszavai, ismét a keresőmotorok számára.</p> <p>Képzeld el, hogy egy keresőben keresel egy olyan oldalt, ahol információkat találsz arról, hogy hol lehet eladni ugyanazokat a szarvakat és patákat :) Milyen szavakat és kifejezéseket írsz be a „Keresés” sorba? Nos, valószínűleg valami ilyesmi: „Hol árulhatom el a tehénszarvat?” vagy „Kedd el a patákat jó áron”, tehát ha kulcsszavakat definiál, és úgymond megjósolja a potenciális látogató gondolatait, akkor reménykedhet abban, hogy az egyik vagy másik kereső az első sorokban linket ad az Ön webhelyére. a keresési eredményből. Természetesen ennek a meta-leírónak a megadása nem garantálja, hogy webhelye az első helyet foglalja el e szavak keresésében, de ennek ellenére nem szabad figyelmen kívül hagynia. Ez azonban egy külön vitatéma.</p> <p>Ne feledje, hogy a leírás <b>leírás</b> nem haladhatja meg a 200 karaktert és a kulcsszavakat <b>kulcsszavakat</b> 1000 karakter, ellenkező esetben károsan hathat arra, hogy webhelyét a keresők TOP-jába kerüljön.</p> <h2>Cím</h2> <p> <b><meta name="Publisher-Email" Content="Ваш_e-mail@сервер.домен"> </b> <br><b><meta name="Publisher-URL" Content="http://www.Ваш_сайт/"> </b></p> <p>Szerintem egyértelmű.. itt van feltüntetve a postafiók címe <b>Kiadó-e-mail</b>és a weboldal címét <b>Publisher-URL</b></p> <h2>Oldal frissítése</h2> <p> <b><meta name ="revisit-after" Content="15 days"> </b></p> <p>Ha webhelyének egy bizonyos oldala folyamatos frissítéssel és/vagy információs tartalom hozzáadásával jár, akkor ezt a leírást jó lenne ennek az oldalnak a címében feltüntetni. Ez a bevezetés lehetővé teszi a robotprogram számára, hogy időben felkeresse webhelyét, és indexelje annak tartalmát. Példánkban kijelentettük, hogy legalább 15 naponta frissítjük az oldal tartalmát, biztos lehet benne, hogy a robotprogram tudomásul veszi terveit, és tizenöt naponta egyszer „látogatni” fog. annak érdekében, hogy ellenőrizze, nem változott-e valami az Ön számára...</p> <h2>Dokumentum érvényessége és gyorsítótár</h2> <p>Az oldalbetöltés felgyorsítása, valamint a forgalom megtakarítása érdekében a modern böngészők a felhasználó által meglátogatott oldalakat gyorsítótárba (a merevlemezre) mentik, és újbóli felkereséskor nem a szerverről, hanem közvetlenül a szerverről töltik be azokat. gyorsítótár. Valójában ez a funkció jó... de van egy „de”, az tény, hogy a böngésző esetleg elavult információkat jelenít meg valamelyik oldalról. Képzelje el például, hogy az Ön weboldala egyfajta időszakos online hírközlés, és a felhasználó a legfrissebb hírek helyett elavult információkat kap, amelyek a gyorsítótárában vannak tárolva!! és anélkül, hogy megértené, mi a „baj”, az Ön webhelyét „halott” oldalnak fogja tekinteni, elhagyott és senki által nem frissített.</p> <p>Ahhoz, hogy a böngészőt ne a merevlemezről, hanem a szerverről töltse be egy adott oldalra, szükség van egy ilyen szintaxisú metacímkére, amely jelzi a hét napját, napot, hónapot, évet, időt (óó:pp :ss) és időzóna( <b>GMT+03:00</b>- Moszkvai idő + három óra). A hét napja és a napszak nem adható meg. Most, amikor egy böngésző beolvas egy oldalt, az oldal betöltődik a szerverről, ha a megadott dátum és időpont megérkezett vagy lejárt, és ellenkezőleg, a gyorsítótárból, ha a megadott időpont még nem érkezett meg.</p> <p>Alább, minden esetre, az angol szavak rövidítéseinek táblázatai találhatók hónapokra és a hét napjaira</p> <td valign="top"> </td> <p>Attribútum <b>tartalom</b>értékhez rendelhető <b>"0" <meta http-equiv="Expires" content="0"> </b> ebben az esetben az oldal mindig a szerverről töltődik be.</p> <p>És még valami... egyes keresőrobotok megtagadhatják a nyilvánvalóan elavult dátumú dokumentumok indexelését. - ne kísértsd a sorsot...</p> <p> <b><meta http-equiv="pragma" content="no-cache"> </b></p> <p>És egy ilyen bejegyzés teljesen megtiltja a böngészőnek, hogy gyorsítótárazza ezt az oldalt.</p> <h2>Parancsok a robotnak</h2> <p> <b><meta name="robots" content="Index,follow"> </b></p> <p>Ez a metacímke arra szolgál, hogy egy vagy másik parancsot adjon a keresőrobotnak.</p> <p>A robot lehetséges parancsainak listája:</p> <ul><li><b>Index</b>- indexelni az oldalt</li><li><b>Noindex</b>- ne indexelje az oldalt</li><li><b>Kövesd</b>- nyomon követheti a hiperhivatkozásokat egy oldalon</li><li><b>Nofollow</b>- ne kövesse az oldalon található hiperhivatkozásokat</li><li><b>Minden</b>- indexelni az oldalt és nyomon követni az oldalon lévő hiperhivatkozásokat (alapértelmezett)</li><li><b>Egyik sem</b>- ne indexelje az oldalt, és ne kövesse az oldalon található hiperhivatkozásokat</li> </ul><h2>Automatikus áttérés másik oldalra</h2> <p> <b><meta content="10; URL=http://www.mysite/index.html"> </b></p> <p>Ha hirtelen valamilyen okból úgy dönt, hogy megváltoztatja webhelye URL-címét, jó lenne egy ilyen oldalt a régi helyén hagyni:</p> <p> <html> <br> <head> <br> <meta http-equiv="Content-Type" Content="text/html; Charset=Windows-1251"> <br><b><meta content="10; URL=http://www.mysite/index.html"> </b> <br> <title>Szállítmányozás



Az oldal címe megváltozott, 10 másodperc elteltével a böngésző automatikusan át lesz irányítva az új címre:
http://www.mysite.ru/
Kattintson ide az azonnali átvitelhez.
Elnézést kérünk az okozott kellemetlenségért.


Elemezzük és értsük meg a példából a vonalat:

meta- A Refresh (helyreállítás) jelzi a böngészőnek, hogy ezt az oldalt frissíteni kell
content="10;- frissítés meghatározott számú másodperc után (esetünkben tíz)
URL=http://www.webhelyem/index.html"- annak az új/másik oldalnak a címe, amelyre fel kell lépni.

De ha a címben Frissítés Ha elhagyja az URL címet, ahogy a példában is látható, akkor a böngésző folyamatosan frissíti ennek az oldalnak a tartalmát 30 másodpercenként (jó, vagy nem 30.. ameddig írsz..).

Ezt a módszert széles körben alkalmazzák a hírfolyamokban, ahol az információ úgymond egy folyamban áramlik, és folyamatos frissítést igényel.

Hatások a hivatkozás követésekor


Ezek a címsorok vizuális hatásokat hoznak létre, amikor egyik oldalról a másikra lépnek.

  • Page-Enter- Oldal megjelenési hatás
  • Oldal- Kilépés- Oldal eltüntető hatása

Amiben:

  • Időtartam- hatás időtartama másodpercben
  • Átmenet- A javasolt hatások számának egyike (0-tól 23-ig) a táblázatban:
SzámA hatás leírásaSzámA hatás leírása
0 Belül téglalapok12 Feloldódás
1 Téglalapok kifelé13 Függőleges panoráma befelé
2 Karikázzon befelé14 Függőleges panoráma kifelé
3 Karikázd ki15 Vízszintes panoráma befelé
4 Árvíz a csúcsra16 Vízszintes panoráma kifelé
5 Árvíz le17 Sarkok balra - le
6 Áramlás jobbra18 Sarkok balra – felfelé
7 Elhalványul balra19 Sarkok jobbra - le
8 Függőleges redőnyök20 Sarkok jobbra - fel
9 Vízszintes redőnyök21 Véletlenszerű vízszintes csíkok
10 Vízszintes lépések22 Véletlenszerű függőleges csíkok
11 Függőleges lépések23 Véletlenszerű effektválasztás

Fájl oldal1.html





Oldalátmeneti effektusok



Jegyzet:


Az egyik oldalról a másikra való áttérés effektusai nem működnek minden böngészőben.




"Megy"


Fájl oldal2.html





Oldalátmeneti effektusok



Jegyzet:


A weboldalak megnyitásának és bezárásának hatásai csak navigáció közben lesznek láthatók
egyik oldalról a másikra, vagy a "vissza" és az "előre" gombokkal.
Az oldal első megnyitásakor, valamint újraindításkor
átmeneti hatások nem lesznek láthatók.


Kattintson a "Go" gombra a következő oldalra lépéshez
és értékelje az egyik oldalról a másikra való áttérés hatását.


"Megy"


    Hadd emlékeztesselek még egyszer arra, hogy a metacímkéket ügyesen és hozzáértően kell használni, különösen, ha a robot parancsairól és a karakterkódolásról van szó, különben minden munkája a lefolyóba süllyedhet.

    Cím Frissítés(automatikus áttérés másik oldalra) nem szabványos módon használható fel néhány szerző egyfajta „prezentációs” diavetítés létrehozására, ahol a változó oldalak a prezentáció keretei. Képzeld el, hogy az ember bejön egy ilyen oldalra, és itt azt mondja, hogy "Dőlj hátra és lazíts.." :) aztán megjelennek maguktól a képek, grafikonok, szövegek.. és az utolsó oldal egy zsákutca, ahol a felhasználó viszi az oldalt " a saját kezébe” vagy talán közel az elsőhöz. Mindig emlékezzen a webmesterek aranyszabályára: A lényeg az, hogy ne vigyük túlzásba!

Később ASCII kibővült (eleinte nem használta mind a 8 bitet), így lehetővé vált nem 128, hanem 256 (2 a 8. hatványig) különböző, egy bájt információba kódolható karakter használata.
Ez a fejlesztés lehetővé tette a kódolás kiegészítését ASCII a különböző országok nemzeti nyelveinek szimbólumai, a már meglévő latin ábécé mellett.
Kibővített kódolási lehetőségek ASCII Nagyon sok van belőlük annak a ténynek köszönhetően, hogy sok nyelv is létezik a világon. Azt hiszem, sokan hallottatok már olyan kódolásról, mint a KOI8 (Code of Information Exchange, 8 bit) – ez is egy kiterjesztett kódolás ASCII. A KOI8 számokat, latin és orosz ábécé betűit, valamint írásjeleket, speciális karaktereket és pszeudográfiai adatokat tartalmazott.

ISO kódolás

A Nemzetközi Szabványügyi Szervezet számos kódolást hozott létre a különböző ábécékhez/nyelvekhez.

ISO 8859 sorozatú kódolások

Kódolás Leírás
ISO 8859-1 (latin-1) Kiterjesztett latin, beleértve a legtöbb nyugat-európai nyelv karaktereit (angol, dán, ír, izlandi, spanyol, olasz, német, norvég, portugál, román, feröeri, svéd, skót gael és a holland, finn, francia nyelv egy részét), mint pl. valamint néhány kelet-európai (albán) és afrikai nyelv (afrikaans, szuahéli). A Latin-1-ből hiányzik az eurójel és a nagy Ÿ betű. Ez a kódlap a HTML-dokumentumok és e-mail üzenetek alapértelmezett kódolása. Ezenkívül az első 256 Unicode karakter ennek a kódlapnak felel meg.
ISO 8859-2 (latin-2) Kiterjesztett latin, beleértve a közép-európai és kelet-európai nyelvek karaktereit (bosnyák, magyar, lengyel, szlovák, szlovén, horvát, cseh). A Latin-2-ből, akárcsak a Latin-1-ből, hiányzik az eurójel.
ISO 8859-3 (latin-3) Kiterjesztett latin, beleértve a dél-európai nyelvek karaktereit (máltai, török ​​és eszperantó).
ISO 8859-4 (latin-4) Kiterjesztett latin, beleértve az észak-európai nyelvek karaktereit (grönlandi, észt, lett, litván és számi nyelvek).
ISO 8859-5 (latin/cirill) Cirill, beleértve a szláv nyelvű karaktereket (fehérorosz, bolgár, macedón, orosz, szerb és részben ukrán).
ISO 8859-6 (latin/arab) Az arab nyelvben használt szimbólumok. Más arab nyelvű karakterek nem támogatottak. Az ISO 8859-6 szabvány szerinti szöveg helyes megjelenítéséhez a kétirányú írás és a környezetérzékeny karakterformák támogatása szükséges.
ISO 8859-7 (latin/görög) A modern görög nyelv szimbólumai. Használható ógörög szövegek monoton helyesírással történő írásához is.
ISO 8859-8 (latin/héber) A modern héber szimbólumai. Két változatban használatos: a karakterek logikai sorrendjével (kétirányú írás támogatása szükséges) és a karakterek vizuális sorrendjével.
ISO 8859-9 (latin-5) A Latin-1 olyan változata, amely a ritkán használt izlandi karaktereket török ​​karakterekre cseréli. Török és kurd nyelvekhez használják.
ISO 8859-10 (latin-6) Egy latin-4-es változat, amely jobban megfelel a skandináv nyelveknek.
ISO 8859-11 (latin/thai) A thai nyelv szimbólumai.
ISO 8859-13 (latin-7) Latin-4 változat, kényelmesebb a balti nyelvekhez.
ISO 8859-14 (latin-8) Kibővített latin írás, amely kelta nyelvek karaktereit tartalmazza, például skót gael és breton.
ISO 8859-15 (latin-9) A Latin-1 olyan változata, amely a ritkán használt karaktereket a finn, francia és észt teljes támogatásához szükséges karakterekkel helyettesíti. Ezenkívül a Latin-9-hez hozzáadták az eurójelet.
ISO 8859-16 (latin-10) Kibővített latin, beleértve a dél- és kelet-európai nyelvek karaktereit (albán, magyar, olasz, lengyel, román, szlovén, horvát), valamint néhány nyugat-európai nyelvet (új írásmódban ír, német, finn, francia) ). A Latin-9-hez hasonlóan a Latin-10 is hozzáadta az eurójelet.

Az angol és a legtöbb nyugat-európai nyelvű dokumentumok esetében a kódolás széles körben támogatott ISO-8859-1.

HTML-ben ISO-8859-1 az alapértelmezett kódolás (XHTML és HTML5 esetén az alapértelmezett kódolás az UTF-8).
Ha ISO-8859-1-től eltérő oldalkódolást használ, ezt jeleznie kell a címkében .

HTML4 esetén:

HTML5 esetén:

Az ANSI kódolás egyik példája a jól ismert Windows-1251.

Windows-1251 kedvezően különbözik a többi 8 bites cirill kódolástól (mint például a CP866 és az ISO 8859-5) azáltal, hogy szinte az összes, az orosz tipográfiában szokásos szöveghez használt karaktert tartalmaz (csak az ékezetes jel hiányzik). Tartalmazza a többi szláv nyelv összes szimbólumát is: ukrán, fehérorosz, szerb, macedón és bolgár.
Az alábbiakban a kódoló karakterek decimális értékei láthatók Windows-1251.

A táblázat szimbólumainak HTML-dokumentumban való megjelenítéséhez használja a következő szintaxist:

& + kód + ;

Windows kódolás-1251 (CP1251)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F

8.
Ђ
402
Ѓ
403

201A
ѓ
453

201E

2026

2020

2021

20AC

2030
Љ
409

2039
Њ
40A
Ќ
40°C
Ћ
40B
Џ
40F

9.
ђ
452

2018

2019

201C

201D

2022

2013
-
2014

2122
љ
459

203A
њ
45A
ќ
45C
ћ
45B
џ
45F

A.

A0
Ў
40E
ў
45E
Ј
408
¤
A4
Ґ
490
¦
A6
§
A7
Yo
401
©
A9
Є
404
«
AB
¬
A.C.
­
HIRDETÉS
®
A.E.
Ї
407

B.
°
B0
±
B1
І
406
і
456
ґ
491
µ
B5

B6
·
B7
e
451

2116
є
454
»
BB
ј
458
Ѕ
405
ѕ
455
ї
457

C.
A
410
B
411
IN
412
G
413
D
414
E
415
ÉS
416
Z
417
ÉS
418
Y
419
TO
41A
L
41B
M
41C
N
41D
KÖRÜLBELÜL
41E
P
41F

D.
R
420
VEL
421
T
422
U
423
F
424
X
425
C
426
H
427
Sh
428
SCH
429
Kommerszant
42A
Y
42B
b
42C
E
42D
Yu
42E
én
42F

E.
A
430
b
431
V
432
G
433
d
434
e
435
és
436
h
437
És
438
th
439
To
43A
l
43B
m
43C
n
43D
O
43E
n
43F

F.
r
440
Vel
441
T
442
at
443
f
444
X
445
ts
446
h
447
w
448
sch
449
ъ
44A
s
44B
b
44C
uh
44D
yu
44E
én
44F

UNICODE szabványos kódolások

Az Unicode egy karakterkódolási szabvány, amely lehetővé teszi a világ szinte összes írott nyelvének karaktereinek és speciális karaktereinek megjelenítését. A Unicode-ban megjelenített karakterek előjel nélküli egész számként vannak kódolva. A Unicode többféle módon ábrázolja a karaktereket a számítógépen: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) és UTF-32 (UTF-32BE, UTF-32LE). (angolul: Unicode transzformációs formátum - UTF).
UTF-8 jelenleg elterjedt kódolás, amelyet széles körben használnak az operációs rendszerekben és a weben. A 128-nál kisebb számozású Unicode-karakterekből álló szöveg (U+0000-tól U+007F-ig terjedő kódterület) beállított karaktereket tartalmaz ASCII a megfelelő kódokkal. Ezt követi a különféle szkriptek karaktereinek területei, írásjelek és technikai szimbólumok. Az U+0400-tól U+052F-ig, U+2DE0-tól U+2DFF-ig, U+A640-től U+A69F-ig terjedő kódú karakterterületek a cirill karakterekhez vannak hozzárendelve.

Kódolás UTF-8 univerzális, és lenyűgöző tartalékkal rendelkezik a jövőre nézve. Ez teszi a legkényelmesebb kódolást az interneten való használatra.



A megtekintéséhez engedélyezze a JavaScriptet

Weboldal létrehozásakor a kezdő webmestereknek gyakran felmerülnek kérdéseik: milyen kódolást kell használni a webhelyen, miben különbözik az UTF-8 a Windows-1251-től, és hogyan kell beírni a webhely HTML-oldalainak META karakterkészletébe. Mindezekre a kérdésekre a válasz ebben a cikkben található.

Mi az a webhelykódolás és hogyan működik?

A kódolás bemutatható táblázat formájában, amely különböző, ember számára érthető betűkből, számokból és egyéb szimbólumokból áll, amelyek bizonyos módon kódolva vannak. Amikor megnyitunk egy HTML oldalakat tartalmazó szöveges fájlt, a számítógép a fájl fejlécéből kiolvassa, hogy milyen kódolással lett elmentve, és a megfelelő kódolásban jeleníti meg a szöveget, a számítógép adatait az ember számára érthető formába alakítva az adatok összehasonlításával kódoló táblázat. Ha a fájl fejlécében található kódolási információ megegyezik azzal a kódolással, amelyben az adatokat tárolják a HTML oldalon, akkor a felhasználó az általa ismert betűket, számokat és egyéb szimbólumokat látja. Ha eltérés mutatkozik, annak az az eredménye, hogy a felhasználó számára érthetetlen karakterkészlet jelenik meg, különösen gyakran ez a régebbi levelezőprogramokban fordul elő. Ha a felhasználó érthetetlen halandzsás levelet kap, akkor egyszerűen különböző kódolásokon keresztül általában kitalálható és kiválasztható, hogy melyik betű van írva, és ennek eredményeként egy értelmezhetetlen karakterkészlet válik emberileg érthetővé. szöveg.

Ugyanez történik a webhely HTML-oldalaival is. Ha a dokumentumot például UTF-8 kódolással mentették, és maga a dokumentum tartalmaz egy META címkét, amely jelzi, hogy ez Windows-1251 kódolás, akkor a böngésző ismét összehasonlítja a fájlba mentett adatokat a kódolás táblázatával. és mivel a karakterek -eltérően vannak kódolva, a böngésző a megszokott szöveg helyett értelmezhetetlen karakterkészletet jelenít meg, vagy előfordulhat, hogy egyes betűk normál formában vannak, míg más betűk vagy szimbólumok jelenhetnek meg, pl. például kérdőjelek formájában. A fentiek mindegyike vonatkozik a fájlnevek megjelenítésére is.

Amikor új dokumentumot hoz létre egy szövegszerkesztőben, jobb, ha azonnal megbizonyosodik arról, hogy a kívánt kódolás van kiválasztva. A modern szerkesztők lehetővé teszik a megnyitott dokumentum szövegének egyik kódolásból a másikba való konvertálását, a szabványos Jegyzettömb pedig csak a fájl mentésekor teszi lehetővé a kódolás kiválasztását.

A leggyakoribb kódolások

Az előző bekezdésből már tudja, mi az a kódolás, és miért olyan fontos, hogy helyesen írja be a webhely oldalainak kódjába. Most nézzük meg, hogy a sok kódolás közül melyik a legjobb választás a jövőbeli webhelyhez. Mivel a legelterjedtebb és legkönnyebben megtanulható operációs rendszer mindig is a Windows operációs rendszer volt, a legtöbb webfejlesztő az alapértelmezés szerint használt Windows-1251 (ANSI) kódolásban készített HTML oldalakat. A Windows-1251 azonban nem támogatja túl sok betűt és szimbólumot, és a fejlesztők különféle nyilakat, szíveket, négyzeteket és egyéb szimbólumokat akarnak használni szövegeikben, beleértve a különböző nyelvű szavak egy dokumentumban való kombinálását, így már régóta lecserélték a kibővített UTF-8-ra, és a legtöbb fejlesztő ezt a kódolást használja.

Kódolási problémák nem csak a HTML oldalon

A webhely, legyen az egyszerűen statikus HTML dokumentumok gyűjteménye, vagy összetett dinamikus szkriptek, amelyek menet közben generálnak oldalakat, egy webszerveren tárolják, amely szintén meghatározott kódolással működik. És ha a szerver egy kódolásban szolgáltat információkat, és az oldalak vagy a szkriptek más kódolásban vannak mentve, akkor ismét problémák adódhatnak az oldalak megjelenítésével a felhasználó böngészőjében. Sok tárhely lehetővé teszi a beállítások módosítását és a kódolás kiválasztását a webhely fájljaiban használtnak megfelelően a vezérlőpulton keresztül, vagy beírhatja a .htaccess fájlba, ha a tárhely a népszerű Apache webszervert használja.

Szinte egyetlen modern webhely sem tud működni MySQL adatbázis használata nélkül, és kódolási problémák forrásává is válhat. Ha a webhelyfájlok egy kódolásban vannak elmentve, és az adatbázisban lévő információk egy másikban vannak, akkor az oldalon az adatbázisból kiadott információnak ez a része ugyanazon kérdőjelek vagy más érthetetlen szimbólumok formájában jeleníthető meg. . A kódolási problémák elkerülése érdekében a webszervernél, a MySQL adatbázisnál, a szkriptekben, a webhely HTML-oldalaiban és a META tag-ben azonosnak kell lennie, amely a HTML kódba van írva. Ha problémák vannak a szöveges megjelenítéssel, ellenőrizze a fentiek mindegyikében a problémát.

HTML dokumentum META karakterkészlete

Annak érdekében, hogy a böngésző és a keresőmotorok megtudják, milyen kódolásban vannak elmentve a webhely oldalai, egy META karakterkészletet írnak a kódjukba.

Windows-1251 kódolás esetén:

Oldal címe

Oldal szövege


UTF-8 kódolás esetén:

Oldal címe

Oldal szövege


Most már tudja, mi az a webhelykódolás, és hol keresse a problémákat, ha a szöveg helytelenül jelenik meg a webhely bármely részén.

A cikk másolása tilos.