การเข้ารหัสอักขระเป็นวิธีการแปลงไบต์เป็นอักขระ ในการตรวจสอบหรือแสดงเอกสาร HTML โปรแกรมต้องเลือกการเข้ารหัสอักขระ ผู้เขียน HTML5 มีสามวิธีในการตั้งค่าการเข้ารหัสอักขระ:
ส่วนหัวของประเภทเนื้อหา HTTP
หากคุณกำลังเขียน CGI หรือโปรแกรมที่คล้ายกัน คุณจะต้องใช้ส่วนหัว HTTP Content-Type เพื่อตั้งค่าการเข้ารหัสอักขระใดๆ
print "Content-Type: text/html; charset=utf-8\r\n";
องค์ประกอบ
คุณสามารถใช้ องค์ประกอบที่มีแอตทริบิวต์ชุดอักขระที่ระบุการเข้ารหัสภายใน 512 ไบต์แรกของเอกสาร HTML5
<meta charset="UTF-8">
เครื่องหมายสั่งซื้อ Unicode Byte (BOM)
เครื่องหมายลำดับไบต์ (BOM) ประกอบด้วยรหัสอักขระ U+FEFF ที่จุดเริ่มต้นของสตรีมข้อมูล ซึ่งสามารถใช้เป็นลายเซ็นที่กำหนดลำดับไบต์และรูปแบบการเข้ารหัสได้ โดยส่วนใหญ่เป็นไฟล์ข้อความธรรมดาที่ไม่ได้ทำเครื่องหมาย