โมดูล unicodedata ใช้เพื่อเข้าถึงอักขระ Unicode ทั้งหมดโดยใช้ฐานข้อมูลอักขระ Unicode ในฐานข้อมูลนี้มีคุณสมบัติอักขระของอักขระทั้งหมด
ในการใช้โมดูลนี้ เราจำเป็นต้องนำเข้า unicodedata โมดูลในรหัสของเรา
import unicodedata
วิธีการฐานข้อมูล Unicode
อธิบายโมดูลบางโมดูลของ unicodedata ที่นี่
โมดูล (unicodedata.lookup(ชื่อ)) -
วิธีนี้ใช้เพื่อค้นหาอักขระตามชื่อ เมื่อชื่อถูกต้องก็ควรส่งคืนอักขระ มิฉะนั้นจะทำให้เกิด KeyError
โมดูล (unicodedata.name(chr[, default]))−
วิธีนี้ใช้เพื่อส่งคืนชื่อของอักขระที่กำหนดเป็นสตริง หากกำหนดค่าเริ่มต้นไว้ อาจคืนค่าดีฟอลต์เมื่อไม่มีอักขระในฐานข้อมูล มิฉะนั้นจะเพิ่ม ValueError
โมดูล (unicodedata.digit(chr[, ค่าเริ่มต้น])) -
วิธีนี้ใช้เพื่อส่งคืนตัวเลขจำนวนเต็มของอักขระที่กำหนด หากกำหนดค่าเริ่มต้นไว้ อาจคืนค่าดีฟอลต์ เมื่ออักขระไม่มีอยู่หรือไม่ถูกต้องในฐานข้อมูล มิฉะนั้น จะทำให้เกิด ValueError
โมดูล (unicodedata.category(chr)) -
วิธีนี้ใช้เพื่อส่งคืนหมวดหมู่ทั่วไปซึ่งกำหนดด้วยอักขระ เช่นเดียวกับตัวอักษร จะส่งกลับ 'L' สำหรับอักษรตัวพิมพ์ใหญ่ จะเป็น 'u' สำหรับการเปิดวงเล็บ จะส่งกลับ Ps (เครื่องหมายวรรคตอนเริ่มต้น) เป็นต้น
โมดูล (unicodedata.mirrored(chr))−
วิธีนี้ใช้เพื่อตรวจสอบว่าอักขระนั้นมีอักขระที่มิเรอร์หรือไม่ อักขระบางตัวมีอักขระที่สะท้อนเช่น '(' และ ')' เป็นต้น เมื่อตรงกับอักขระที่ทำมิเรอร์ อักขระจะคืนค่า 1 มิฉะนั้น 0
โค้ดตัวอย่าง
import unicodedata as ud
print(ud.lookup('ASTERISK'))
print(ud.lookup('Latin Capital letter G'))
#The Unicode name from the characters
print(ud.name(u'x'))
print(ud.name(u'°'))
#The Unicode character to decimal and numerics
print(ud.decimal(u'6'))
print(ud.numeric(u'9'))
#The Unicode character categoty
print(ud.category(u'A'))
print(ud.category(u'9'))
print(ud.category(u'[')) #Punctuation Start
#Unicode character to check whether mirrored or not
print(ud.mirrored(u'A'))
print(ud.mirrored(u'<'))
ผลลัพธ์
* G LATIN SMALL LETTER X DEGREE SIGN 6 9.0 Lu Nd Ps 0 1