Python Unicode ฐานข้อมูล

โมดูล unicodedata ใช้เพื่อเข้าถึงอักขระ Unicode ทั้งหมดโดยใช้ฐานข้อมูลอักขระ Unicode ในฐานข้อมูลนี้มีคุณสมบัติอักขระของอักขระทั้งหมด

ในการใช้โมดูลนี้ เราจำเป็นต้องนำเข้า unicodedata โมดูลในรหัสของเรา

import unicodedata

วิธีการฐานข้อมูล Unicode

อธิบายโมดูลบางโมดูลของ unicodedata ที่นี่

โมดูล (unicodedata.lookup(ชื่อ)) -

วิธีนี้ใช้เพื่อค้นหาอักขระตามชื่อ เมื่อชื่อถูกต้องก็ควรส่งคืนอักขระ มิฉะนั้นจะทำให้เกิด KeyError

โมดูล (unicodedata.name(chr[, default]))−

วิธีนี้ใช้เพื่อส่งคืนชื่อของอักขระที่กำหนดเป็นสตริง หากกำหนดค่าเริ่มต้นไว้ อาจคืนค่าดีฟอลต์เมื่อไม่มีอักขระในฐานข้อมูล มิฉะนั้นจะเพิ่ม ValueError

โมดูล (unicodedata.digit(chr[, ค่าเริ่มต้น])) -

วิธีนี้ใช้เพื่อส่งคืนตัวเลขจำนวนเต็มของอักขระที่กำหนด หากกำหนดค่าเริ่มต้นไว้ อาจคืนค่าดีฟอลต์ เมื่ออักขระไม่มีอยู่หรือไม่ถูกต้องในฐานข้อมูล มิฉะนั้น จะทำให้เกิด ValueError

โมดูล (unicodedata.category(chr)) -

วิธีนี้ใช้เพื่อส่งคืนหมวดหมู่ทั่วไปซึ่งกำหนดด้วยอักขระ เช่นเดียวกับตัวอักษร จะส่งกลับ 'L' สำหรับอักษรตัวพิมพ์ใหญ่ จะเป็น 'u' สำหรับการเปิดวงเล็บ จะส่งกลับ Ps (เครื่องหมายวรรคตอนเริ่มต้น) เป็นต้น

โมดูล (unicodedata.mirrored(chr))−

วิธีนี้ใช้เพื่อตรวจสอบว่าอักขระนั้นมีอักขระที่มิเรอร์หรือไม่ อักขระบางตัวมีอักขระที่สะท้อนเช่น '(' และ ')' เป็นต้น เมื่อตรงกับอักขระที่ทำมิเรอร์ อักขระจะคืนค่า 1 มิฉะนั้น 0

โค้ดตัวอย่าง

import unicodedata as ud
print(ud.lookup('ASTERISK'))
print(ud.lookup('Latin Capital letter G'))

#The Unicode name from the characters
print(ud.name(u'x'))
print(ud.name(u'°'))

#The Unicode character to decimal and numerics
print(ud.decimal(u'6'))
print(ud.numeric(u'9'))

#The Unicode character categoty
print(ud.category(u'A'))
print(ud.category(u'9'))
print(ud.category(u'[')) #Punctuation Start

#Unicode character to check whether mirrored or not
print(ud.mirrored(u'A'))
print(ud.mirrored(u'<'))

ผลลัพธ์

*
G
LATIN SMALL LETTER X
DEGREE SIGN
6
9.0
Lu
Nd
Ps
0
1