Tensorflow สามารถใช้ทำงานกับสตริงย่อยอักขระใน Python ได้อย่างไร

สตริงย่อยของอักขระสามารถใช้กับ Tensorflow โดยใช้วิธี 'substr' ซึ่งมีอยู่ในโมดูล 'strings' ของ Tensorflow จากนั้นจะถูกแปลงเป็นอาร์เรย์ Numpy แล้วแสดงผล

อ่านเพิ่มเติม: TensorFlow คืออะไรและ Keras ทำงานร่วมกับ TensorFlow เพื่อสร้าง Neural Networks อย่างไร

เราจะมาดูวิธีการแสดงสตริง Unicode โดยใช้ Python และจัดการกับสตริงที่ใช้ Unicode ที่เทียบเท่ากัน ขั้นแรก แยกสตริง Unicode เป็นโทเค็นตามการตรวจจับสคริปต์โดยใช้ Unicode ที่เทียบเท่ากับ ops สตริงมาตรฐาน

เรากำลังใช้ Google Colaboratory เพื่อเรียกใช้โค้ดด้านล่าง Google Colab หรือ Colaboratory ช่วยเรียกใช้โค้ด Python บนเบราว์เซอร์และไม่ต้องมีการกำหนดค่าใดๆ และเข้าถึง GPU ได้ฟรี (หน่วยประมวลผลกราฟิก) Colaboratory ถูกสร้างขึ้นบน Jupyter Notebook

print("หน่วยเริ่มต้นคือไบต์")print("เมื่อ len เป็น 1 ไบต์เดียวจะถูกส่งคืน")tf.strings.substr(ขอบคุณ pos=7, len=1).numpy()print( "หน่วยถูกระบุเป็น UTF8_CHAR")print("มันใช้เวลาถึง 4 ไบต์")print(tf.strings.substr(ขอบคุณ pos=7, len=1, unit='UTF8_CHAR').numpy())

เครดิตโค้ด:https://www.tensorflow.org/tutorials/load_data/unicode

ผลลัพธ์

หน่วยเริ่มต้นคือ byte เมื่อ len เป็น 1 ไบต์เดียวจะถูกส่งคืน หน่วยถูกระบุเป็น UTF8_CHARIt ใช้พื้นที่สูงสุด 4 ไบต์''

คำอธิบาย

การดำเนินการ tf.strings.substr ใช้พารามิเตอร์ "unit"
จากนั้นจะใช้สิ่งนี้เพื่อกำหนดประเภทของการชดเชยที่ paremeter "pos" และ "len" จะมีอยู่