ด้วยลำดับของอักขระและหน่วยเอกสารที่กำหนดไว้ การทำโทเค็นให้เป็นงานในการตัดออกเป็นชิ้นๆ เรียกว่าโทเค็น บางทีก็ทิ้งอักขระบางตัวทิ้งไปในเวลาเดียวกัน เช่น เครื่องหมายวรรคตอน ในบริบทของ nltk และ python มันเป็นเพียงกระบวนการในการวางโทเค็นแต่ละรายการในรายการ ดังนั้นแทนที่จะวนซ้ำทีละตัวอักษร เราสามารถวนซ้ำบนโทเค็นได้
ตัวอย่างเช่น กำหนดสตริงอินพุต −
Hi man, how have you been?
เราควรจะได้ผลลัพธ์ -
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
เราสามารถแปลงข้อความนี้โดยใช้วิธี word_tokenize จาก NLTK ตัวอย่างเช่น
ตัวอย่าง
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
ผลลัพธ์
สิ่งนี้จะให้ผลลัพธ์ -
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']