แปลงข้อความโดยใช้ NLTK ใน python

ด้วยลำดับของอักขระและหน่วยเอกสารที่กำหนดไว้ การทำโทเค็นให้เป็นงานในการตัดออกเป็นชิ้นๆ เรียกว่าโทเค็น บางทีก็ทิ้งอักขระบางตัวทิ้งไปในเวลาเดียวกัน เช่น เครื่องหมายวรรคตอน ในบริบทของ nltk และ python มันเป็นเพียงกระบวนการในการวางโทเค็นแต่ละรายการในรายการ ดังนั้นแทนที่จะวนซ้ำทีละตัวอักษร เราสามารถวนซ้ำบนโทเค็นได้

ตัวอย่างเช่น กำหนดสตริงอินพุต −

Hi man, how have you been?

เราควรจะได้ผลลัพธ์ -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

เราสามารถแปลงข้อความนี้โดยใช้วิธี word_tokenize จาก NLTK ตัวอย่างเช่น

ตัวอย่าง

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

ผลลัพธ์

สิ่งนี้จะให้ผลลัพธ์ -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']