ด้วยลำดับของอักขระและหน่วยเอกสารที่กำหนดไว้ การทำโทเค็นให้เป็นงานในการตัดออกเป็นชิ้นๆ เรียกว่าโทเค็น บางทีก็ทิ้งอักขระบางตัวทิ้งไปในเวลาเดียวกัน เช่น เครื่องหมายวรรคตอน ในบริบทของ nltk และ python มันเป็นเพียงกระบวนการในการวางโทเค็นแต่ละรายการในรายการ ดังนั้นแทนที่จะวนซ้ำทีละตัวอักษร เราสามารถวนซ้ำบน