Tensorflow สามารถใช้โหลดชุดข้อมูล Illiad โดยใช้ Python ได้อย่างไร

Tensorflow คือเฟรมเวิร์กแมชชีนเลิร์นนิงที่ให้บริการโดย Google เป็นเฟรมเวิร์กโอเพนซอร์สที่ใช้ร่วมกับ Python เพื่อใช้อัลกอริทึม แอปพลิเคชันการเรียนรู้เชิงลึก และอื่นๆ อีกมากมาย ใช้ในการวิจัยและเพื่อการผลิต

Tensor เป็นโครงสร้างข้อมูลที่ใช้ใน TensorFlow ช่วยเชื่อมต่อขอบในแผนภาพการไหล แผนภาพการไหลนี้เรียกว่า 'กราฟการไหลของข้อมูล' เทนเซอร์เป็นเพียงอาร์เรย์หลายมิติหรือรายการ

พวกเขาสามารถระบุได้โดยใช้สามคุณลักษณะหลัก -

อันดับ − มันบอกเกี่ยวกับมิติของเทนเซอร์ สามารถเข้าใจได้ว่าเป็นลำดับของเทนเซอร์หรือจำนวนมิติในเทนเซอร์ที่กำหนดไว้
ประเภท − มันบอกเกี่ยวกับประเภทข้อมูลที่เกี่ยวข้องกับองค์ประกอบของเทนเซอร์ อาจเป็นเทนเซอร์แบบหนึ่งมิติ สองมิติ หรือ n มิติก็ได้
รูปร่าง − เป็นจำนวนแถวและคอลัมน์รวมกัน

เราจะใช้ชุดข้อมูลของ Illiad ซึ่งมีข้อมูลข้อความของงานแปลสามงานจาก William Cowper, Edward (Earl of Derby) และ Samuel Butler โมเดลนี้ได้รับการฝึกฝนเพื่อระบุตัวแปลเมื่อมีการให้ข้อความบรรทัดเดียว ไฟล์ข้อความที่ใช้ได้รับการประมวลผลล่วงหน้า ซึ่งรวมถึงการนำส่วนหัวและส่วนท้ายของเอกสาร หมายเลขบรรทัด และชื่อบทออก

เรากำลังใช้ Google Colaboratory เพื่อเรียกใช้โค้ดด้านล่าง Google Colab หรือ Colaboratory ช่วยเรียกใช้โค้ด Python บนเบราว์เซอร์และไม่ต้องมีการกำหนดค่าใดๆ และเข้าถึง GPU ได้ฟรี (หน่วยประมวลผลกราฟิก) Colaboratory ถูกสร้างขึ้นบน Jupyter Notebook

ตัวอย่าง

ต่อไปนี้เป็นข้อมูลโค้ด -

def labeler(example, index):
   return example, tf.cast(index, tf.int64)
print(“An empty list has been created”)
labeled_data_sets = []
print(“Iterate through the file names and create a dataset from text file using ‘TextLineDataset’
method”)
for i, file_name in enumerate(FILE_NAMES):
   lines_dataset = tf.data.TextLineDataset(str(parent_dir/file_name))
   labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
   labeled_data_sets.append(labeled_dataset)

เครดิตโค้ด – https://www.tensorflow.org/tutorials/load_data/text

ผลลัพธ์

An empty list has been created
Iterate through the file names and create a dataset from text file using ‘TextLineDataset’ method

คำอธิบาย

ใช้ "TextLineDataset" ซึ่งสร้างชุดข้อมูล tf.data.A จากไฟล์ข้อความ
ทุกตัวอย่างเป็นบรรทัดข้อความจากไฟล์ต้นฉบับ
'text_dataset_from_directory' ถือว่าเนื้อหาของไฟล์เป็นตัวอย่างเดียว
TextLineDataset มีประโยชน์เมื่อทำงานกับข้อมูลข้อความที่อิงตามบรรทัด
วนซ้ำไฟล์เหล่านี้และโหลดทุกแถวลงในชุดข้อมูลของตัวเอง
ทุกตัวอย่างควรมีป้ายกำกับแยกกัน ดังนั้น 'tf.data.Dataset.map' จึงถูกใช้เพื่อใช้ฟังก์ชันตัวติดป้ายกำกับกับทุกแถว
สิ่งนี้จะวนซ้ำทุกตัวอย่างในชุดข้อมูล และส่งคืนคู่ (ตัวอย่าง เลเบล) เป็นเอาต์พุต