Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

Tensorflow สามารถใช้ดาวน์โหลดและสำรวจชุดข้อมูล IMDB ใน Python ได้อย่างไร


Tensorflow คือเฟรมเวิร์กแมชชีนเลิร์นนิงที่ให้บริการโดย Google เป็นเฟรมเวิร์กโอเพนซอร์ซที่ใช้ร่วมกับ Python เพื่อใช้อัลกอริทึม แอปพลิเคชันการเรียนรู้เชิงลึก และอื่นๆ อีกมากมาย ใช้ในการวิจัยและเพื่อการผลิต

เนื่องจากใช้ NumPy และอาร์เรย์หลายมิติ อาร์เรย์หลายมิติเหล่านี้เรียกอีกอย่างว่า 'เทนเซอร์' เฟรมเวิร์กรองรับการทำงานกับโครงข่ายประสาทเทียมระดับลึก สามารถปรับขนาดได้สูงและมาพร้อมกับชุดข้อมูลยอดนิยมมากมาย ใช้การคำนวณ GPU และจัดการทรัพยากรโดยอัตโนมัติ มันมาพร้อมกับไลบรารีการเรียนรู้ของเครื่องจำนวนมาก และได้รับการสนับสนุนและจัดทำเป็นเอกสารอย่างดี เฟรมเวิร์กมีความสามารถในการใช้งานโมเดล Deep Neural Network ฝึกอบรม และสร้างแอปพลิเคชันที่คาดการณ์ลักษณะที่เกี่ยวข้องของชุดข้อมูลที่เกี่ยวข้อง

แพ็คเกจ 'tensorflow' สามารถติดตั้งบน Windows ได้โดยใช้บรรทัดโค้ดด้านล่าง -

pip ติดตั้งเทนเซอร์โฟลว์

Tensor เป็นโครงสร้างข้อมูลที่ใช้ใน TensorFlow ช่วยเชื่อมต่อขอบในแผนภาพการไหล แผนภาพการไหลนี้เรียกว่า 'กราฟการไหลของข้อมูล' เทนเซอร์เป็นเพียงอาร์เรย์หลายมิติหรือรายการ พวกเขาสามารถระบุได้โดยใช้สามคุณลักษณะหลัก -

ชุดข้อมูล 'IMDB' มีบทวิจารณ์ภาพยนตร์มากกว่า 50,000 เรื่อง โดยทั่วไปชุดข้อมูลนี้ใช้กับการดำเนินการที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติ

เรากำลังใช้ Google Colaboratory เพื่อเรียกใช้โค้ดด้านล่าง Google Colab หรือ Colaboratory ช่วยเรียกใช้โค้ด Python บนเบราว์เซอร์และไม่ต้องมีการกำหนดค่าใดๆ และเข้าถึง GPU ได้ฟรี (หน่วยประมวลผลกราฟิก) Colaboratory สร้างขึ้นบน Jupyter Notebook

ต่อไปนี้เป็นรหัส -

ตัวอย่าง

นำเข้า matplotlib.pyplot เป็น pltimport osimport นำเข้าอีกครั้ง สตริงShutilimportนำเข้า tensorflow เป็น tffrom tensorflow.keras นำเข้าเลเยอร์จาก tensorflow.keras นำเข้าการสูญเสียจาก tensorflow.keras นำเข้าการประมวลผลล่วงหน้าจาก tensorflow.keras.layers.experimental.preprinting นำเข้าเวอร์ชัน TextVectorization พิมพ์ (tf.__version__) url ="https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"dataset =tf.keras.utils.get_file("aclImdb_v1.tar.gz", url, untar=True, cache_dir='.', cache_subdir='')print("กำลังดาวน์โหลดชุดข้อมูล")dataset_dir =os.path.join(os.path.dirname(dataset), 'aclImdb')print( "ไดเร็กทอรีในโฟลเดอร์ที่ดาวน์โหลดคือ ") os.listdir(dataset_dir)train_dir =os.path.join(dataset_dir, 'train')os.listdir(train_dir)print("The sample of data :")sample_file =os path.join(train_dir, 'pos/1181_9.txt') โดยเปิด (sample_file) เป็น f:print(f.read())remove_dir =os.path.join(tr ain_dir, 'unsup')shutil.rmtree(remove_dir)batch_size =32seed =42print("The batch size is")print(batch_size)raw_train_ds =tf.keras.preprocessing.text_dataset_from_directory( 'aclImdb/train', batch_size=batch_ =0.2, ชุดย่อย='การฝึกอบรม', เมล็ด=เมล็ดพืช)สำหรับ text_batch, label_batch ใน raw_train_ds.take(1):สำหรับฉันในช่วง(3):พิมพ์("ตรวจสอบ", text_batch.numpy()[i]) พิมพ์ ( "Label", label_batch.numpy()[i]) print("Label 0 สอดคล้องกับ", raw_train_ds.class_names[0])print("Label 1 สอดคล้องกับ", raw_train_ds.class_names[1])raw_val_ds =tf.keras .preprocessing.text_dataset_from_directory( 'aclImdb/train', batch_size=batch_size, validation_split=0.2, subset='validation', seed=seed)raw_test_ds =tf.keras.preprocessing.text_dataset_from_directsize_( 'aclImdb=test', /pre> 

เครดิตโค้ด − https://www.tensorflow.org/tutorials/keras/text_classification

ผลลัพธ์

เวอร์ชันเทนเซอร์โฟลว์คือ2.4.0กำลังดาวน์โหลดชุดข้อมูลไดเรกทอรีในโฟลเดอร์ที่ดาวน์โหลดคือตัวอย่างข้อมูล :ราเชล กริฟฟิธส์เขียนและกำกับภาพยนตร์สั้นที่ได้รับรางวัลนี้ เรื่องราวอบอุ่นหัวใจเกี่ยวกับการรับมือกับความเศร้าโศกและการรำลึกถึงคนที่เรารักและสูญเสีย แม้ว่าจะมีความยาวเพียง 15 นาทีเท่านั้น Griffiths ก็สามารถบันทึกอารมณ์และความจริงมากมายลงบนภาพยนตร์ได้ในช่วงเวลาสั้นๆ บัด ทิงเวลล์แสดงการแสดงที่น่าประทับใจในบทวิล พ่อหม้ายที่พยายามรับมือกับการตายของภรรยาของเขา วิลล์ต้องเผชิญกับความจริงอันโหดร้ายของความเหงาและความสิ้นหวังในขณะที่เขาดำเนินการดูแลทิวลิปวัวเลี้ยงของรูธ ภาพยนตร์เรื่องนี้แสดงความเศร้าโศกและความรับผิดชอบที่เรารู้สึกต่อผู้ที่พวกเขารักและสูญเสีย กำกับภาพดี กำกับดี และแสดงได้ยอดเยี่ยม จะทำให้ทุกคนที่สูญเสียคนที่รักและรอดตาย ขนาดแบทช์คือ32พบไฟล์ 25000 เป็นของ 2 คลาส ใช้ไฟล์ฝึก 20000 ไฟล์ รีวิว "Pandemonium" เป็นการล้อเลียนหนังสยองขวัญที่ดูโง่เง่ากว่า กว่าตลก เชื่อฉันเถอะ เมื่อฉันบอกคุณ ฉันรักคอมเมดี้ โดยเฉพาะเรื่องตลกล้อเลียน ภาพยนตร์ไตรภาคเรื่อง "Airplane", "The Naked Gun", "Blazing Saddles", "High Anxiety" และ "Spaceballs" เป็นภาพยนตร์คอมเมดี้ที่ฉันโปรดปรานซึ่งสวมบทบาทเป็นประเภทใดประเภทหนึ่ง "Pandemonium" ไม่ได้อยู่ที่นั่นกับภาพยนตร์เหล่านั้น ฉากส่วนใหญ่ในหนังเรื่องนี้ทำให้ฉันนั่งอยู่ในความเงียบงันเพราะว่าหนังไม่ได้ตลกขนาดนั้น ในภาพยนตร์มีเสียงหัวเราะอยู่บ้าง แต่เมื่อคุณดูตลก คุณคาดหวังที่จะหัวเราะมากกว่าสองสามครั้ง และนั่นคือทั้งหมดที่หนังเรื่องนี้ต้องเผชิญ ฮึก "กรี๊ด" มีเสียงหัวเราะมากกว่าหนังเรื่องนี้ และนั่นเป็นหนังสยองขวัญมากกว่า แปลกมากขนาดไหน*1/2 (จากทั้งหมดสี่)'Label 0Review b"David Mamet เป็นผู้กำกับที่น่าสนใจมากและมีความไม่เท่าเทียมกันอย่างมาก ภาพยนตร์เรื่องแรกของเขา 'House of Games' เป็นเรื่องที่ฉันชอบมากที่สุด และมัน กำหนดชุดของภาพยนตร์ที่มีตัวละครซึ่งมุมมองของชีวิตเปลี่ยนไปเมื่อพวกเขาเข้าสู่สถานการณ์ที่ซับซ้อนและมุมมองของผู้ชมก็เช่นกัน 'การฆาตกรรม' ก็เช่นกันซึ่งจากชื่อเรื่องพยายามทำให้จิตใจของผู้ชมเข้าสู่ละครอาชญากรรมตามปกติ ตัวละครหลักคือตำรวจ 2 นาย ชาวยิว 1 คน และชาวไอริช 1 คน ที่จัดการกับพื้นที่ที่ถูกตั้งข้อหาทางเชื้อชาติ การลอบสังหารเจ้าของร้านค้าชาวยิวเก่าที่พิสูจน์ให้เห็นว่าเป็นทหารผ่านศึกในสงครามประกาศอิสรภาพของอิสราเอลในสมัยโบราณได้จุดชนวนเอกลักษณ์ของชาวยิวในจิตใจและหัวใจ ของนักสืบชาวยิว นี่คือจุดอ่อนของหนังที่ชัดกว่ากระบวนการปลุกคือการแสดงละครและยากจะเชื่อ กลุ่มติดอาวุธชาวยิวคือโอเปร่า และวิธีที่นักสืบเดินไปสู่การเผชิญหน้ารุนแรงครั้งสุดท้ายคือ น่าสงสาร ตอนจบของหนัง itse แม้จะฉลาดเหมือนมาเม็ต แต่ก็ผิดหวังจากมุมมองทางอารมณ์ของมนุษย์ โจ แมนเทกน่าและวิลเลียม เมซีแสดงได้อย่างแข็งแกร่ง แต่ข้อบกพร่องของเรื่องราวนั้นชัดเจนเกินกว่าจะชดเชยได้ง่ายๆ"Label 0Review b'Great documentary about the lives of NY นักผจญเพลิงในช่วงการโจมตีของผู้ก่อการร้ายที่เลวร้ายที่สุดตลอดกาล.. เหตุผลเพียงอย่างเดียวคือเหตุผลที่ควรเป็นของสะสมที่ควรดู.. สิ่งที่ทำให้ฉันตกใจไม่ใช่แค่การโจมตีเท่านั้น แต่ยังรวมถึง "อาหารไขมันสูง" และลักษณะทางกายภาพของนักผจญเพลิงเหล่านี้บางคน . ฉันคิดว่าแพทย์หลายคนคงเห็นด้วยกับฉันว่าในสภาพร่างกายที่พวกเขาอยู่ นักผจญเพลิงเหล่านี้บางคนไม่สามารถขึ้นไปที่ชั้น 79 ซึ่งบรรทุกอุปกรณ์หนักกว่า 60 ปอนด์ได้ ต้องบอกว่าตอนนี้ฉันมีความเคารพต่อนักผจญเพลิงมากขึ้นและฉันรู้ว่าการเป็นนักผจญเพลิงเป็นงานที่เปลี่ยนแปลงชีวิต ชาวฝรั่งเศสมีประวัติในการสร้างสารคดีที่ยอดเยี่ยม และนั่นคือสิ่งที่นี่คือ Great Documentary.....'Label 1Label 0 สอดคล้องกับ negLabel 1 ที่สอดคล้องกับ posFound 25000 ไฟล์ที่เป็นของ 2 คลาส โดยใช้ไฟล์ 5,000 ไฟล์สำหรับการตรวจสอบ .พบ 25,000 ไฟล์ที่เป็นของ 2 คลาส

คำอธิบาย

  • แพ็คเกจที่จำเป็นจะถูกนำเข้าและนามแฝง

  • ข้อมูล ImdB ถูกโหลดและจัดเก็บไว้ในตำแหน่งเพื่อให้ Colab เข้าถึงได้

  • ตัวอย่างข้อมูลดั้งเดิมจะแสดงบนคอนโซล

  • ข้อมูลดั้งเดิมแบ่งออกเป็นชุดข้อมูลการฝึกอบรมและทดสอบ

  • ข้อมูลการฝึกใช้ในการสร้างแบบจำลอง

  • ข้อมูลที่ให้มาจะพยายามจัดประเภทเป็นบทวิจารณ์เชิงลบหรือค่าบวก