Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> ฐานข้อมูล

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ฉันตื่นเต้นที่จะได้ต่อยอดจากโพสต์บล็อกก่อนหน้าUnified Data Platform - SQL 2019

ในชุดนี้ ฉันเจาะลึกถึงวิธีการบรรลุ data virtualization ผ่าน PolyBase® โพสต์นี้ครอบคลุมถึงข้อกำหนดเบื้องต้นและข้อกำหนดเบื้องต้นของการสาธิต และส่วนที่ 2 จะเข้าสู่การสาธิตเอง

สรุป

เพื่อรีเฟรชความทรงจำของคุณ จำได้ว่าโพสต์ก่อนหน้านี้ครอบคลุมรายการต่อไปนี้:

  1. วิวัฒนาการของ SQL Server® จาก DB Engine สู่ Unified Data Platform
  2. SQL 2019 นำเสนอ Unified Data Platform โดยใช้:
    • SQL DB Engine สำหรับ OLTP
    • การจำลองเสมือนข้อมูลผ่าน Polybase
    • Data Mart ผ่านร้าน Columnar
    • Data Lake ผ่าน HDFS
    • Big Data, ML, สตรีมมิ่งผ่าน Apache Spark
  3. การจัดการและการตรวจสอบโดยใช้ Azure® Data Studio (ADS)

แนะนำตัว

เนื่องจากข้อมูลมีอยู่ทั่วไปทุกหนทุกแห่ง เราต้องเผชิญกับความท้าทายอย่างต่อเนื่องในการย้ายหรือคัดลอกไปยังตำแหน่งอื่นเพื่อดำเนินการต่อไป ด้วยชุดข้อมูลขนาดเล็ก มันง่ายเพียงพอ แต่อาจเป็นปัญหากับขนาดข้อมูลที่เพิ่มขึ้นเรื่อยๆ นอกจากนี้ ด้วยการเพิ่มความก้าวหน้าของการทำเหมืองข้อมูลโดยองค์กร ผู้นำข้อมูลไม่สนับสนุนการเก็บข้อมูลไว้ในที่เดียว ในทำนองเดียวกัน การดึงหรือใช้ข้อมูลจากที่จัดเก็บข้อมูลต่างๆ ของข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างและ Big Data อาจเป็นเรื่องที่น่าเบื่อ

การจำลองเสมือนของข้อมูล คือทางออกของปัญหานี้

การจำลองข้อมูลเสมือนคืออะไร

การจำลองข้อมูลเสมือนเป็นแนวทางในการจัดการข้อมูลที่ช่วยให้แอปพลิเคชันสามารถดึงข้อมูลและจัดการข้อมูลโดยไม่ต้องมีรายละเอียดทางเทคนิคเกี่ยวกับข้อมูล เช่น แสดงว่ามีการจัดรูปแบบที่แหล่งที่มาหรือที่อยู่ทางกายภาพ สามารถให้ข้อมูลลูกค้าโดยรวมได้เพียงรายการเดียว

มีเครื่องมือ Data Virtualization มากมายในตลาด เช่นเครื่องมือต่อไปนี้:

  • Microsoft® Polybase®
  • Actifio® Virtual Data Pipe (VDP)
  • Informatica® Powercenter
  • IBM® Cloud Pak สำหรับข้อมูล
  • การจำลองข้อมูล RedHat® JBoss

สำหรับชุดนี้ ฉันเน้นที่ PolyBase ซึ่ง Microsoft เปิดตัวใน SQL 2016 และปรับปรุงด้วย SQL เวอร์ชันถัดมา

Polybase ช่วยให้ SQL Server สามารถเรียกใช้การสืบค้น Transact-SQL บนแหล่งข้อมูลภายนอก เช่น Azure® Blob, Hadoop®, Oracle®, MongoDB® และอื่นๆ Transact-SQL เดียวกันที่ใช้ในการประมวลผลข้อมูลภายนอกยังสามารถทำงานบนฐานข้อมูลเชิงสัมพันธ์ได้อีกด้วย ความสามารถนี้ช่วยรวมข้อมูลจากแหล่งภายนอกกับข้อมูลเชิงสัมพันธ์ในฐานข้อมูลของคุณ ภาพต่อไปนี้แสดงภาพประกอบอย่างง่ายของ SQL Polybase:

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 1


ตอนนี้คุณรู้พื้นฐานของ Polybase แล้ว ฉันต้องการแชร์การสาธิตที่ดึงข้อมูลจากแหล่งภายนอก anAzure blob โดยใช้ SQL PolyBase โพสต์นี้ครอบคลุมข้อกำหนดเบื้องต้นสำหรับการสาธิต

ข้อกำหนดเบื้องต้นของการสาธิต

ก่อนที่คุณจะสามารถเรียกใช้การสาธิต คุณต้องดำเนินการตามข้อกำหนดเบื้องต้นต่อไปนี้:

  1. ติดตั้ง SQL 2016 หรือใหม่กว่าด้วยคุณสมบัติ PolyBase
  2. เปิดใช้งาน PolyBase บน SQL Server
  3. สร้างบัญชี Azure Storage
  4. สร้างคอนเทนเนอร์ Azure blob
  5. วางไฟล์ข้อมูลในคอนเทนเนอร์ Blob
1. ติดตั้ง SQL Polybase

คุณสามารถติดตั้ง Polybase ด้วยอินสแตนซ์ SQL ได้เพียงอินสแตนซ์เดียวบนเครื่อง

ขณะนี้ ฉันมีอินสแตนซ์ SQL 2019 เริ่มต้นหนึ่งรายการที่ทำงานบนเครื่องในพื้นที่ของฉัน อย่างไรก็ตาม Idid ไม่ได้เลือก Polybase ระหว่างการติดตั้ง รูปภาพต่อไปนี้แสดงตัวจัดการการกำหนดค่าเซิร์ฟเวอร์ SQL:

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 2


ฉันต้องเรียกใช้การตั้งค่า SQL อีกครั้งและเลือกองค์ประกอบต่อไปนี้ระหว่างหน้าต่างการเลือกคุณสมบัติเพื่อติดตั้ง Polybase:

  • PolyBase Query Service สำหรับข้อมูลภายนอก
  • Java Connector สำหรับแหล่งข้อมูล HDFS

ไปข้างหน้าและเรียกใช้การตั้งค่า SQL และทำตามขั้นตอนต่อไปนี้เพื่อติดตั้ง PolyBasefeature คลิกต่อไปถัดไป จนถึงหน้าจอสุดท้าย จากนั้น คลิกเสร็จสิ้นการติดตั้ง แท็บ เลือกแท็บที่ไฮไลต์ด้วยสีแดงเข้ม

  1. คลิก การติดตั้ง ในแถบด้านข้างและเลือกการติดตั้ง SQL Server แบบสแตนด์อโลนใหม่หรือเพิ่มคุณสมบัติให้กับการติดตั้งที่มีอยู่ .
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 3


  1. หลังจากที่คุณถึง ประเภทการติดตั้ง หน้าต่าง เลือก เพิ่มคุณลักษณะให้กับอินสแตนซ์ที่มีอยู่ และเลือกอินสแตนซ์ที่ต้องการจากเมนูแบบเลื่อนลง
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 4


  1. หลังจากที่คุณไปถึง การเลือกคุณลักษณะ หน้าต่าง เลือกคุณสมบัติ PolyBase
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 5


  1. ใน การกำหนดค่า Polybase หน้าต่าง เลือกใช้ SQL Server นี้เป็นอินสแตนซ์ที่เปิดใช้งาน Polybase แบบสแตนด์อโลน .
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 6


  1. สำหรับตัวเลือกแถบด้านข้างที่เหลือ ให้เลือกค่าเริ่มต้นแล้วคลิก ติดตั้ง . หลังจาก insallation เสร็จสิ้น หน้าต่าง folloiwng จะแสดง:
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 7


ณ จุดนี้ คุณสามารถเห็นในตัวจัดการการกำหนดค่า SQL ว่าเรามีคุณสมบัติเพิ่มเติมอีกสองรายการติดตั้งอยู่ อย่างไรก็ตาม คุณอาจยังคงได้รับข้อความแสดงข้อผิดพลาด ไม่ได้ติดตั้ง Polybase ใน SSMS ในขณะที่พยายามเปิดใช้งาน Polybase ในการแก้ไขปัญหานี้ ให้รีสตาร์ทเซิร์ฟเวอร์หลังจากติดตั้ง Polybase

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 8


2. เปิดใช้งาน SQL Polybase

หากต้องการเปิดใช้งาน PolyBase ให้ทำตามขั้นตอนต่อไปนี้:

  1. เชื่อมต่อกับ SQL Server ใน SSMS และเรียกใช้แบบสอบถามต่อไปนี้เพื่อยืนยันว่าติดตั้ง Polybase สำเร็จแล้ว

     SELECT SERVERPROPERTY ('IsPolyBaseInstalled') AS IsSuccessfullyInstalled;
    

    รูปภาพต่อไปนี้แสดงผลลัพธ์สำหรับการติดตั้งที่สำเร็จ:

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 9

  1. เปิดใช้งาน Polybase โดยเรียกใช้แบบสอบถามต่อไปนี้:

     EXEC sp_configure 'polybase enabled', 1;
     Go
    
  2. เรียกใช้แบบสอบถามต่อไปนี้:

     Reconfigure
    

    คำถามนี้มีความสำคัญ หากไม่มีขั้นตอนนี้ ข้อผิดพลาดอาจปรากฏขึ้นระหว่างการสร้างรูปแบบไฟล์ภายนอกในขั้นตอนที่กล่าวถึงในส่วนที่ 3 ของชุดนี้

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 10


3. สร้างบัญชี Azure Storage

ทำตามขั้นตอนต่อไปนี้เพื่อสร้างบัญชี Azure Storage:

  1. เข้าสู่ระบบ Azure Portal โดยใช้ข้อมูลประจำตัวของคุณ

  2. ค้นหาบริการบัญชี Azure Storage และทำตามขั้นตอนต่อไปนี้เพื่อสร้างบัญชีที่เก็บข้อมูล คลิกต่อไปถัดไป จนถึงหน้าจอสุดท้าย จากนั้นคลิก ตรวจทานและสร้าง ตัวเลือก. เลือกแท็บที่ไฮไลต์ด้วยสีแดงเข้ม

  3. ใน แถบค้นหา Azure Portal , เลือก บัญชี Azure Storage แล้วคลิก + เพิ่ม เพื่อสร้างบัญชีเก็บข้อมูลใหม่

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 11


  1. ใน พื้นฐาน ป้อนรายละเอียดที่จำเป็นแล้วคลิก ถัดไป:เครือข่าย .
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 12


  1. คงการตั้งค่าเริ่มต้นสำหรับเครือข่าย , การปกป้องข้อมูล , ขั้นสูง และแท็ก หน้าจอ

  2. จากนั้น คลิกตรวจทาน+สร้าง และหลังจากการตรวจสอบสำเร็จ ให้คลิก สร้างแท็บ เพื่อสร้างบัญชีที่เก็บข้อมูลดังแสดงในภาพต่อไปนี้:

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 13

  1. ในการทำให้ใช้งานได้สำเร็จ ให้คลิก ไปที่ทรัพยากร ซึ่งจะนำคุณไปยังบัญชี createdstorage
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 14


4. สร้างคอนเทนเนอร์ Azure

ในการสร้างคอนเทนเนอร์ Azure ให้ไปที่บัญชีที่เก็บข้อมูล Azure ที่สร้างขึ้น คลิก คอนเทนเนอร์ ในบานหน้าต่างด้านซ้าย แล้วคลิก +คอนเทนเนอร์ .

แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 15


5. วางไฟล์ข้อมูลลงในคอนเทนเนอร์

ในขั้นตอนนี้ ให้สร้างไฟล์ข้อมูลข้อความและอัปโหลดไปยังคอนเทนเนอร์

  1. สร้างไฟล์ข้อความที่คล้ายกับไฟล์ต่อไปนี้:
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 16


หมายเหตุ :คุณยังสามารถใช้ CSV, Excel® หรือแหล่งข้อมูลภายนอกอื่นๆ ได้อีกด้วย อย่างไรก็ตาม คุณต้องทำตามขั้นตอนเพิ่มเติมสองสามขั้นตอน ทั้งนี้ขึ้นอยู่กับแหล่งข้อมูลภายนอก ตัวอย่างเช่น สำหรับแหล่งข้อมูล CSV หรือ Excel คุณควรติดตั้งไดรเวอร์ที่เหมาะสมบน SQL Server และเพิ่มคุณสมบัติการเชื่อมต่อให้กับชื่อแหล่งข้อมูล ODBC (DSN) คุณสามารถใช้ Microsoft ODBCData Source Administrator เพื่อสร้างและกำหนดค่า ODBC DSNs

  1. ไปที่คอนเทนเนอร์ที่คุณสร้างขึ้น polybasedemocontainer คลิก อัปโหลด คลิกไอคอนโฟลเดอร์ทางด้านขวามือ และเลือกไฟล์ที่จะอัปโหลด
แพลตฟอร์มข้อมูลแบบรวมศูนย์และการจำลองเสมือนข้อมูลผ่าน PolyBase:ตอนที่หนึ่ง

ภาพที่ 17


ขั้นตอนต่อไป

คุณทำข้อกำหนดเบื้องต้นสำหรับการสาธิต PolyBase สำเร็จแล้ว ส่วนที่ 2 นำเสนอการสาธิต

ใช้แท็บคำติชมเพื่อแสดงความคิดเห็นหรือถามคำถาม คุณสามารถเริ่มการสนทนากับเราได้