ฉันตื่นเต้นที่จะได้ต่อยอดจากโพสต์บล็อกก่อนหน้าUnified Data Platform - SQL 2019
ในชุดนี้ ฉันเจาะลึกถึงวิธีการบรรลุ data virtualization ผ่าน PolyBase® โพสต์นี้ครอบคลุมถึงข้อกำหนดเบื้องต้นและข้อกำหนดเบื้องต้นของการสาธิต และส่วนที่ 2 จะเข้าสู่การสาธิตเอง
สรุป
เพื่อรีเฟรชความทรงจำของคุณ จำได้ว่าโพสต์ก่อนหน้านี้ครอบคลุมรายการต่อไปนี้:
- วิวัฒนาการของ SQL Server® จาก DB Engine สู่ Unified Data Platform
- SQL 2019 นำเสนอ Unified Data Platform โดยใช้:
- SQL DB Engine สำหรับ OLTP
- การจำลองเสมือนข้อมูลผ่าน Polybase
- Data Mart ผ่านร้าน Columnar
- Data Lake ผ่าน HDFS
- Big Data, ML, สตรีมมิ่งผ่าน Apache Spark
- การจัดการและการตรวจสอบโดยใช้ Azure® Data Studio (ADS)
แนะนำตัว
เนื่องจากข้อมูลมีอยู่ทั่วไปทุกหนทุกแห่ง เราต้องเผชิญกับความท้าทายอย่างต่อเนื่องในการย้ายหรือคัดลอกไปยังตำแหน่งอื่นเพื่อดำเนินการต่อไป ด้วยชุดข้อมูลขนาดเล็ก มันง่ายเพียงพอ แต่อาจเป็นปัญหากับขนาดข้อมูลที่เพิ่มขึ้นเรื่อยๆ นอกจากนี้ ด้วยการเพิ่มความก้าวหน้าของการทำเหมืองข้อมูลโดยองค์กร ผู้นำข้อมูลไม่สนับสนุนการเก็บข้อมูลไว้ในที่เดียว ในทำนองเดียวกัน การดึงหรือใช้ข้อมูลจากที่จัดเก็บข้อมูลต่างๆ ของข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างและ Big Data อาจเป็นเรื่องที่น่าเบื่อ
การจำลองเสมือนของข้อมูล คือทางออกของปัญหานี้
การจำลองข้อมูลเสมือนคืออะไร
การจำลองข้อมูลเสมือนเป็นแนวทางในการจัดการข้อมูลที่ช่วยให้แอปพลิเคชันสามารถดึงข้อมูลและจัดการข้อมูลโดยไม่ต้องมีรายละเอียดทางเทคนิคเกี่ยวกับข้อมูล เช่น แสดงว่ามีการจัดรูปแบบที่แหล่งที่มาหรือที่อยู่ทางกายภาพ สามารถให้ข้อมูลลูกค้าโดยรวมได้เพียงรายการเดียว
มีเครื่องมือ Data Virtualization มากมายในตลาด เช่นเครื่องมือต่อไปนี้:
- Microsoft® Polybase®
- Actifio® Virtual Data Pipe (VDP)
- Informatica® Powercenter
- IBM® Cloud Pak สำหรับข้อมูล
- การจำลองข้อมูล RedHat® JBoss
สำหรับชุดนี้ ฉันเน้นที่ PolyBase ซึ่ง Microsoft เปิดตัวใน SQL 2016 และปรับปรุงด้วย SQL เวอร์ชันถัดมา
Polybase ช่วยให้ SQL Server สามารถเรียกใช้การสืบค้น Transact-SQL บนแหล่งข้อมูลภายนอก เช่น Azure® Blob, Hadoop®, Oracle®, MongoDB® และอื่นๆ Transact-SQL เดียวกันที่ใช้ในการประมวลผลข้อมูลภายนอกยังสามารถทำงานบนฐานข้อมูลเชิงสัมพันธ์ได้อีกด้วย ความสามารถนี้ช่วยรวมข้อมูลจากแหล่งภายนอกกับข้อมูลเชิงสัมพันธ์ในฐานข้อมูลของคุณ ภาพต่อไปนี้แสดงภาพประกอบอย่างง่ายของ SQL Polybase:
ภาพที่ 1
ตอนนี้คุณรู้พื้นฐานของ Polybase แล้ว ฉันต้องการแชร์การสาธิตที่ดึงข้อมูลจากแหล่งภายนอก anAzure blob โดยใช้ SQL PolyBase โพสต์นี้ครอบคลุมข้อกำหนดเบื้องต้นสำหรับการสาธิต
ข้อกำหนดเบื้องต้นของการสาธิต
ก่อนที่คุณจะสามารถเรียกใช้การสาธิต คุณต้องดำเนินการตามข้อกำหนดเบื้องต้นต่อไปนี้:
- ติดตั้ง SQL 2016 หรือใหม่กว่าด้วยคุณสมบัติ PolyBase
- เปิดใช้งาน PolyBase บน SQL Server
- สร้างบัญชี Azure Storage
- สร้างคอนเทนเนอร์ Azure blob
- วางไฟล์ข้อมูลในคอนเทนเนอร์ Blob
1. ติดตั้ง SQL Polybase
คุณสามารถติดตั้ง Polybase ด้วยอินสแตนซ์ SQL ได้เพียงอินสแตนซ์เดียวบนเครื่อง
ขณะนี้ ฉันมีอินสแตนซ์ SQL 2019 เริ่มต้นหนึ่งรายการที่ทำงานบนเครื่องในพื้นที่ของฉัน อย่างไรก็ตาม Idid ไม่ได้เลือก Polybase ระหว่างการติดตั้ง รูปภาพต่อไปนี้แสดงตัวจัดการการกำหนดค่าเซิร์ฟเวอร์ SQL:
ภาพที่ 2
ฉันต้องเรียกใช้การตั้งค่า SQL อีกครั้งและเลือกองค์ประกอบต่อไปนี้ระหว่างหน้าต่างการเลือกคุณสมบัติเพื่อติดตั้ง Polybase:
- PolyBase Query Service สำหรับข้อมูลภายนอก
- Java Connector สำหรับแหล่งข้อมูล HDFS
ไปข้างหน้าและเรียกใช้การตั้งค่า SQL และทำตามขั้นตอนต่อไปนี้เพื่อติดตั้ง PolyBasefeature คลิกต่อไปถัดไป จนถึงหน้าจอสุดท้าย จากนั้น คลิกเสร็จสิ้นการติดตั้ง แท็บ เลือกแท็บที่ไฮไลต์ด้วยสีแดงเข้ม
- คลิก การติดตั้ง ในแถบด้านข้างและเลือกการติดตั้ง SQL Server แบบสแตนด์อโลนใหม่หรือเพิ่มคุณสมบัติให้กับการติดตั้งที่มีอยู่ .
ภาพที่ 3
- หลังจากที่คุณถึง ประเภทการติดตั้ง หน้าต่าง เลือก เพิ่มคุณลักษณะให้กับอินสแตนซ์ที่มีอยู่ และเลือกอินสแตนซ์ที่ต้องการจากเมนูแบบเลื่อนลง
ภาพที่ 4
- หลังจากที่คุณไปถึง การเลือกคุณลักษณะ หน้าต่าง เลือกคุณสมบัติ PolyBase
ภาพที่ 5
- ใน การกำหนดค่า Polybase หน้าต่าง เลือกใช้ SQL Server นี้เป็นอินสแตนซ์ที่เปิดใช้งาน Polybase แบบสแตนด์อโลน .
ภาพที่ 6
- สำหรับตัวเลือกแถบด้านข้างที่เหลือ ให้เลือกค่าเริ่มต้นแล้วคลิก ติดตั้ง . หลังจาก insallation เสร็จสิ้น หน้าต่าง folloiwng จะแสดง:
ภาพที่ 7
ณ จุดนี้ คุณสามารถเห็นในตัวจัดการการกำหนดค่า SQL ว่าเรามีคุณสมบัติเพิ่มเติมอีกสองรายการติดตั้งอยู่ อย่างไรก็ตาม คุณอาจยังคงได้รับข้อความแสดงข้อผิดพลาด ไม่ได้ติดตั้ง Polybase ใน SSMS ในขณะที่พยายามเปิดใช้งาน Polybase ในการแก้ไขปัญหานี้ ให้รีสตาร์ทเซิร์ฟเวอร์หลังจากติดตั้ง Polybase
ภาพที่ 8
2. เปิดใช้งาน SQL Polybase
หากต้องการเปิดใช้งาน PolyBase ให้ทำตามขั้นตอนต่อไปนี้:
-
เชื่อมต่อกับ SQL Server ใน SSMS และเรียกใช้แบบสอบถามต่อไปนี้เพื่อยืนยันว่าติดตั้ง Polybase สำเร็จแล้ว
SELECT SERVERPROPERTY ('IsPolyBaseInstalled') AS IsSuccessfullyInstalled;
รูปภาพต่อไปนี้แสดงผลลัพธ์สำหรับการติดตั้งที่สำเร็จ:
ภาพที่ 9
-
เปิดใช้งาน Polybase โดยเรียกใช้แบบสอบถามต่อไปนี้:
EXEC sp_configure 'polybase enabled', 1; Go
-
เรียกใช้แบบสอบถามต่อไปนี้:
Reconfigure
คำถามนี้มีความสำคัญ หากไม่มีขั้นตอนนี้ ข้อผิดพลาดอาจปรากฏขึ้นระหว่างการสร้างรูปแบบไฟล์ภายนอกในขั้นตอนที่กล่าวถึงในส่วนที่ 3 ของชุดนี้
ภาพที่ 10
3. สร้างบัญชี Azure Storage
ทำตามขั้นตอนต่อไปนี้เพื่อสร้างบัญชี Azure Storage:
-
เข้าสู่ระบบ Azure Portal โดยใช้ข้อมูลประจำตัวของคุณ
-
ค้นหาบริการบัญชี Azure Storage และทำตามขั้นตอนต่อไปนี้เพื่อสร้างบัญชีที่เก็บข้อมูล คลิกต่อไปถัดไป จนถึงหน้าจอสุดท้าย จากนั้นคลิก ตรวจทานและสร้าง ตัวเลือก. เลือกแท็บที่ไฮไลต์ด้วยสีแดงเข้ม
-
ใน แถบค้นหา Azure Portal , เลือก บัญชี Azure Storage แล้วคลิก + เพิ่ม เพื่อสร้างบัญชีเก็บข้อมูลใหม่
ภาพที่ 11
- ใน พื้นฐาน ป้อนรายละเอียดที่จำเป็นแล้วคลิก ถัดไป:เครือข่าย .
ภาพที่ 12
-
คงการตั้งค่าเริ่มต้นสำหรับเครือข่าย , การปกป้องข้อมูล , ขั้นสูง และแท็ก หน้าจอ
-
จากนั้น คลิกตรวจทาน+สร้าง และหลังจากการตรวจสอบสำเร็จ ให้คลิก สร้างแท็บ เพื่อสร้างบัญชีที่เก็บข้อมูลดังแสดงในภาพต่อไปนี้:
ภาพที่ 13
- ในการทำให้ใช้งานได้สำเร็จ ให้คลิก ไปที่ทรัพยากร ซึ่งจะนำคุณไปยังบัญชี createdstorage
ภาพที่ 14
4. สร้างคอนเทนเนอร์ Azure
ในการสร้างคอนเทนเนอร์ Azure ให้ไปที่บัญชีที่เก็บข้อมูล Azure ที่สร้างขึ้น คลิก คอนเทนเนอร์ ในบานหน้าต่างด้านซ้าย แล้วคลิก +คอนเทนเนอร์ .
ภาพที่ 15
5. วางไฟล์ข้อมูลลงในคอนเทนเนอร์
ในขั้นตอนนี้ ให้สร้างไฟล์ข้อมูลข้อความและอัปโหลดไปยังคอนเทนเนอร์
- สร้างไฟล์ข้อความที่คล้ายกับไฟล์ต่อไปนี้:
ภาพที่ 16
หมายเหตุ :คุณยังสามารถใช้ CSV, Excel® หรือแหล่งข้อมูลภายนอกอื่นๆ ได้อีกด้วย อย่างไรก็ตาม คุณต้องทำตามขั้นตอนเพิ่มเติมสองสามขั้นตอน ทั้งนี้ขึ้นอยู่กับแหล่งข้อมูลภายนอก ตัวอย่างเช่น สำหรับแหล่งข้อมูล CSV หรือ Excel คุณควรติดตั้งไดรเวอร์ที่เหมาะสมบน SQL Server และเพิ่มคุณสมบัติการเชื่อมต่อให้กับชื่อแหล่งข้อมูล ODBC (DSN) คุณสามารถใช้ Microsoft ODBCData Source Administrator เพื่อสร้างและกำหนดค่า ODBC DSNs
- ไปที่คอนเทนเนอร์ที่คุณสร้างขึ้น polybasedemocontainer คลิก อัปโหลด คลิกไอคอนโฟลเดอร์ทางด้านขวามือ และเลือกไฟล์ที่จะอัปโหลด
ภาพที่ 17
ขั้นตอนต่อไป
คุณทำข้อกำหนดเบื้องต้นสำหรับการสาธิต PolyBase สำเร็จแล้ว ส่วนที่ 2 นำเสนอการสาธิต
ใช้แท็บคำติชมเพื่อแสดงความคิดเห็นหรือถามคำถาม คุณสามารถเริ่มการสนทนากับเราได้