สวัสดีครับ ในวันนี้ผมจะมาแนะนำเกี่ยวกับการแบ่งแยกข้อมูลกันครับว่าทำไมต้องทำและหากไม่ทำจะเป็นอย่างไรกันครับ งั้นเริ่มกันเลยครับ การแบ่งข้อมูลเพื่อทำการทดสอบตรวจหาข้อมูลหรือการนำข้อมูลมาใช้ประโยชน์นั้น สามารถแบ่งขั้นตอนออกเป็น 3 ขั้น ตอนหลักๆ ครับ โดยเหตุผลว่าหากเราไม่ทำการแบ่งข้อมูลนั้น ผลที่จะเกิดตามก็คือเราจะไม่มีอะไรให้คอมพิวเตอร์ได้เกิดการเรียนรู้เลยครับ คอมพิวเตอร์ก็จะไม่รู้ว่าจะต้องทำอย่างไรหรือควรทำอย่างไรหากเจอสถานะการณ์แปลกๆรวมถึงจะไม่สามารถแก้ไขปัญหาที่ผู้ใช้ต้องการให้แก้ไขได้ครับ ด้วยเหตุนี้เราจึงต้องมีการแบ่งข้อมูลออกมาเพื่อให้คอมพิวเตอร์ได้เกิดการเรียนรู้กันนั่นเอง แต่ไม่ใช่เพียงแต่จะแบ่งให้คอมพิวเตอร์เรียนรู้เพียงอย่างเดียว อีกสิ่งที่จำเป็นคือต้องแบ่งอีกส่วนมาเพื่อทำการทดสอบด้วยครับว่าหากคอมพิวเตอร์เรียนรู้แล้ว สามารถแก้ไขปัญหาในสถานะการณ์จริงได้ดีแค่ไหนครับ ซึ่งการแบ่งแยกข้อมูลนั้นสามารถแบ่งออกได้เป็น 3 ส่วน หลักๆครับ 1). Train set หรือชุดข้อมูลของการสอนคอมพิวเตอร์ (แปลเป็นภาษาไทยอาจจะแปลกๆ หน่อยครับ) คือชุดที่จะนำไปสอนคอมพิวเตอร์เพื่อให้คอมพิวเตอร์ได้เกิดการเรียนรู้ครับ ซึ่งในข้อมูลชุดนี้นั้นมักจะถูกแบ่งออกจากข้อมูลที่มีประมาณ 60% จากข้อมูลททั้งหมดครับ (อาจจะมากกว่าหรือน้อยนี้ก็ได้ครับ) รวมถึงเป็นส่วนที่มีอัตราส่วนข้อมูลมากที่สุดจากข้อมูลทั้งหมดครับ 2). Validation set หรือชุดข้อมูลที่ใช้ตรวจสอบ ซึ่งในชุดข้อมูลนี้จะเป็นข้อมูลที่ไว้ทดสอบว่า เจ้าคอมพิวเตอร์ที่เราให้มีการเรียนรู้นั้น มีความถูกต้องเพียงใดเมื่อนำข้อมูลจริงหรือข้อมูลในส่วน Test set มาทดสอบ โดยหลักสำคัญของข้อมูลนี้คือจะสามารถช่วยให้เราได้รู้ว่ามีความคลาดเคลื่อนหรือไม่ถูกต้องเพียงใดจากข้อมูลจริง ซึ่งข้อมูลในส่วนของข้อมูลที่ใช้ตรวจสอบมักจะถูกแบ่งออกเป็น 20% อาจจะมากกว่าหรือน้อยกว่าก็ได้เช่นกันครับ 3). Test set หรือข้อมูลที่ใช้ในการทดสอบ เป็นข้อมูลที่ถูกแบ่งออกจากส่วนหลักประมาณ 20% ซึ่งอาจจะมากหรือน้อยกว่านี้ก็ได้เช่นกันครับ โดยในข้อมูลส่วนของข้อมูลที่ใช้ในการทดสอบนั้น เพื่อให้คอมพิวเตอร์ได้ลองใช้หลักการเรียนรู้ที่ได้ศึกษาผ่านข้อมูลในส่วนของชุดข้อมูลที่ทำการสอนคอมพิวเตอร์ครับหรือก็คือให้คอมพิวเตอร์ได้ทดลองใช้ความรู้ที่ตนได้เรียนมาครับว่าจะมีประสิทธิภาพหรือใช้ได้ผลแค่ไหนครับ (คล้ายๆ คนครับเมื่อมีการเรียนย่อมต้องมีการทดสอบความรู้ครับ) สัดส่วนทั้ง 3 ส่วนนะครับ แยกจากเล็กไปใหญ่ครับ ตัวอย่างการเขียน train และ test โดยเครื่องมือช่วยครับผม ซึ่งในการแบ่งส่วนข้อมูลนั้นจะเป็นประโยชน์มากครับ เมื่อนำไปคำนวณหาหรือแก้ปัญหาต่างๆ ที่ต้องการได้ทั้งในด้านธุรกิจครับ ซึ่งในบางกรณีอาจจะมีการแบ่งสัดส่วนที่แตกต่างกันไปครับ โดยจะขึ้นอยู่กับผู้ใช้งานครับผม ขอขอบคุณ รูปภาพหน้าปกโดย: ผู้เขียน รูปภาพประกอบโดย: ผู้เขียน