Fine-tuning หรือการปรับจูนโมเดล คือขั้นตอนสำคัญที่ทำให้โมเดล AI จากแค่รู้เรื่องทั่ว ๆ ไป สู่การความเก่งกาจเฉพาะทางที่หลายองค์กรอยากได้
โดยเฉพาะในงานสร้างภาพจากข้อความ (text-to-image) ถ้าได้ฝึกกับชุดข้อมูลที่ถูกต้องตรงใจ มันจะช่วยให้โมเดลทำงานได้เร็วขึ้น แม่นขึ้น และสร้างภาพที่ตรงความคาดหวังของผู้ใช้แบบไม่ต้องลุ้น แต่คำถามคือแล้วชุดข้อมูลที่ว่าคืออะไร?
ชุดข้อมูล สำหรับจูนโมเดลคุณภาพสูงที่คุณขาดไม่ได้
ตอนฝึกโมเดลรอบแรก เรามักจะเน้นปริมาณเป็นหลัก ข้อมูลเยอะไว้ก่อน เพราะต้องให้โมเดลเรียนรู้โลกกว้างแบบรอบด้าน แต่พอเข้าสู่ช่วงปรับจูน (fine-tuning) เกมมันเปลี่ยนทันที เราไม่ได้ต้องการแค่ข้อมูลที่ดี แต่ต้องดีแบบตรงใจเราด้วย
พูดง่าย ๆ คือ เราต้องรู้ว่าผู้ใช้อยากเห็นอะไร ชอบแบบไหน แล้วหาตัวอย่างที่สะท้อนสไตล์ องค์ประกอบ และความหมายที่ใช่มาฝึกให้โมเดล ไม่ใช่อะไรก็ได้ แต่ต้องใช่ในแบบที่ผู้ใช้ต้องการจริง ๆ

พูดเหมือนง่าย แต่ที่ผ่านมา เรื่องนี้ไม่ง่ายเลย เพราะมันไม่ได้มีสูตรตายตัว ต้องอาศัยเซนส์เยอะพอสมควร บางทีมันก็เป็นวิทยาศาสตร์ครึ่งหนึ่ง ศิลปะอีกครึ่งหนึ่ง แต่เราอยากเปลี่ยนมุมนี้ใหม่ ทำให้การเลือกชุดข้อมูลมีหลัก มีเหตุผล และเข้าเป้าได้มากขึ้นกว่าเดิม
เลิกเดาส่งเดช วัดผลจากพฤติกรรมแบบรู้ใจผู้ใช้
หลายทีมมักใช้ค่าชี้วัดโดยประมาณแบบคาดเดา (speculative proxy metrics) เพื่อใช้ประเมินคุณภาพของภาพ ซึ่งค่าตัวเลขพวกนี้จริง ๆ แล้วก็มาจากความรู้สึกส่วนตัวว่าภาพดูดีแค่ไหน เช่น ภาพชัด ภาพมีสีสันสดใส ฯลฯ ไม่ได้ตรงกับความพึงพอใจของผู้ใช้จริง ๆ เสมอไป
แต่ที่ Shutterstock เราเลือกวิธีคิดคนละแบบ แทนที่จะเดาจากคะแนน เราใช้ข้อมูลจากพฤติกรรมของลูกค้าจริง ๆ มาเป็นตัวตั้ง
ช่วงแรกที่เราปรับจูนโมเดล เราเอาภาพที่ขายดีในตลาด Shutterstock มาใช้ก่อน แต่พอทำไปเรื่อย ๆ เราก็เจอว่ามันมีช่องว่างอยู่เหมือนกัน เพราะภาพที่ขายดีในตลาดสต็อก ไม่ได้แปลว่าจะถูกใจคนที่ใช้โมเดลสร้างภาพเสมอไป ลูกค้าสองกลุ่มนี้ต้องการภาพคนละแบบ เป้าหมายต่างกัน ชอบไม่เหมือนกันเลย
ชุดข้อมูลที่ดีสุดสำหรับปรับโมเดล คือชุดที่ตรงกับความชอบของคนใช้สร้างภาพ เพราะจะช่วยให้โมเดลสร้างภาพออกมาตรงใจคนดูมากขึ้น นี่คือจุดที่ Shutterstock เด่นกว่าที่อื่น
เราสร้างโมเดลเอง ใช้เทคโนโลยีเจ๋ง ๆ จากพันธมิตร และมีคนใช้มืออาชีพเก่ง ๆ อีกมากมาย
ตอนนี้เรามีภาพที่สร้างด้วย AI มากกว่า 100 ล้านภาพที่ถูกลิขสิทธิ์อยู่ในคลัง Shutterstock เราเลยใช้ข้อมูลจริงจากพฤติกรรมคนใช้ มาฝึกโมเดลให้รู้ว่าแบบไหนคนชอบ โมเดลนี้เลยเป็นฐานให้คะแนนที่เรียกว่า Generative Aesthetic Score คะแนนที่บอกได้ว่าภาพไหนจะโดนใจคนใช้โมเดลสร้างภาพมากที่สุด
- โดยเฉลี่ย ภาพที่สร้างด้วย AI แล้วมีคนสนใจมาก จะได้คะแนนสูงกว่าภาพที่ไม่มีคนสนใจ อยู่ประมาณ 8.3%
- ระบบนี้เก่งมากในการจัดอันดับโมเดลที่สร้างภาพ โดยดูจากว่าผู้ใช้จริงสนใจโมเดลไหนมากแค่ไหน ซึ่งผลที่ได้มีความแม่นยำสูงถึง 0.86 จากโมเดลสร้างภาพทั้งหมด 16 แบบที่ Shutterstock ใช้

Generative Aesthetic Score เป็นตัวชี้วัดที่น่าเชื่อถือสำหรับใช้เลือกจุดตรวจสอบ (checkpoint) ในการทดลองปรับปรุงโมเดล เพราะมีความสัมพันธ์สูงกับการที่ผู้ใช้จริงสนใจภาพ นอกจากนี้ คะแนนนี้ยังปรับให้สอดคล้องกับความชอบของลูกค้าที่เปลี่ยนไปได้ง่าย ทำให้เหมาะกับการปรับปรุงโมเดลอย่างต่อเนื่อง
การคัดสรรชุดข้อมูลให้ได้ทั้งคุณภาพและความหลากหลาย
เวลาปรับแต่งชุดข้อมูลสำหรับ Generative AI เรื่องคุณภาพถือเป็นสิ่งที่เรายอมไม่ได้ คุณภาพต้องมีความสอดคล้องกับความชอบของผู้ใช้งานเท่านั้น รวมถึงความหลากหลายทางภาพ
เราเลยพัฒนากลยุทธ์การสุ่มตัวอย่างโดยใช้การจัดกลุ่ม (clustering) เพื่อให้ชุดข้อมูลที่ใช้ปรับแต่งมีทั้งประสิทธิภาพและความหลากหลายไปพร้อมกัน
วิธีการก็คือ
1.เราจัดกลุ่มภาพที่มีอยู่ทั้งหมดให้เป็นกลุ่มที่มีความคล้ายกันทางภาพ ลองนึกภาพว่าแต่ละกลุ่มก็เหมือน “Codebook” ของคอนเทนต์นั่นแหละ
2.จากแต่ละกลุ่ม เราจะคัดเลือกภาพอันดับต้น ๆ โดยใช้คะแนน Generative Aesthetic Score เป็นเกณฑ์
3.เราปรับจำนวนกลุ่ม (clusters) ให้พอดี เพื่อสร้างสมดุลระหว่าง “ความตรงใจลูกค้า” กับ “ความหลากหลายที่น่าสนใจของภาพ”

ผลลัพธ์ที่ได้คือชุดข้อมูลสำหรับปรับแต่งที่มีประสิทธิภาพสูง สะท้อนรสนิยมด้านภาพของผู้ใช้งานได้อย่างตรงจุด โดยไม่ทำให้ความหลากหลายหายไป
เพราะเราคัดเลือกภาพที่ได้คะแนนสูงจากกลุ่มภาพที่แตกต่างกันอย่างชัดเจน ทำให้ลดความซ้ำซ้อน ขยายความครอบคลุมของ prompt และยังคงความโดดเด่นกับพื้นที่สร้างสรรค์ที่ผู้ใช้สาย Generative ต้องการไว้ได้อย่างครบถ้วน
ผลการทดลอง: ความสอดคล้องกับ Prompt และระดับการมีส่วนร่วม
เราได้นำโมเดลสร้างภาพจากข้อความรุ่นพื้นฐาน มาปรับจูนด้วยชุดข้อมูลที่ผ่านการคัดสรรอย่างเหมาะสม แล้วเปรียบเทียบกับชุดข้อมูลปรับแต่งแบบเดิม ที่ใช้ภาพสต็อกคุณภาพสูงเป็นหลัก ซึ่งผลลัพธ์ที่ได้คือ
- หลังจากปรับปรุงหรือฝึกโมเดล AI ด้วยข้อมูลชุดใหม่ โมเดลสามารถสร้างภาพที่ “ตรงกับพรอมต์” ได้ดีขึ้น โดยคะแนน CLIP เพิ่มขึ้น 1.1 ซึ่งถือว่าเยอะอยู่ในเชิงเทคนิค
- หลังจากใช้ชุดข้อมูลใหม่ โมเดลสร้างภาพดูน่าสนใจมากขึ้น มีแนวโน้มว่าคนดูจะ “ชอบ” หรือ “มีปฏิสัมพันธ์” กับภาพมากขึ้นถึง 17% เป็นสัญญาณว่า AI กำลังเรียนรู้รสนิยมมนุษย์ได้ดีขึ้นเรื่อย ๆ
เห็นได้ชัดจากภาพเลยว่าสร้างผลลัพธ์ได้แตกต่างกัน โมเดลที่ผ่านการปรับจูนจะสร้างภาพที่คมชัดและตรงประเด็นมากกว่า สะท้อนสิ่งที่ผู้ใช้คาดหวังได้ดีกว่าเดิม เป็นการเปลี่ยนแปลงในเชิงคุณภาพที่มีข้อมูลเชิงตัวเลขรองรับด้วย
ความหลากหลายในคำบรรยายภาพ: ตัวคูณเพิ่มประสิทธิภาพในการปรับจูน
ภาพสำคัญ แต่ข้อความภาษาก็สำคัญไม่แพ้กัน การมีคำบรรยายคุณภาพสูงจึงเป็นเรื่องสำคัญ สำหรับโมเดลที่แปลงข้อความเป็นภาพ เพราะคำบรรยายนั้นช่วยกำหนดว่าโมเดลจะเรียนรู้การเชื่อมโยงจากภาษาไปเป็นภาพได้อย่างไร
แม้ว่าคำบรรยายจากครีเอเตอร์ใน Shutterstock จะทำได้ดีกว่าคำบรรยายที่รวบรวมจากเว็บทั่วไป แต่เราก็พบว่าคำบรรยายที่สร้างขึ้นโดยโมเดลที่ประมวลผลภาพและภาษา (vision-language models หรือ VLMs) ยังคงทำได้ดีกว่า
เราได้ทดสอบโมเดล VLM หลากหลายในการสร้างคำบรรยายใหม่ให้กับชุดข้อมูลของเรา และระหว่างกระบวนการนี้ เราพบว่าคะแนน CLIP เป็นตัวแทนที่น่าเชื่อถือสำหรับวัดคุณภาพ เพราะมีความสัมพันธ์สูงกับการประเมินจากมนุษย์
แม้ว่าคำบรรยายภาพที่สร้างโดยโมเดล Vision-Language (VLMs) มักจะถูกใช้สำหรับการเทรนโมเดลตั้งแต่เริ่มต้น แต่เราพบว่าการเอาคำบรรยายแบบนี้มาใช้ปรับจูน (fine-tune) กับโมเดลพื้นฐานที่มีอยู่แล้ว ก็ให้ผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด
เราได้ลองปรับจูนโมเดลพื้นฐานของเราด้วยชุดข้อมูลที่มีคำบรรยายสังเคราะห์อยู่ 80% และ 50% ซึ่งผลปรากฏว่าแบบ 80% ให้ผลดีที่สุด
- CLIP score +0.5 = ภาพที่ได้ตรงกับคำสั่งมากขึ้น
- Generative Aesthetic Score +1.6% = ภาพดูน่าดึงดูดและน่าคลิกมากขึ้น (ตามรสนิยมของผู้ใช้จริง)


สังเกตได้ว่า Generative Aesthetic Score เป็นตัวชี้วัดที่ทรงพลัง เพราะมีความสัมพันธ์กับการมีส่วนร่วมของผู้ใช้จริงอย่างชัดเจน และยังคงเชื่อถือได้ แม้ว่าเมตริกอื่น ๆ จะเริ่มนิ่งหรือไม่เติมโตต่อแล้วก็ตาม
ข้อมูลคือคันโยก & การปรับจูนคือจุดหมุน
ถ้าคุณกำลังปรับจูนโมเดล Generative สิ่งสำคัญที่ควรจำไว้คือ คุณภาพของข้อมูลสำคัญกว่าปริมาณ และถึงจะเป็นข้อมูลคุณภาพสูง ก็ไม่ได้หมายความว่าจะใช้ได้เสมอไป ความสอดคล้องกับผู้ใช้คือหัวใจหลัก
ที่ Shutterstock เราสร้างกระบวนการที่คัดเลือกข้อมูล ให้คะแนน จัดกลุ่ม และเขียนคำบรรยาย โดยคำนึงถึงประสิทธิภาพของโมเดลเป็นหลัก

ไม่ว่าคุณจะกำลังสร้างกระบวนการปรับจูนภายในองค์กร หรือกำลังสร้างรผู้ให้บริการข้อมูลจากภายนอก ลองถามตัวเองดูว่า:
- คะแนนภาพของคุณตั้งอยู่บนพื้นฐานพฤติกรรมของผู้ใช้จริงหรือเปล่า?
- คำบรรยายของคุณสื่อสารรายละเอียดภาพได้ลึกพอไหม?
- ชุดข้อมูลสำหรับการปรับจูนของคุณหลากหลายพอที่จะไม่ทำให้ผลลัพธ์ดูจำเจหรือยัง?

ข้อมูลเหล่านี้คุณก็สามารถเข้าถึงได้ผ่าน Number 24 x Shutterstock มาทำให้องค์กรของคุณกลายเป็นหัวแถวของอุตสาหกรรม ด้วยชุดข้อมูลคุณภาพสูงของเรา ติดต่อเราได้เลยที่
Inbox : http://m.me/number24.co.th
LINE Official Account : https://line.me/R/ti/p/@klj9484n
Instagram : https://www.instagram.com/number24.co.th
Website : https://number24.co.th/