2

AI, Business

AI สร้างรูปออกมาสวยขนาดนี้ได้ยังไง? เฉลยความลับที่นักพัฒนาไม่ยอมบอก

Fine-tuning หรือการปรับจูนโมเดล คือขั้นตอนสำคัญที่ทำให้โมเดล AI จากแค่รู้เรื่องทั่ว ๆ ไป สู่การความเก่งกาจเฉพาะทางที่หลายองค์กรอยากได้

โดยเฉพาะในงานสร้างภาพจากข้อความ (text-to-image) ถ้าได้ฝึกกับชุดข้อมูลที่ถูกต้องตรงใจ มันจะช่วยให้โมเดลทำงานได้เร็วขึ้น แม่นขึ้น และสร้างภาพที่ตรงความคาดหวังของผู้ใช้แบบไม่ต้องลุ้น แต่คำถามคือแล้วชุดข้อมูลที่ว่าคืออะไร?

ชุดข้อมูล สำหรับจูนโมเดลคุณภาพสูงที่คุณขาดไม่ได้

ตอนฝึกโมเดลรอบแรก เรามักจะเน้นปริมาณเป็นหลัก ข้อมูลเยอะไว้ก่อน เพราะต้องให้โมเดลเรียนรู้โลกกว้างแบบรอบด้าน แต่พอเข้าสู่ช่วงปรับจูน (fine-tuning) เกมมันเปลี่ยนทันที เราไม่ได้ต้องการแค่ข้อมูลที่ดี แต่ต้องดีแบบตรงใจเราด้วย

พูดง่าย ๆ คือ เราต้องรู้ว่าผู้ใช้อยากเห็นอะไร ชอบแบบไหน แล้วหาตัวอย่างที่สะท้อนสไตล์ องค์ประกอบ และความหมายที่ใช่มาฝึกให้โมเดล ไม่ใช่อะไรก็ได้ แต่ต้องใช่ในแบบที่ผู้ใช้ต้องการจริง ๆ

ชุดข้อมูล 2568 08 20 at 14.01.41

พูดเหมือนง่าย แต่ที่ผ่านมา เรื่องนี้ไม่ง่ายเลย เพราะมันไม่ได้มีสูตรตายตัว ต้องอาศัยเซนส์เยอะพอสมควร บางทีมันก็เป็นวิทยาศาสตร์ครึ่งหนึ่ง ศิลปะอีกครึ่งหนึ่ง แต่เราอยากเปลี่ยนมุมนี้ใหม่ ทำให้การเลือกชุดข้อมูลมีหลัก มีเหตุผล และเข้าเป้าได้มากขึ้นกว่าเดิม

เลิกเดาส่งเดช วัดผลจากพฤติกรรมแบบรู้ใจผู้ใช้

หลายทีมมักใช้ค่าชี้วัดโดยประมาณแบบคาดเดา (speculative proxy metrics) เพื่อใช้ประเมินคุณภาพของภาพ ซึ่งค่าตัวเลขพวกนี้จริง ๆ แล้วก็มาจากความรู้สึกส่วนตัวว่าภาพดูดีแค่ไหน เช่น ภาพชัด ภาพมีสีสันสดใส ฯลฯ ไม่ได้ตรงกับความพึงพอใจของผู้ใช้จริง ๆ เสมอไป

แต่ที่ Shutterstock เราเลือกวิธีคิดคนละแบบ แทนที่จะเดาจากคะแนน เราใช้ข้อมูลจากพฤติกรรมของลูกค้าจริง ๆ มาเป็นตัวตั้ง

ช่วงแรกที่เราปรับจูนโมเดล เราเอาภาพที่ขายดีในตลาด Shutterstock มาใช้ก่อน แต่พอทำไปเรื่อย ๆ เราก็เจอว่ามันมีช่องว่างอยู่เหมือนกัน เพราะภาพที่ขายดีในตลาดสต็อก ไม่ได้แปลว่าจะถูกใจคนที่ใช้โมเดลสร้างภาพเสมอไป ลูกค้าสองกลุ่มนี้ต้องการภาพคนละแบบ เป้าหมายต่างกัน ชอบไม่เหมือนกันเลย

ชุดข้อมูลที่ดีสุดสำหรับปรับโมเดล คือชุดที่ตรงกับความชอบของคนใช้สร้างภาพ เพราะจะช่วยให้โมเดลสร้างภาพออกมาตรงใจคนดูมากขึ้น นี่คือจุดที่ Shutterstock เด่นกว่าที่อื่น

เราสร้างโมเดลเอง ใช้เทคโนโลยีเจ๋ง ๆ จากพันธมิตร และมีคนใช้มืออาชีพเก่ง ๆ อีกมากมาย 

ตอนนี้เรามีภาพที่สร้างด้วย AI มากกว่า 100 ล้านภาพที่ถูกลิขสิทธิ์อยู่ในคลัง Shutterstock เราเลยใช้ข้อมูลจริงจากพฤติกรรมคนใช้ มาฝึกโมเดลให้รู้ว่าแบบไหนคนชอบ โมเดลนี้เลยเป็นฐานให้คะแนนที่เรียกว่า Generative Aesthetic Score คะแนนที่บอกได้ว่าภาพไหนจะโดนใจคนใช้โมเดลสร้างภาพมากที่สุด

  • โดยเฉลี่ย ภาพที่สร้างด้วย AI แล้วมีคนสนใจมาก จะได้คะแนนสูงกว่าภาพที่ไม่มีคนสนใจ อยู่ประมาณ 8.3%
  • ระบบนี้เก่งมากในการจัดอันดับโมเดลที่สร้างภาพ โดยดูจากว่าผู้ใช้จริงสนใจโมเดลไหนมากแค่ไหน ซึ่งผลที่ได้มีความแม่นยำสูงถึง 0.86 จากโมเดลสร้างภาพทั้งหมด 16 แบบที่ Shutterstock ใช้
ชุดข้อมูล 2568 08 20 at 14.01.46

Generative Aesthetic Score เป็นตัวชี้วัดที่น่าเชื่อถือสำหรับใช้เลือกจุดตรวจสอบ (checkpoint) ในการทดลองปรับปรุงโมเดล เพราะมีความสัมพันธ์สูงกับการที่ผู้ใช้จริงสนใจภาพ นอกจากนี้ คะแนนนี้ยังปรับให้สอดคล้องกับความชอบของลูกค้าที่เปลี่ยนไปได้ง่าย ทำให้เหมาะกับการปรับปรุงโมเดลอย่างต่อเนื่อง 

การคัดสรรชุดข้อมูลให้ได้ทั้งคุณภาพและความหลากหลาย

เวลาปรับแต่งชุดข้อมูลสำหรับ Generative AI เรื่องคุณภาพถือเป็นสิ่งที่เรายอมไม่ได้ คุณภาพต้องมีความสอดคล้องกับความชอบของผู้ใช้งานเท่านั้น รวมถึงความหลากหลายทางภาพ

เราเลยพัฒนากลยุทธ์การสุ่มตัวอย่างโดยใช้การจัดกลุ่ม (clustering) เพื่อให้ชุดข้อมูลที่ใช้ปรับแต่งมีทั้งประสิทธิภาพและความหลากหลายไปพร้อมกัน

วิธีการก็คือ

1.เราจัดกลุ่มภาพที่มีอยู่ทั้งหมดให้เป็นกลุ่มที่มีความคล้ายกันทางภาพ ลองนึกภาพว่าแต่ละกลุ่มก็เหมือน “Codebook” ของคอนเทนต์นั่นแหละ

2.จากแต่ละกลุ่ม เราจะคัดเลือกภาพอันดับต้น ๆ โดยใช้คะแนน Generative Aesthetic Score เป็นเกณฑ์

3.เราปรับจำนวนกลุ่ม (clusters) ให้พอดี เพื่อสร้างสมดุลระหว่าง “ความตรงใจลูกค้า” กับ “ความหลากหลายที่น่าสนใจของภาพ”

ชุดข้อมูล 2568 08 20 at 14.01.53
ชุดข้อมูล 2568 08 20 at 14.01.53

ผลลัพธ์ที่ได้คือชุดข้อมูลสำหรับปรับแต่งที่มีประสิทธิภาพสูง สะท้อนรสนิยมด้านภาพของผู้ใช้งานได้อย่างตรงจุด โดยไม่ทำให้ความหลากหลายหายไป 

เพราะเราคัดเลือกภาพที่ได้คะแนนสูงจากกลุ่มภาพที่แตกต่างกันอย่างชัดเจน ทำให้ลดความซ้ำซ้อน ขยายความครอบคลุมของ prompt และยังคงความโดดเด่นกับพื้นที่สร้างสรรค์ที่ผู้ใช้สาย Generative ต้องการไว้ได้อย่างครบถ้วน

ผลการทดลอง: ความสอดคล้องกับ Prompt และระดับการมีส่วนร่วม

เราได้นำโมเดลสร้างภาพจากข้อความรุ่นพื้นฐาน มาปรับจูนด้วยชุดข้อมูลที่ผ่านการคัดสรรอย่างเหมาะสม แล้วเปรียบเทียบกับชุดข้อมูลปรับแต่งแบบเดิม ที่ใช้ภาพสต็อกคุณภาพสูงเป็นหลัก ซึ่งผลลัพธ์ที่ได้คือ

  • หลังจากปรับปรุงหรือฝึกโมเดล AI ด้วยข้อมูลชุดใหม่ โมเดลสามารถสร้างภาพที่ “ตรงกับพรอมต์” ได้ดีขึ้น โดยคะแนน CLIP เพิ่มขึ้น 1.1 ซึ่งถือว่าเยอะอยู่ในเชิงเทคนิค
  • หลังจากใช้ชุดข้อมูลใหม่ โมเดลสร้างภาพดูน่าสนใจมากขึ้น มีแนวโน้มว่าคนดูจะ “ชอบ” หรือ “มีปฏิสัมพันธ์” กับภาพมากขึ้นถึง 17% เป็นสัญญาณว่า AI กำลังเรียนรู้รสนิยมมนุษย์ได้ดีขึ้นเรื่อย ๆ

เห็นได้ชัดจากภาพเลยว่าสร้างผลลัพธ์ได้แตกต่างกัน โมเดลที่ผ่านการปรับจูนจะสร้างภาพที่คมชัดและตรงประเด็นมากกว่า สะท้อนสิ่งที่ผู้ใช้คาดหวังได้ดีกว่าเดิม เป็นการเปลี่ยนแปลงในเชิงคุณภาพที่มีข้อมูลเชิงตัวเลขรองรับด้วย

ความหลากหลายในคำบรรยายภาพ: ตัวคูณเพิ่มประสิทธิภาพในการปรับจูน

ภาพสำคัญ แต่ข้อความภาษาก็สำคัญไม่แพ้กัน การมีคำบรรยายคุณภาพสูงจึงเป็นเรื่องสำคัญ สำหรับโมเดลที่แปลงข้อความเป็นภาพ เพราะคำบรรยายนั้นช่วยกำหนดว่าโมเดลจะเรียนรู้การเชื่อมโยงจากภาษาไปเป็นภาพได้อย่างไร

แม้ว่าคำบรรยายจากครีเอเตอร์ใน Shutterstock จะทำได้ดีกว่าคำบรรยายที่รวบรวมจากเว็บทั่วไป แต่เราก็พบว่าคำบรรยายที่สร้างขึ้นโดยโมเดลที่ประมวลผลภาพและภาษา (vision-language models หรือ VLMs) ยังคงทำได้ดีกว่า 

เราได้ทดสอบโมเดล VLM หลากหลายในการสร้างคำบรรยายใหม่ให้กับชุดข้อมูลของเรา และระหว่างกระบวนการนี้ เราพบว่าคะแนน CLIP เป็นตัวแทนที่น่าเชื่อถือสำหรับวัดคุณภาพ เพราะมีความสัมพันธ์สูงกับการประเมินจากมนุษย์

แม้ว่าคำบรรยายภาพที่สร้างโดยโมเดล Vision-Language (VLMs) มักจะถูกใช้สำหรับการเทรนโมเดลตั้งแต่เริ่มต้น แต่เราพบว่าการเอาคำบรรยายแบบนี้มาใช้ปรับจูน (fine-tune) กับโมเดลพื้นฐานที่มีอยู่แล้ว ก็ให้ผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด

เราได้ลองปรับจูนโมเดลพื้นฐานของเราด้วยชุดข้อมูลที่มีคำบรรยายสังเคราะห์อยู่ 80% และ 50% ซึ่งผลปรากฏว่าแบบ 80% ให้ผลดีที่สุด

  • CLIP score +0.5 = ภาพที่ได้ตรงกับคำสั่งมากขึ้น
  • Generative Aesthetic Score +1.6% = ภาพดูน่าดึงดูดและน่าคลิกมากขึ้น (ตามรสนิยมของผู้ใช้จริง)
ชุดข้อมูล 2568 08 20 at 14.02.06
ชุดข้อมูล 2568 08 20 at 14.02.06
ชุดข้อมูล 2568 08 20 at 14.02.12

สังเกตได้ว่า Generative Aesthetic Score เป็นตัวชี้วัดที่ทรงพลัง เพราะมีความสัมพันธ์กับการมีส่วนร่วมของผู้ใช้จริงอย่างชัดเจน และยังคงเชื่อถือได้ แม้ว่าเมตริกอื่น ๆ จะเริ่มนิ่งหรือไม่เติมโตต่อแล้วก็ตาม

ข้อมูลคือคันโยก & การปรับจูนคือจุดหมุน

ถ้าคุณกำลังปรับจูนโมเดล Generative สิ่งสำคัญที่ควรจำไว้คือ คุณภาพของข้อมูลสำคัญกว่าปริมาณ และถึงจะเป็นข้อมูลคุณภาพสูง ก็ไม่ได้หมายความว่าจะใช้ได้เสมอไป ความสอดคล้องกับผู้ใช้คือหัวใจหลัก

ที่ Shutterstock เราสร้างกระบวนการที่คัดเลือกข้อมูล ให้คะแนน จัดกลุ่ม และเขียนคำบรรยาย โดยคำนึงถึงประสิทธิภาพของโมเดลเป็นหลัก

ชุดข้อมูล 2568 08 20 at 14.02.24

ไม่ว่าคุณจะกำลังสร้างกระบวนการปรับจูนภายในองค์กร หรือกำลังสร้างรผู้ให้บริการข้อมูลจากภายนอก ลองถามตัวเองดูว่า:

  • คะแนนภาพของคุณตั้งอยู่บนพื้นฐานพฤติกรรมของผู้ใช้จริงหรือเปล่า?
  • คำบรรยายของคุณสื่อสารรายละเอียดภาพได้ลึกพอไหม?
  • ชุดข้อมูลสำหรับการปรับจูนของคุณหลากหลายพอที่จะไม่ทำให้ผลลัพธ์ดูจำเจหรือยัง?
ชุดข้อมูล 2568 08 20 at 14.02.32
ชุดข้อมูล 2568 08 20 at 14.02.32

ข้อมูลเหล่านี้คุณก็สามารถเข้าถึงได้ผ่าน Number 24 x Shutterstock มาทำให้องค์กรของคุณกลายเป็นหัวแถวของอุตสาหกรรม ด้วยชุดข้อมูลคุณภาพสูงของเรา ติดต่อเราได้เลยที่

Inbox : http://m.me/number24.co.th

LINE Official Account : https://line.me/R/ti/p/@klj9484n

Instagram : https://www.instagram.com/number24.co.th

Website : https://number24.co.th/ 

Related Blog

 
1

เนรมิตคอนเทนต์ AI ในฝัน คุม Mood & Tone ให้เป๊ะ ด้วย Shutterstock AI

 
 

ฝึก AI ใช้อย่างแฟร์ ด้วยผลงานถูกสิทธิ์

 
 

ให้ AI เรียนรู้ เปลี่ยนงานเป็นรายได้ ด้วย Shutterstock Contributor Fund

 
 

AI Storytelling สู่โลกแห่งการสร้างสรรค์ ยุคใหม่ สนุก ครบ สร้างสรรค์ได้ไว

 

Tell us about yourself





    Type: