AI, Business

AI สร้างรูปออกมาสวยขนาดนี้ได้ยังไง? เฉลยความลับที่นักพัฒนาไม่ยอมบอก

Fine-tuning หรือการปรับจูนโมเดล คือขั้นตอนสำคัญที่ทำให้โมเดล AI จากแค่รู้เรื่องทั่ว ๆ ไป สู่การความเก่งกาจเฉพาะทางที่หลายองค์กรอยากได้

โดยเฉพาะในงานสร้างภาพจากข้อความ (text-to-image) ถ้าได้ฝึกกับชุดข้อมูลที่ถูกต้องตรงใจ มันจะช่วยให้โมเดลทำงานได้เร็วขึ้น แม่นขึ้น และสร้างภาพที่ตรงความคาดหวังของผู้ใช้แบบไม่ต้องลุ้น แต่คำถามคือแล้วชุดข้อมูลที่ว่าคืออะไร?

ชุดข้อมูล สำหรับจูนโมเดลคุณภาพสูงที่คุณขาดไม่ได้

ตอนฝึกโมเดลรอบแรก เรามักจะเน้นปริมาณเป็นหลัก ข้อมูลเยอะไว้ก่อน เพราะต้องให้โมเดลเรียนรู้โลกกว้างแบบรอบด้าน แต่พอเข้าสู่ช่วงปรับจูน (fine-tuning) เกมมันเปลี่ยนทันที เราไม่ได้ต้องการแค่ข้อมูลที่ดี แต่ต้องดีแบบตรงใจเราด้วย

พูดง่าย ๆ คือ เราต้องรู้ว่าผู้ใช้อยากเห็นอะไร ชอบแบบไหน แล้วหาตัวอย่างที่สะท้อนสไตล์ องค์ประกอบ และความหมายที่ใช่มาฝึกให้โมเดล ไม่ใช่อะไรก็ได้ แต่ต้องใช่ในแบบที่ผู้ใช้ต้องการจริง ๆ

พูดเหมือนง่าย แต่ที่ผ่านมา เรื่องนี้ไม่ง่ายเลย เพราะมันไม่ได้มีสูตรตายตัว ต้องอาศัยเซนส์เยอะพอสมควร บางทีมันก็เป็นวิทยาศาสตร์ครึ่งหนึ่ง ศิลปะอีกครึ่งหนึ่ง แต่เราอยากเปลี่ยนมุมนี้ใหม่ ทำให้การเลือกชุดข้อมูลมีหลัก มีเหตุผล และเข้าเป้าได้มากขึ้นกว่าเดิม

เลิกเดาส่งเดช วัดผลจากพฤติกรรมแบบรู้ใจผู้ใช้

หลายทีมมักใช้ค่าชี้วัดโดยประมาณแบบคาดเดา (speculative proxy metrics) เพื่อใช้ประเมินคุณภาพของภาพ ซึ่งค่าตัวเลขพวกนี้จริง ๆ แล้วก็มาจากความรู้สึกส่วนตัวว่าภาพดูดีแค่ไหน เช่น ภาพชัด ภาพมีสีสันสดใส ฯลฯ ไม่ได้ตรงกับความพึงพอใจของผู้ใช้จริง ๆ เสมอไป

แต่ที่ Shutterstock เราเลือกวิธีคิดคนละแบบ แทนที่จะเดาจากคะแนน เราใช้ข้อมูลจากพฤติกรรมของลูกค้าจริง ๆ มาเป็นตัวตั้ง

ช่วงแรกที่เราปรับจูนโมเดล เราเอาภาพที่ขายดีในตลาด Shutterstock มาใช้ก่อน แต่พอทำไปเรื่อย ๆ เราก็เจอว่ามันมีช่องว่างอยู่เหมือนกัน เพราะภาพที่ขายดีในตลาดสต็อก ไม่ได้แปลว่าจะถูกใจคนที่ใช้โมเดลสร้างภาพเสมอไป ลูกค้าสองกลุ่มนี้ต้องการภาพคนละแบบ เป้าหมายต่างกัน ชอบไม่เหมือนกันเลย

ชุดข้อมูลที่ดีสุดสำหรับปรับโมเดล คือชุดที่ตรงกับความชอบของคนใช้สร้างภาพ เพราะจะช่วยให้โมเดลสร้างภาพออกมาตรงใจคนดูมากขึ้น นี่คือจุดที่ Shutterstock เด่นกว่าที่อื่น

เราสร้างโมเดลเอง ใช้เทคโนโลยีเจ๋ง ๆ จากพันธมิตร และมีคนใช้มืออาชีพเก่ง ๆ อีกมากมาย

ตอนนี้เรามีภาพที่สร้างด้วย AI มากกว่า 100 ล้านภาพที่ถูกลิขสิทธิ์อยู่ในคลัง Shutterstock เราเลยใช้ข้อมูลจริงจากพฤติกรรมคนใช้ มาฝึกโมเดลให้รู้ว่าแบบไหนคนชอบ โมเดลนี้เลยเป็นฐานให้คะแนนที่เรียกว่า Generative Aesthetic Score คะแนนที่บอกได้ว่าภาพไหนจะโดนใจคนใช้โมเดลสร้างภาพมากที่สุด

โดยเฉลี่ย ภาพที่สร้างด้วย AI แล้วมีคนสนใจมาก จะได้คะแนนสูงกว่าภาพที่ไม่มีคนสนใจ อยู่ประมาณ 8.3%
ระบบนี้เก่งมากในการจัดอันดับโมเดลที่สร้างภาพ โดยดูจากว่าผู้ใช้จริงสนใจโมเดลไหนมากแค่ไหน ซึ่งผลที่ได้มีความแม่นยำสูงถึง 0.86 จากโมเดลสร้างภาพทั้งหมด 16 แบบที่ Shutterstock ใช้

Generative Aesthetic Score เป็นตัวชี้วัดที่น่าเชื่อถือสำหรับใช้เลือกจุดตรวจสอบ (checkpoint) ในการทดลองปรับปรุงโมเดล เพราะมีความสัมพันธ์สูงกับการที่ผู้ใช้จริงสนใจภาพ นอกจากนี้ คะแนนนี้ยังปรับให้สอดคล้องกับความชอบของลูกค้าที่เปลี่ยนไปได้ง่าย ทำให้เหมาะกับการปรับปรุงโมเดลอย่างต่อเนื่อง

การคัดสรรชุดข้อมูลให้ได้ทั้งคุณภาพและความหลากหลาย

เวลาปรับแต่งชุดข้อมูลสำหรับ Generative AI เรื่องคุณภาพถือเป็นสิ่งที่เรายอมไม่ได้ คุณภาพต้องมีความสอดคล้องกับความชอบของผู้ใช้งานเท่านั้น รวมถึงความหลากหลายทางภาพ

เราเลยพัฒนากลยุทธ์การสุ่มตัวอย่างโดยใช้การจัดกลุ่ม (clustering) เพื่อให้ชุดข้อมูลที่ใช้ปรับแต่งมีทั้งประสิทธิภาพและความหลากหลายไปพร้อมกัน

วิธีการก็คือ

1.เราจัดกลุ่มภาพที่มีอยู่ทั้งหมดให้เป็นกลุ่มที่มีความคล้ายกันทางภาพ ลองนึกภาพว่าแต่ละกลุ่มก็เหมือน “Codebook” ของคอนเทนต์นั่นแหละ

2.จากแต่ละกลุ่ม เราจะคัดเลือกภาพอันดับต้น ๆ โดยใช้คะแนน Generative Aesthetic Score เป็นเกณฑ์

3.เราปรับจำนวนกลุ่ม (clusters) ให้พอดี เพื่อสร้างสมดุลระหว่าง “ความตรงใจลูกค้า” กับ “ความหลากหลายที่น่าสนใจของภาพ”

ผลลัพธ์ที่ได้คือชุดข้อมูลสำหรับปรับแต่งที่มีประสิทธิภาพสูง สะท้อนรสนิยมด้านภาพของผู้ใช้งานได้อย่างตรงจุด โดยไม่ทำให้ความหลากหลายหายไป

เพราะเราคัดเลือกภาพที่ได้คะแนนสูงจากกลุ่มภาพที่แตกต่างกันอย่างชัดเจน ทำให้ลดความซ้ำซ้อน ขยายความครอบคลุมของ prompt และยังคงความโดดเด่นกับพื้นที่สร้างสรรค์ที่ผู้ใช้สาย Generative ต้องการไว้ได้อย่างครบถ้วน

ผลการทดลอง: ความสอดคล้องกับ Prompt และระดับการมีส่วนร่วม

เราได้นำโมเดลสร้างภาพจากข้อความรุ่นพื้นฐาน มาปรับจูนด้วยชุดข้อมูลที่ผ่านการคัดสรรอย่างเหมาะสม แล้วเปรียบเทียบกับชุดข้อมูลปรับแต่งแบบเดิม ที่ใช้ภาพสต็อกคุณภาพสูงเป็นหลัก ซึ่งผลลัพธ์ที่ได้คือ

หลังจากปรับปรุงหรือฝึกโมเดล AI ด้วยข้อมูลชุดใหม่ โมเดลสามารถสร้างภาพที่ “ตรงกับพรอมต์” ได้ดีขึ้น โดยคะแนน CLIP เพิ่มขึ้น 1.1 ซึ่งถือว่าเยอะอยู่ในเชิงเทคนิค
หลังจากใช้ชุดข้อมูลใหม่ โมเดลสร้างภาพดูน่าสนใจมากขึ้น มีแนวโน้มว่าคนดูจะ “ชอบ” หรือ “มีปฏิสัมพันธ์” กับภาพมากขึ้นถึง 17% เป็นสัญญาณว่า AI กำลังเรียนรู้รสนิยมมนุษย์ได้ดีขึ้นเรื่อย ๆ

เห็นได้ชัดจากภาพเลยว่าสร้างผลลัพธ์ได้แตกต่างกัน โมเดลที่ผ่านการปรับจูนจะสร้างภาพที่คมชัดและตรงประเด็นมากกว่า สะท้อนสิ่งที่ผู้ใช้คาดหวังได้ดีกว่าเดิม เป็นการเปลี่ยนแปลงในเชิงคุณภาพที่มีข้อมูลเชิงตัวเลขรองรับด้วย

ความหลากหลายในคำบรรยายภาพ: ตัวคูณเพิ่มประสิทธิภาพในการปรับจูน

ภาพสำคัญ แต่ข้อความภาษาก็สำคัญไม่แพ้กัน การมีคำบรรยายคุณภาพสูงจึงเป็นเรื่องสำคัญ สำหรับโมเดลที่แปลงข้อความเป็นภาพ เพราะคำบรรยายนั้นช่วยกำหนดว่าโมเดลจะเรียนรู้การเชื่อมโยงจากภาษาไปเป็นภาพได้อย่างไร

แม้ว่าคำบรรยายจากครีเอเตอร์ใน Shutterstock จะทำได้ดีกว่าคำบรรยายที่รวบรวมจากเว็บทั่วไป แต่เราก็พบว่าคำบรรยายที่สร้างขึ้นโดยโมเดลที่ประมวลผลภาพและภาษา (vision-language models หรือ VLMs) ยังคงทำได้ดีกว่า

เราได้ทดสอบโมเดล VLM หลากหลายในการสร้างคำบรรยายใหม่ให้กับชุดข้อมูลของเรา และระหว่างกระบวนการนี้ เราพบว่าคะแนน CLIP เป็นตัวแทนที่น่าเชื่อถือสำหรับวัดคุณภาพ เพราะมีความสัมพันธ์สูงกับการประเมินจากมนุษย์

แม้ว่าคำบรรยายภาพที่สร้างโดยโมเดล Vision-Language (VLMs) มักจะถูกใช้สำหรับการเทรนโมเดลตั้งแต่เริ่มต้น แต่เราพบว่าการเอาคำบรรยายแบบนี้มาใช้ปรับจูน (fine-tune) กับโมเดลพื้นฐานที่มีอยู่แล้ว ก็ให้ผลลัพธ์ที่ดีขึ้นอย่างเห็นได้ชัด

เราได้ลองปรับจูนโมเดลพื้นฐานของเราด้วยชุดข้อมูลที่มีคำบรรยายสังเคราะห์อยู่ 80% และ 50% ซึ่งผลปรากฏว่าแบบ 80% ให้ผลดีที่สุด

CLIP score +0.5 = ภาพที่ได้ตรงกับคำสั่งมากขึ้น
Generative Aesthetic Score +1.6% = ภาพดูน่าดึงดูดและน่าคลิกมากขึ้น (ตามรสนิยมของผู้ใช้จริง)

สังเกตได้ว่า Generative Aesthetic Score เป็นตัวชี้วัดที่ทรงพลัง เพราะมีความสัมพันธ์กับการมีส่วนร่วมของผู้ใช้จริงอย่างชัดเจน และยังคงเชื่อถือได้ แม้ว่าเมตริกอื่น ๆ จะเริ่มนิ่งหรือไม่เติมโตต่อแล้วก็ตาม

ข้อมูลคือคันโยก & การปรับจูนคือจุดหมุน

ถ้าคุณกำลังปรับจูนโมเดล Generative สิ่งสำคัญที่ควรจำไว้คือ คุณภาพของข้อมูลสำคัญกว่าปริมาณ และถึงจะเป็นข้อมูลคุณภาพสูง ก็ไม่ได้หมายความว่าจะใช้ได้เสมอไป ความสอดคล้องกับผู้ใช้คือหัวใจหลัก

ที่ Shutterstock เราสร้างกระบวนการที่คัดเลือกข้อมูล ให้คะแนน จัดกลุ่ม และเขียนคำบรรยาย โดยคำนึงถึงประสิทธิภาพของโมเดลเป็นหลัก

ไม่ว่าคุณจะกำลังสร้างกระบวนการปรับจูนภายในองค์กร หรือกำลังสร้างรผู้ให้บริการข้อมูลจากภายนอก ลองถามตัวเองดูว่า:

คะแนนภาพของคุณตั้งอยู่บนพื้นฐานพฤติกรรมของผู้ใช้จริงหรือเปล่า?
คำบรรยายของคุณสื่อสารรายละเอียดภาพได้ลึกพอไหม?
ชุดข้อมูลสำหรับการปรับจูนของคุณหลากหลายพอที่จะไม่ทำให้ผลลัพธ์ดูจำเจหรือยัง?

ข้อมูลเหล่านี้คุณก็สามารถเข้าถึงได้ผ่าน Number 24 x Shutterstock มาทำให้องค์กรของคุณกลายเป็นหัวแถวของอุตสาหกรรม ด้วยชุดข้อมูลคุณภาพสูงของเรา ติดต่อเราได้เลยที่

Inbox : http://m.me/number24.co.th

LINE Official Account : https://line.me/R/ti/p/@klj9484n

Instagram : https://www.instagram.com/number24.co.th

Website : https://number24.co.th/

Author

content

กองโปรดักชั่นเคลื่อนที่ ผู้มีหมูกระทะเป็นแรงขับเคลื่อน ใช้เวลาส่วนใหญ่หวีด BNK48 & CGM48

Related Blog

Business, AI

เนรมิตคอนเทนต์ AI ในฝัน คุม Mood & Tone ให้เป๊ะ ด้วย Shutterstock AI

Business, AI

ฝึก AI ใช้อย่างแฟร์ ด้วยผลงานถูกสิทธิ์

Business, AI

ให้ AI เรียนรู้ เปลี่ยนงานเป็นรายได้ ด้วย Shutterstock Contributor Fund

Business, AI

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

AI สร้างรูปออกมาสวยขนาดนี้ได้ยังไง? เฉลยความลับที่นักพัฒนาไม่ยอมบอก

ชุดข้อมูล สำหรับจูนโมเดลคุณภาพสูงที่คุณขาดไม่ได้

เลิกเดาส่งเดช วัดผลจากพฤติกรรมแบบรู้ใจผู้ใช้

การคัดสรรชุดข้อมูลให้ได้ทั้งคุณภาพและความหลากหลาย

ผลการทดลอง: ความสอดคล้องกับ Prompt และระดับการมีส่วนร่วม

ข้อมูลคือคันโยก & การปรับจูนคือจุดหมุน

content

Related Articles

Tags

Related Blog

เนรมิตคอนเทนต์ AI ในฝัน คุม Mood & Tone ให้เป๊ะ ด้วย Shutterstock AI

ฝึก AI ใช้อย่างแฟร์ ด้วยผลงานถูกสิทธิ์

ให้ AI เรียนรู้ เปลี่ยนงานเป็นรายได้ ด้วย Shutterstock Contributor Fund

AI Storytelling สู่โลกแห่งการสร้างสรรค์ ยุคใหม่ สนุก ครบ สร้างสรรค์ได้ไว

Tell us about yourself