ChatGPT Images 2.0 เปิดตัวแล้ว สร้างภาพชัด ข้อความเป๊ะ ไม่เพี้ยน

โดย Wattana S.

OpenAI เปิดตัวโมเดลสร้างภาพใหม่ ChatGPT Images 2.0 ที่มาพร้อมความสามารถด้านการเรนเดอร์ข้อความ (text rendering) ที่พัฒนาขึ้นอย่างก้าวกระโดด จนสามารถสร้างภาพที่มีตัวอักษรถูกต้อง อ่านได้จริง และใช้งานเชิงพาณิชย์ได้มากขึ้น นับเป็นอีกหนึ่งก้าวสำคัญของเทคโนโลยี AI สร้างภาพในปี 2026

ChatGPT Images 2.0

ย้อนกลับไปเพียง 2 ปีก่อน โมเดลสร้างภาพยังมีข้อจำกัดชัดเจน โดยเฉพาะการสะกดคำในภาพ เช่น เมนูอาหารที่มักมีคำเพี้ยนอย่าง “enchuita” หรือ “burrto” ทำให้แยกแยะได้ไม่ยากว่าเป็นภาพจาก AI แต่ในเวอร์ชันใหม่ของ ChatGPT Images 2.0 ระบบสามารถสร้างเมนูอาหารที่ดูสมจริงจนแทบแยกไม่ออกจากงานดีไซน์ของมนุษย์ และสามารถนำไปใช้งานในร้านอาหารจริงได้ทันที

Image Credits:ChatGPT Images 2.0
Image Credits: ChatGPT Images 2.0

หนึ่งในสาเหตุที่ทำให้ AI รุ่นก่อนมีปัญหากับตัวอักษร มาจากการใช้เทคนิค diffusion model ซึ่งเป็นการสร้างภาพจาก noise หรือสัญญาณรบกวน แล้วค่อยๆ ปรับให้กลายเป็นภาพสมบูรณ์ โดยโมเดลจะโฟกัสกับองค์ประกอบหลักของภาพมากกว่ารายละเอียดเล็กๆ อย่างตัวอักษร ทำให้การสะกดคำมักผิดพลาด อย่างไรก็ตาม นักวิจัยได้เริ่มพัฒนาแนวทางใหม่ เช่น autoregressive model ที่ทำงานคล้ายโมเดลภาษา (LLM) ซึ่งช่วยให้การคาดการณ์รายละเอียดในภาพมีความแม่นยำมากขึ้น

Image Credits ChatGPT Images 2.0 Thai Food
Image Credits ChatGPT Images 2.0

ตัวอย่าง Prompt:

ออกแบบป้ายเมนูอาหารไทยสไตล์ร้านอาหารพรีเมียม จัดเลย์เอ้าท์ให้สวยงาม อ่านง่าย และดูเหมือนเมนูจริงในร้าน

มีรูปอาหารสมจริงคุณภาพสูง เช่น ผัดไทย ต้มยำกุ้ง แกงเขียวหวาน ส้มตำ และข้าวเหนียวมะม่วง

แบ่งหมวดหมู่ชัดเจน เช่น อาหารเรียกน้ำย่อย อาหารจานหลัก ของหวาน และเครื่องดื่ม

แต่ละเมนูต้องมีชื่อเมนู คำอธิบายสั้นๆ และราคาสกุลเงินบาท (บาท) ให้ดูสมจริง

ใช้โทนดีไซน์ไทยร่วมสมัย เช่น สีทอง ลายไทย พื้นหลังไม้หรือหินอ่อน พร้อมฟอนต์ไทย+อังกฤษที่ดูพรีเมียม

ภาพอาหารต้องดูเหมือนถ่ายจริง แสงสวย น่าทาน มีเงาและมิติแบบภาพอาหารมืออาชีพ

เพิ่มรายละเอียด เช่น โลโก้ร้าน (placeholder), ลวดลายตกแต่งไทย, spacing ที่สมดุล

สไตล์: หรู ทันสมัย สมจริง ความละเอียดสูง เหมาะกับป้ายหน้าร้านหรือเมนูดิจิทัล

อัตราส่วนภาพ 4:5 หรือ 1:1

แม้ OpenAI จะยังไม่เปิดเผยชัดเจนว่า ChatGPT Images 2.0 ใช้สถาปัตยกรรมแบบใด แต่ยืนยันว่าโมเดลใหม่นี้มี “ความสามารถในการคิด” (thinking capabilities) ที่ช่วยให้ระบบสามารถค้นหาข้อมูลจากเว็บ สร้างภาพหลายแบบจากคำสั่งเดียว และตรวจสอบความถูกต้องของผลงานได้ด้วยตัวเอง ส่งผลให้สามารถสร้างงานกราฟิกระดับมืออาชีพ เช่น สื่อการตลาดหลายขนาด หรือคอมิกหลายช่อง ได้ภายในไม่กี่นาที

อีกจุดเด่นสำคัญคือการรองรับการแสดงผลตัวอักษรที่ไม่ใช่ภาษาอังกฤษ (non-Latin) ได้ดีขึ้น ไม่ว่าจะเป็นภาษาญี่ปุ่น เกาหลี ฮินดี หรือเบงกาลี ซึ่งถือเป็นข้อจำกัดเดิมของ AI หลายรุ่นที่ผ่านมา อย่างไรก็ตาม โมเดลนี้มีข้อมูลถึงเดือนธันวาคม 2025 เท่านั้น จึงอาจมีข้อจำกัดด้านความทันสมัยของข้อมูลในบางกรณี

OpenAI ระบุว่า Images 2.0 สามารถสร้างภาพที่มีความละเอียดสูงถึงระดับ 2K พร้อมเก็บรายละเอียดเล็กๆ ได้ดีขึ้น ไม่ว่าจะเป็นตัวอักษรขนาดเล็ก ไอคอน UI หรือองค์ประกอบที่ซับซ้อนในภาพเดียวกัน แม้การสร้างภาพที่มีความซับซ้อนสูงจะใช้เวลานานกว่าการพิมพ์ข้อความทั่วไป แต่ก็ยังอยู่ในระดับเพียงไม่กี่นาที

สำหรับการใช้งาน ChatGPT Images 2.0 จะเริ่มเปิดให้ผู้ใช้ ChatGPT และ Codex ใช้งานได้ตั้งแต่สัปดาห์นี้ โดยผู้ใช้แบบเสียเงินจะสามารถเข้าถึงฟีเจอร์ขั้นสูงและสร้างผลงานที่ซับซ้อนได้มากกว่า นอกจากนี้ OpenAI ยังเปิดตัว API ใหม่ในชื่อ gpt-image-2 ซึ่งคิดค่าบริการตามคุณภาพและความละเอียดของภาพที่สร้างขึ้น

การมาของ ChatGPT Images 2.0 จึงสะท้อนให้เห็นว่า AI สร้างภาพกำลังก้าวเข้าสู่จุดที่สามารถใช้งานจริงในเชิงธุรกิจและงานออกแบบได้มากขึ้น โดยเฉพาะงานที่ต้องพึ่งพาความแม่นยำของข้อความและรายละเอียดในภาพ ซึ่งเคยเป็นจุดอ่อนสำคัญของเทคโนโลยีนี้ในอดีต

ที่มา: techcrunch

เรื่องที่เกี่ยวข้อง

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More