Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงสดกว่า 70 ภาษา ใช้งานได้ทั้ง Google Translate และ Meet

โดย Wattana S.

Google เปิดตัว Gemini 3.5 Live Translate โมเดลเสียงรุ่นใหม่ล่าสุดที่ออกแบบมาสำหรับการแปลเสียงพูดเป็นเสียงพูดแบบเกือบเรียลไทม์ รองรับมากกว่า 70 ภาษา พร้อมจุดเด่นในการแปลที่ไหลลื่น เป็นธรรมชาติ และยังคงโทนเสียง จังหวะ รวมถึงระดับเสียงสูงต่ำของผู้พูดเอาไว้ได้ใกล้เคียงเดิม

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate คืออะไร

Gemini 3.5 Live Translate เป็นโมเดลเสียงใหม่ของ Google ที่สามารถตรวจจับภาษาได้อัตโนมัติมากกว่า 70 ภาษา และแปลเสียงพูดออกมาเป็นเสียงพูดอีกภาษาหนึ่งได้อย่างต่อเนื่อง โดยไม่ต้องรอให้ผู้พูดพูดจบก่อนเหมือนระบบแปลแบบเดิม

จุดเด่นสำคัญคือระบบจะพยายามรักษาสมดุลระหว่าง “การรอฟังบริบท” เพื่อให้แปลได้แม่นยำ และ “การแปลให้ทันบทสนทนา” เพื่อให้การสื่อสารไม่สะดุด ทำให้เสียงแปลดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาทีเท่านั้น

แปลเสียงได้ลื่นขึ้น เหมาะกับการโทร ประชุม ไลฟ์ และการเรียน

Google ระบุว่า Gemini 3.5 Live Translate สามารถประมวลผลเสียงพูดระหว่างการสตรีมได้ทันที รองรับอินพุตหลายภาษาโดยไม่ต้องตั้งค่าด้วยตนเอง และยังมีความสามารถด้านการลดเสียงรบกวน ช่วยให้ใช้งานได้ดีแม้อยู่ในสภาพแวดล้อมที่มีเสียงดัง

ความสามารถนี้สามารถนำไปใช้ได้หลากหลาย เช่น

  • การแปลสดระหว่างการโทร
  • การประชุมออนไลน์หลายภาษา
  • การเรียนการสอน
  • การถ่ายทอดสด
  • แอปหรือบริการที่ต้องสื่อสารข้ามภาษาแบบเรียลไทม์

เปิดให้นักพัฒนาใช้งานผ่าน Gemini Live API

สำหรับนักพัฒนา Gemini 3.5 Live Translate เปิดให้ใช้งานแล้วในเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studio โดยมีแพลตฟอร์มสำหรับนักพัฒนาอย่าง Agora, Fishjam, LiveKit, Pipecat และ VisionAgents เข้ามาช่วยให้การสร้างแอปแปลเสียงพูดทำได้ง่ายขึ้น

การผสานระบบเหล่านี้จะช่วยจัดการโครงสร้างพื้นฐานด้านการสตรีมสื่อแบบเรียลไทม์ที่ซับซ้อน ทำให้นักพัฒนาสามารถโฟกัสกับประสบการณ์ผู้ใช้ได้มากขึ้น

Grab เริ่มทดสอบ ช่วยคนขับและผู้โดยสารคุยกันข้ามภาษา

หนึ่งในพาร์ทเนอร์ที่กำลังทดสอบ Gemini 3.5 Live Translate คือ Grab โดยนำโมเดลนี้ไปช่วยให้คนขับและผู้โดยสารสามารถสื่อสารกันได้แบบเกือบเรียลไทม์ในภาษาที่แตกต่างกัน

Google ระบุว่า คนขับและผู้โดยสารมีการโทรติดต่อกันผ่าน Grab มากกว่า 10 ล้านครั้งต่อเดือน ซึ่งทำให้ฟีเจอร์แปลเสียงสดมีโอกาสช่วยลดกำแพงด้านภาษาในการใช้งานจริงได้อย่างมาก

นอกจาก Grab แล้ว ยังมีพาร์ทเนอร์รายอื่น เช่น CJ ENM, LiveKit, VisionAgents, Software Mansion และ Agora ที่ให้ฟีดแบ็กเชิงบวกเกี่ยวกับคุณภาพการแปล ความแม่นยำ และเวลาในการตอบสนองต่ำของ Gemini 3.5 Live Translate

มือถือเรือธง ขายดีประจำสัปดาห์

รวมรุ่นน่าสนใจ ราคาดี เหมาะกับคนกำลังเลือกซื้อมือถือใหม่
Top 5
1
vivo X300 Ultra
ราคาเริ่มต้น 54,999 บาท
2
iQOO 15
ราคาเริ่มต้น 29,900 บาท
3
OPPO Find X9 Ultra
ราคาเริ่มต้น 54,999 บาท
4
HONOR Magic8 Pro
ราคาเริ่มต้น 39,990 บาท
5
POCO F8 Ultra
ราคาเริ่มต้น 23,990 บาท
* ราคาและโปรโมชันอาจมีการเปลี่ยนแปลง โปรดตรวจสอบอีกครั้งก่อนสั่งซื้อ

Google Meet เตรียมอัปเกรดแปลเสียงพูด รองรับมากกว่า 70 ภาษา

ฟีเจอร์ Speech Translation หรือการแปลเสียงพูดใน Google Meet กำลังจะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ในเร็ว ๆ นี้ โดยจะยกระดับจากเดิมที่รองรับเพียง 5 ภาษา ไปเป็นมากกว่า 70 ภาษา

การอัปเดตใหม่นี้ยังช่วยให้สามารถสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาในการประชุมเดียว และไม่จำกัดเฉพาะกรณีที่ภาษาอังกฤษเป็นภาษาต้นทางหรือปลายทางเท่านั้น

Google จะเริ่มเปิดให้ใช้งานในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่มตั้งแต่เดือนนี้ ก่อนขยายการใช้งานในวงกว้างขึ้นภายในช่วงปลายปีนี้

Google Translate บน Android และ iOS ก็ได้ใช้ด้วย

Gemini 3.5 Live Translate จะทยอยเปิดให้ใช้งานในแอป Google Translate ทั่วโลก ทั้งบน Android และ iOS ผ่านฟีเจอร์ Live Translate

ผู้ใช้เพียงเชื่อมต่อหูฟังคู่ใดก็ได้ ก็สามารถฟังเสียงแปลที่ราบรื่นและเป็นโทนเสียงของผู้พูดได้ในกว่า 70 ภาษา เหมาะกับการเดินทาง การสนทนา หรือสถานการณ์ที่ต้องการเข้าใจภาษาต่างประเทศแบบรวดเร็ว

Android ได้โหมด Listening Mode ใหม่

สำหรับผู้ใช้ Android Google ยังเตรียมเปิดให้ใช้งาน Listening Mode แบบใหม่ที่มาพร้อม Gemini 3.5 Live Translate โดยโหมดนี้จะช่วยให้ผู้ใช้ได้ยินเสียงแปลโดยตรงผ่านหูฟังในโทรศัพท์

เพียงยกโทรศัพท์ขึ้นมาแนบหูเหมือนกำลังคุยสาย เสียงแปลก็จะถูกสตรีมมาให้ฟังทันที เหมาะกับสถานการณ์ที่ต้องการฟังคำแปลอย่างรวดเร็วโดยไม่ให้คนรอบข้างได้ยิน หรือในกรณีที่ไม่มีหูฟังอยู่ใกล้ตัว

ใส่ลายน้ำเสียงด้วย SynthID

Google ยืนยันว่าเสียงทั้งหมดที่สร้างขึ้นโดยโมเดลของบริษัทจะถูกใส่ลายน้ำดิจิทัลด้วย SynthID ซึ่งเป็นลายน้ำที่มองไม่เห็นด้วยตาเปล่า แต่ถูกฝังอยู่ในเอาต์พุตเสียงโดยตรง

แนวทางนี้ช่วยให้สามารถตรวจจับเนื้อหาที่สร้างโดย AI ได้ และเป็นอีกหนึ่งมาตรการเพื่อลดความเสี่ยงจากการนำเสียง AI ไปใช้สร้างข้อมูลที่ไม่ถูกต้อง

Gemini 3.5 Live Translate ถือเป็นอีกก้าวสำคัญของ Google ในการทำให้การสื่อสารข้ามภาษาเป็นธรรมชาติมากขึ้น ไม่ว่าจะเป็นการใช้งานผ่าน Google Translate, Google Meet หรือการนำไปต่อยอดผ่าน Gemini Live API

ด้วยความสามารถในการแปลเสียงพูดแบบเกือบเรียลไทม์ รองรับกว่า 70 ภาษา รักษาโทนเสียงของผู้พูด และลดดีเลย์ระหว่างบทสนทนา ฟีเจอร์นี้มีโอกาสกลายเป็นเครื่องมือสำคัญสำหรับการเดินทาง การทำงาน การประชุม และบริการดิจิทัลที่ต้องเชื่อมผู้คนจากหลายภาษาเข้าด้วยกัน

เรื่องน่าสนใจเพิ่มเติม:

เรื่องที่เกี่ยวข้อง

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More