OpenAI ปรับ tokenizer รองรับภาษาเพิ่ม 20 ภาษา ประหยัดค่า token

By: lew

on 14 May 2024 - 00:47 Tags:

Topics:

OpenAI

LLM

ChatGPT

update: เวอร์ชั่นแรกขอข่าวนี้พาดหัวว่ายังไม่รองรับภาษาไทย แต่เมื่อทดสอบแล้วจำนวนโทเค็นในภาษาไทยลดลงกว่าเท่าตัว

ในงานเปิดตัว GPT-4o ของ OpenAI นอกจากประเด็นโมเดลมีประสิทธิภาพสูงขึ้นแล้ว ยังมีประเด็นการออปติไมซ์ tokenizer เพื่อให้ใช้งานภาษาอื่นๆ นอกจากภาษาอังกฤษได้ดีขึ้น โดยทีมงาน OpenAI เลือกมา 20 ภาษารวมถึงภาษาอังกฤษแต่ยังไม่มีภาษาไทย ทำให้ภาษาเหล่านี้ใช้งานได้มีประสิทธิภาพมากขึ้นเพราะคำในภาษาเหล่านี้มีจำนวนโทเค็นน้อยลง

ตัวอย่างภาษาที่ได้รับการออปติไมซ์ เช่น ภาษา Gujarati ที่มีผู้ใช้ประมาณ 55 ล้านคน จะประหยัดโทเค็นลงถึง 4.4 เท่าตัว ในประโยคตัวอย่าง จาก 145 โทเค็นเหลือ 33 โทเค็น, ภาษาอราบิกประหยัดลง 2 เท่าตัว, ภาษาเวียดนามประหยัดลง 1.5 เท่าตัว หรือแม้แต่ภาษายอดนิยม เช่นภาษาอังกฤษ, ฝรั่งเศส, สเปน, และโปรตุเกส ก็ถูกออปติไมซ์จนประหยัดโทเค็นลง 1.1 เท่าตัว

จำนวนโทเค็นในแต่ละภาษาส่งผลโดยตรงต่อการใช้งาน เพราะพารามิเตอร์ต่างๆ ของปัญญาประดิษฐ์แบบ large-language model ไม่ได้คิดตามจำนวนตัวอักษรแต่คิดตามจำนวนโทเค็น การที่ประโยคใช้โทเค็นน้อยทำให้ใส่ข้อมูลได้มากขึ้นใน context window เท่าเดิม หรือหากใส่ข้อมูลเท่าเดิมค่าใช้งานก็จะประหยัดลง ที่ผ่านมา tokenizer ของ GPT-4 จะให้โทเค็นประโยคใกล้เคียงกันภาษาไทยจะมีจำนวนโทเค็นมากกว่าภาษาอังกฤษ ประมาณ 2 เท่าตัว

ยังไม่แน่ชัดว่า tokenizer ใหม่นี้จะส่งผลอย่างไรต่อภาษาไทย โดย OpenAI เตรียมเมนูทดสอบ tokenizer สำหรับ GPT-4o แล้ว แต่ยังใช้งานไม่ได้

ที่มา - OpenAI