Large Language Model

Tags:
Topics: 
Node Thumbnail

เบราว์เซอร์ Brave เพิ่มฟีเจอร์ให้ปัญญาประดิษฐ์ Leo ผู้ช่วยที่มาพร้อมกับเบราว์เซอร์ โดยในเวอร์ชั่นใหม่ Leo จะสามารถอ่านข้อมูลบนเบราว์เซอร์ได้หลากหลายขึ้น ทำให้ขอความช่วยเหลือเพิ่มเติมได้หลากหลาย

Leo สามารถอ่านข้อมูลในเอกสาร ได้แก่ 1) PDF อ่านข้อมูลไฟล์เอกสาร งานวิจัยต่างๆ เพื่อคุยกับเอกสาร 2) Google Docs สามารถอ่านและแก้ไขเอกสาร 3) Google Sheet วิเคราะห์ตารางและช่วยเขียนสูตรสมการ 4) Slack อ่านข้อความใน thread เพื่อสรุป 5) YouTube แปลงวิดีโอเป็นทรานสคริปต์และสรุปเนื้อหา

Tags:
Node Thumbnail

ทีมวิจัยจากสถาบัน Human-Centered Artificial Intelligence (HAI) ของมหาวิทยาลัยสแตนฟอร์ด รายงานถึงผลทดสอบการใช้งานปัญญาประดิษฐ์ในกลุ่ม LLM ว่าแม้จะมีข่าวว่า LLM สามารถวินิจฉัยโรคได้อย่างน่าทึ่งแต่ก็มีความผิดพลาดสูง ต้องระมัดระวัง

ทีมงานทดสอบการใช้งาน LLM โดยใช้โมเดล 4 ตัว ได้แก่ GPT-4, Claude 2.1, Mistral Medium, และ Gemini Pro เฉพาะ GPT-4 นั้นสร้างแอป retrieval augmented generation (RAG) ครอบอีกชั้นเพื่อทดสอบ โดยวัดว่าเวลาที่ LLM เหล่านี้ตอบคำถามแล้ว สามารถสร้างคำตอบโดยมีการอ้างอิงอย่างถูกต้องหรือไม่

Tags:
Topics: 
Node Thumbnail

AWS ประกาศเพิ่มโมเดล Mistral 7B และ Mixtral 8x7B ให้ใช้งานบน AWS Bedrock เร็วๆ นี้ โดยระบุว่าทั้งสองโมเดลมีจุดเด่นเรื่องของความเร็วและค่าใช้จ่ายที่ถูกกว่า นอกจากนี้องค์กรบางส่วนยังอาจต้องการโมเดลที่ตรวจสอบได้ การใช้โมเดลโอเพนซอร์สจึงเป็นทางเลือกสำคัญ

Mixtral 8x7B นั้นมีคะแนนทดสอบค่อนข้างใกล้เคียงกับ GPT-3.5 แต่มีจุดเด่นที่รันได้เร็วมาก โดยตอนนี้ผู้ให้บริการที่เน้นความเร็วอย่าง Groq นั้นโชว์ว่าสามารถ รันได้ที่ระดับ 500 token/s เลยทีเดียว

Tags:
Topics: 
Node Thumbnail

MediaTek ประกาศความสำเร็จในการปรับแต่งโมเดล Google Gemini Nano และ Meta Llama 2 7B ให้รันบนชิป Dimensity 9300 และ 8300 เปิดทางให้ใช้งานฟีเจอร์ Generative AI แบบออฟไลน์ ไม่ต้องผ่านคลาวด์

การรันโมเดลเหล่านี้บนชิป เกิดขึ้นได้เพราะใช้ APU (AI processing unit ตามภาษาของ MediaTek) รุ่นใหม่ ที่มีประสิทธิภาพสูงขึ้น

MediaTek ประกาศว่าจะร่วมมือกับกูเกิลเปิดตัวแอพ APK ที่ช่วยให้นักพัฒนาและแบรนด์ OEM รันโมเดล Gemini Nano ของตัวเองบนชิป Dimensity ในเร็วๆ นี้

Tags:
Node Thumbnail

Phind บริษัทปัญญาประดิษฐ์ LLM สำหรับการช่วยเขียนโค้ดเป็นหลัก เปิดตัวโมเดลของตัวเอง Phind-70B ที่วัดเฉพาะความสามารถในการเขียนโค้ด HumanEval และ CRUXEval ใกล้เคียงกับ GPT-4 มาก แต่ชูความเด่นกว่าที่ความเร็วในการตอบและโมเดลถูกฝึกให้ขยันตอบมากกว่า GPT-4 ที่เคยมีปัญหาไม่ยอมตอบบางคำถาม

ความเร็วในการตอบของ Phind-70B อยู่ที่ 80 token/s เร็วกว่า GPT-4 Turbo ประมาณสี่เท่าตัว และคาดว่าจะเร่งความเร็วได้สูงกว่านี้อีก

ก่อนหน้านี้ Phind เคยออกโมเดลเวอร์ชั่น 34B มาก่อนแล้ว และเตรียมจะปล่อยโมเดลให้เอาไปใช้งานในอนาคตรวมถึงโมเดลเวอร์ชั่น 70B เช่นกันแต่ยังไม่ระบุช่วงเวลา สำหรับผู้ใช้ทั่วไปสามารถเข้าไปใช้ Phind-70B ได้ฟรีแบบจำกัดข้อความต่อวัน และสามารถจ่ายเงินค่าสมาชิกเพื่อเพิ่มโควต้าได้

Tags:
Node Thumbnail

Stability AI เปิดตัวเครื่องมือสร้างรูปภาพจากข้อความด้วย AI เวอร์ชันล่าสุด Stable Diffusion 3ตอนนี้อยู่ในสถานะพรีวิวขั้นต้น จึงยังไม่เปิดให้ใช้งานทั่วไปในวงกว้าง แต่ผู้ใช้งานสามารถเข้าร่วมใน waitlist เพื่อ ทดสอบได้ที่นี่

Stable Diffusion 3 เป็นโมเดลที่มีพารามิเตอร์ตั้งแต่ 800M ถึง 8B พารามิเตอร์ จึงรองรับตัวเลือกและคุณภาพของผลลัพธ์ที่มากยิ่งขึ้น

ในตอนนี้ Stability AI ยังไม่ได้เปิดเผยรายละเอียดของ Stable Diffusion 3 มากนัก มีเพียงการนำเสนอภาพที่สร้างขึ้นมาจำนวนหนึ่ง แต่บอกว่าจะเผยแพร่รายละเอียดทางเทคนิคในภายหลัง ขณะนี้อยู่ในขั้นตอนนี้ตรวจสอบด้านความปลอดภัยของ AI ก่อนเผยแพร่ในวงกว้างกับสาธารณะต่อไป

Tags:
Node Thumbnail

กูเกิลเปิดตัว Gemma โมเดลภาษาแบบโอเพนซอร์ส ที่ได้แรงบันดาลใจมาจาก Gemini โมเดลเชิงพาณิชย์ของตัวเอง และพัฒนาโดยทีม Google DeepMind เหมือนกัน มีโครงสร้างทางเทคนิคบางส่วนเหมือนกัน

กูเกิลปล่อย Gemma ออกมา 2 ขนาดคือ 2B และ 7B ( ดาวน์โหลดได้จาก Kaggle หรือ Hugging Face ) โดยระบุว่าโมเดลขนาด 7B สามารถเอาชนะคู่แข่งที่ระดับเดียวกันคือ Llama 7B ในเบนช์มาร์คต่างๆ ได้ค่อนข้างทิ้งห่าง และเอาชนะได้แม้กระทั่ง Llama 13B ที่มีขนาดใหญ่กว่าได้ด้วยซ้ำ

Tags:
Node Thumbnail

Adobe เปิดตัว AI Assistant ที่ตอนนี้มีสถานะเบต้า โดยเป็น Generative AI สำหรับไฟล์ PDF ในสองโปรแกรมของ Adobe คือ Reader และ Acrobat รองรับการสรุปเนื้อหา, ตอบคำถาม และจัดฟอร์แมตสำหรับใช้ส่งอีเมล ทำรายงาน หรือการนำเสนอ

Adobe บอกว่าความสามารถของ AI Assistant จะช่วยปลดล็อกคุณค่าของข้อมูลในเอกสาร PDF ที่มีประมาณ 3 ล้านล้านชุดในโลก

AI Assistant ทำงานบน AI และ Machine Learning บนพื้นฐานเดียวกับ Acrobat Liquid Mode ฟีเจอร์ที่ใช้ปรับปรุงการแสดงผลของเอกสาร PDF ให้เหมาะกับการอ่านบนหน้าจอมือถือ

Tags:
Node Thumbnail

กูเกิลอัพเดตบริการ Gemini Advanced (ที่ตอนนี้น่าจะยังอยู่ในช่วงทดสอบฟรีกันทุกคน) ให้สามารถรันโค้ดภาษา Python ได้ในเว็บ เป็นฟีเจอร์สำหรับผู้ใช้ที่สมัครแพ็กเกจจ่ายเงินเท่านั้น

แนวทางนี้ทำให้ผู้ใช้สามารถกดรันโค้ดและดูผลลัพธ์ได้ทันที โดยเมื่อผู้ใช้กดรันโค้ดบนหน้าเว็บแล้วเว็บ Gemini จะส่งโค้ดไปรันบนเซิร์ฟเวอร์เพื่อแสดงผล โดยตัว Gemini นั้นไม่ได้อ่านผลการรันด้วยตัวเองแต่อย่างใด ทำให้บางคำถาม ตัว Gemini จะตอบผลที่ผิดแม้จะเขียนโค้ดถูกและเมื่อรันโค้ดแล้วได้ผลลัพธ์ที่ถูกต้องก็ตาม

Tags:
Node Thumbnail

Dylan Roussel นักแกะฟีเจอร์ใหม่ Android โพสต์ข้อมูล ที่เขาพบในบัญชี X เกี่ยวกับฟีเจอร์ใหม่ที่เตรียมประกาศของ Gemini สำหรับลูกค้า Google Workspace เพื่อนำ Gemini มาใช้ภายในองค์กร ที่ต้องการความสามารถปกป้องข้อมูลเพิ่มเติม

แผนที่กูเกิลเปิดให้สมัครได้แก่ Gemini Business และ Gemini Enterprise สามารถใช้งานโมเดล Gemini Ultra 1.0 โดยกูเกิลจะไม่นำข้อมูลในการสนทนาไปใช้ในการเทรน AI รองรับเฉพาะภาษาอังกฤษสำหรับลูกค้าใน 150 ประเทศ ทั้งนี้รายละเอียดและราคาต้องรอประกาศทางการอีกครั้ง

Tags:
Node Thumbnail

Groq สตาร์ตอัพผู้พัฒนาชิป GroqChip 1 สำหรับการรันโมเดลปัญญาประดิษฐ์ LLM และผู้ให้บริการ LLM แบบคลาวด์ระบุถึงผลทดสอบของ ArtificialAnalysis.ai ที่แสดงให้เห็นว่า Groq เป็นผู้ให้บริการที่สามารถประมวลผล LLM ได้เร็วที่สุดในตลาด

โมเดลที่ใช้ทดสอบเป็นโมเดล Llama 2 70B ที่มีคลาวด์หลายเจ้าให้บริการกัน รวมถึงคลาวด์รายใหญ่อย่าง Amazon Bedrock และ Azure แต่จุดที่ Groq นำมาเน้นคือความเร็วในการตอบ ที่ระยะเวลาจนถึงการตอบ 100 token แรกนั้นกินเวลาเพียง 0.7 วินาที และอัตราการตอบรวมได้เร็วกว่า 240 token ต่อวินาที นับว่าเร็วกว่าคู่แข่งอันดับสองแบบห่างไกล (Lepton รันได้สูงกว่า 120 token ต่อวินาทีไปเล็กน้อย)

Tags:
Node Thumbnail

Ollama ซอฟต์แวร์รันโมเดล LLM สำหรับรันบนพีซีออกเวอร์ชั่น 0.1.25 ความเปลี่ยนแปลงสำคัญคือการรองรับวินโดวส์เป็นเวอร์ชั่นแรก

ตอนนี้เวอร์ชั่นวินโดวส์ยังอยู่ในสถานะพรีวิวแต่ก็สามารถใช้งานทั้งการเร่งความเร็วด้วยชิปกราฟิกหรือซีพียู และสามารถใช้งานโมเดลได้ทุกตัวในไลบรารี

เมื่อติดตั้งและรันโมเดลแล้ว ตัว Ollama จะรันที่พอร์ต 11434 รอรับ REST API โดยเวอร์ชั่นก่อนหน้านี้ Ollama เพิ่งรองรับ API แบบ OpenAI ไป ในเวอร์ชั่นนี้ก็ได้ฟีเจอร์นี้ด้วย

ที่มา - Ollama

Tags:
Node Thumbnail

อาจเรียกได้ว่าเป็นวันของการปล่อยของด้าน AI นอกจาก Gemini 1.5 Pro จากกูเกิล และ Sora จาก OpenAI แล้ว Meta ก็เปิดตัว V-JEPA สถาปัตยกรรมตัวใหม่ของระบบการเรียนรู้ตนเอง สำหรับการพัฒนา AI ขั้นสูง

โดย V-JEPA ซึ่งย่อมาจากคำว่า Video Joint Embedding Predictive Architecture พัฒนาโดยทีม AI ของ Meta ที่นำโดย Yann LeCun ต้องการสร้างโมเดลเรียนรู้ของ AI ขั้นสูง เพื่อให้รองรับการทำความเข้าใจทุกอย่างในโลกได้ดียิ่งขึ้น โดยมีหลักคิดว่ามนุษย์เราเริ่มเรียนรู้สิ่งใหม่จากการดูและสังเกต โดยไม่จำเป็นต้องอ่านหนังสือจำนวนมากเพื่อจะเข้าใจทุกเรื่อง V-JEPA จึงออกแบบมาให้เรียนรู้และเข้าใจโลกในวิธีเดียวกับที่คนเรียนรู้ ประยุกต์ และคิดต่อยอด ในการแก้ปัญหาต่าง ๆ

Tags:
Node Thumbnail

นอกจากเปิดตัว Gemini 1.5 Pro แล้ว กูเกิลยังประกาศว่าโมเดล AI ทั้ง Gemini 1.0 Pro และ Gemini 1.0 Ultra ที่ เปิดตัว เมื่อสัปดาห์ที่แล้ว ตอนนี้เปิดให้นักพัฒนาสามารถใช้งานได้แล้วผ่าน Vertex AI

โดย Gemini 1.0 Pro สามารถใช้งานได้แล้วสำหรับลูกค้า Vertex AI ทุกคน ส่วน Gemini 1.0 Ultra โมเดลรุ่นใหญ่ที่สุดในตระกูล Gemini ที่กูเกิลบอกว่า คะแนนทดสอบสูงกว่า GPT-4 ตอนนี้เปิดให้ใช้งานสำหรับลูกค้า Vertex AI ที่อยู่ใน allowlist

ที่มา: กูเกิล

Tags:
Node Thumbnail

OpenAI เปิดตัวโมเดลใหม่ สำหรับสร้างวิดีโอด้วย AI จากข้อความ (Text-to-Video) มีชื่อว่า Soraจุดเด่นคือสามารถสร้างวิดีโอความยาวถึง 1 นาที ที่มีความละเอียดสูง และลงรายละเอียดในวิดีโอได้ตาม prompt ของผู้ใช้งาน

Sora มีความสามารถสร้างวิดีโอที่มีฉากหลังรายละเอียดซับซ้อน มีตัวละครอยู่ในวิดีโอหลายคน ระบุรูปแบบการเคลื่อนไหวได้ รวมถึงลงรายละเอียดปลีกย่อยได้ ซึ่งจุดเด่นที่ Sora มีคือการแสดงผลแบบเป็นไปตามสภาพจริงที่ปรากฏอยู่

มีข้อดีก็มีข้อจำกัด OpenAI บอกว่า Sora ยังไม่สมบูรณ์แบบ โดยเฉพาะฉากที่มีวัตถุหลายอย่างซับซ้อน การแสดงผลทางฟิสิกส์อาจผิดพลาด เช่น ฉากกินขนม ขนมก็อาจไม่มีรอยหรือหายไปตามการถูกกิน และบางครั้งโมเดลก็สับสนในการทำงานระหว่างซ้ายและขวา

Tags:
Node Thumbnail

กูเกิลเพิ่งเปิดตัว Gemini Ultra ไปหมาดๆ วันนี้ปล่อยของต่อเนื่องด้วยโมเดลเวอร์ชันอัพเดต Gemini 1.5 Pro ซึ่งเป็นการอัพเกรดโมเดลระดับกลาง (Pro) ที่มีความสามารถระดับเดียวกับ Gemini 1.0 Ultra แต่ใช้พลังประมวลผลน้อยกว่า

ฟีเจอร์เด่นของ Gemini 1.5 Pro ที่น่าสนใจคือการรองรับอินพุตขนาดใหญ่ถึง 1 ล้านโทเคน ซึ่งถือว่ามากที่สุดในบรรดาโมเดลภาษาขนาดใหญ่ทุกวันนี้ ( Anthropic Claude 2.1 รองรับ 2 แสนโทเคน ) เปิดโอกาสให้ใช้งานโมเดล LLM กับงานที่หลากหลายขึ้นอีกมาก กูเกิลเทียบให้เห็นภาพว่าเท่ากับคลิปเสียงยาว 11 ชั่วโมง, วิดีโอ 1 ชั่วโมง, เอกสาร 700,000 คำ, โค้ด 30,000 บรรทัด

Tags:
Node Thumbnail

Stability AI เปิดตัวโมเดลสร้างรูปภาพจากข้อความ Stable Cascadeที่สถานะตอนนี้ยังเป็นงานวิจัย สามารถนำไปใช้งานได้ในงานที่ไม่ใช่เชิงพาณิชย์ สามารถดูรายละเอียดเพิ่มเติมได้ที่ GitHub

Stable Cascade เป็นโมเดลสร้างรูปภาพที่มีขั้นตอนการทำงานต่างไปจาก Stable Diffusion ที่เป็นเครื่องมือสร้างรูปภาพหลักของ Stability AI โดยประกอบด้วย 3 โมเดลย่อยบนสถาปัตยกรรม Würstchen ขั้นตอนแรกเรียกว่า Stage C เป็นการสร้างรายละเอียดย่อยในภาพ (Latent Generator) แล้วส่งต่อไป Stage B และ Stage A เพื่อปรับแต่งความละเอียดรูปภาพให้ออกมาคมชัด ผลลัพธ์ที่ได้นอกจากภาพที่ละเอียดมากกว่า ยังใช้เวลาในการสร้างรูปภาพที่สั้นกว่าโมเดลเดิมด้วย

Tags:
Node Thumbnail

แอปเปิลเผยแพร่งานวิจัยด้าน AI ตัวล่าสุด ซึ่งอาจทำให้เห็นทิศทางฟีเจอร์ใหม่ ๆ ในสินค้าแอปเปิล โดยคราวนี้เป็นเครื่องมือชื่อว่า Keyframerที่มีความสามารถสร้างอนิเมชันเคลื่อนไหว จากภาพนิ่งตั้งต้น 2 มิติ โดยใช้โมเดลภาษาขนาดใหญ่ (LLM) ช่วยป้อนคำสั่งที่ต้องการ

ในงานวิจัยนี้ อินพุทของรูปภาพต้องเป็นไฟล์ภาพ SVG แล้วป้อน prompt สิ่งที่ต้องการให้ในภาพมีการเคลื่อนไหว จากนั้น Keyframer จะสร้างโค้ด CSS เพื่อปรับวัตถุในภาพแต่ละส่วนให้เป็นไปตาม prompt ที่ระบุ

ทีมวิจัยบอกว่า Keyframer ช่วยลดขั้นตอนของผู้ผลิตอนิเมชัน ที่ทำให้สร้างภาพเคลื่อนไหวจากงานเริ่มต้น ซึ่งเดิมอาจต้องใช้เวลาพอสมควรเพราะต้องขยับวัตถุ มาช่วยให้ได้ผลลัพธ์ทันทีจากคำสั่ง

Tags:
Node Thumbnail

Civil Resolution Tribunal หรือคณะอนุญาโตตุลาการแคนาดาตัดสินใจให้สายการบินแคนาดาต้องรับผิดชอบค่าเสียหาย เนื่องจากแชตบอตบนหน้าเว็บของสายการบินเองตอบข้อมูลผิดพลาด

คดีนี้เกิดขึ้นหลัง Jake Moffatt เดินทางโดยสายการบินแคนาดาเพื่อไปงานศพยายของเขา แต่ Moffatt ซื้อตั๋วราคาเต็มแม้สายการบินจะมีตั๋วราคาพิเศษสำหรับการเดินทางไปร่วมงานศพ หลังจากนั้น Moffatt ได้สอบถามกับแชตบอตบนหน้าเว็บของสายการบินว่าสามารถขอคืนเงินส่วนต่างได้หรือไม่และแชตบอตยืนยันว่าทำเอกสารย้อนหลังได้ภายใน 90 วันหลังการเดินทาง

Tags:
Node Thumbnail

Sundar Pichai ซีอีโอกูเกิลให้สัมภาษณ์กับ Wired เนื่องในโอกาส เปิดตัว Gemini Advanced ซึ่งเป็นโมเดลปัญญาประดิษฐ์ที่เก่งที่สุดของกูเกิลในตอนนี้

Pichai บอกว่าจุดเด่นที่สุดของ Gemini คือความเป็น multimodal หรือการเทรนด้วยข้อมูลหลากหลายประเภท เช่น ข้อความ รูปภาพ เสียง โค้ดโปรแกรม ทำให้ Gemini รองรับอินพุตหลากหลายตั้งแต่ต้น มนุษย์สามารถสั่งงาน Gemini ได้ผ่านข้อความ เสียง หรือรูปภาพ แบบไม่ต้องแปลงฟอร์แมตก่อน ตรงนี้เป็นสิ่งที่ Gemini แตกต่างจากคู่แข่งฝั่ง OpenAI/Microsoft ที่โมเดลแต่ละตัวทำงานแยกจากกัน

Tags:
Node Thumbnail

หลังจาก กูเกิลเริ่มปล่อยโมเดล Gemini Ultra ให้ใช้งานกันเมื่อคืนนี้ ก็เริ่มมีการเปรียบเทียบกับโมเดลอื่นในท้องตลาด โดยเฉพาะ GPT-4 ที่ยังเป็นผู้นำตลาดอยู่ในตอนนี้

Ethan Mollick อาจารย์ที่ Wharton School of the University of Pennsylvania ซึ่งมีโอกาสได้ลองใช้งาน Gemini Ultra ก่อนคนทั่วไปมาราวหนึ่งเดือน ได้โพสต์แสดงความเห็นในฐานะคนที่ลองใช้งานมาแล้วอย่างจริงจัง ระบุว่า โมเดล Gemini Ultra (ให้บริการภายใต้ชื่อ Gemini Advanced) ถือเป็นโมเดลระดับเดียวกับ GPT-4 อย่างชัดเจน ทำให้ตอนนี้วงการ AI มีโมเดลชั้นนำ 2 ตัว จากเดิมที่มีแค่ GPT-4 ตัวเดียว

Tags:
Topics: 
Node Thumbnail

กูเกิลรวมบริการด้าน LLM ที่เคยมีหลายชื่อ เช่น Bard, Duet AI เข้าเป็นชื่อ Gemini พร้อมกับปล่อย แอป Gemini เฉพาะบนแอนดรอยด์ และใส่ฟีเจอร์ Gemini ในแอป Google บน iOS

บริการ LLM บน Google Workspace จะเปลี่ยนชื่อเป็น Gemini for Workspace, บริการ Duet AI ใน Google Cloud จะเปลี่ยนชื่อเป็น Gemini เช่นเดียวกับบริการ Bard ก็เปลี่ยนชื่อเป็น Gemini เช่นกัน

Tags:
Node Thumbnail

กูเกิลปล่อย Gemini Ultra 1.0 โมเดลรุ่นใหญ่ที่สุดในตระกูล Gemini ที่ กูเกิลระบุว่าคะแนนทดสอบสูงกว่า GPT-4 โดยเปิดบริการ Gemini Advanced ให้ผู้ใช้ Google One แพ็กเกจระดับ AI Premium ที่มาพร้อมพื้นที่เก็บข้อมูล 2TB ราคา เดือนละ 750 บาท พร้อมช่วงทดสอบฟรีสองเดือน

ราคานี้ใกล้เคียงกับ Copilot Pro ของไมโครซอฟท์ ที่เปิดให้ผู้ใช้ทั่วไปซื้อแพ็กเกจ GPT-4 ใช้งาน แต่ถูกกว่า Copilot for Microsoft 365 สำหรับลูกค้าองค์กรที่ราคา 30 ดอลลาร์ต่อเดือน

Tags:
Node Thumbnail

แอปเปิลเผยแพร่งานวิจัยด้าน AI ต่อสาธารณะ โดยเป็นโมเดลโอเพนซอร์ส ที่สามารถแก้ไขรูปภาพได้ตามคำสั่งภาษาธรรมชาติ (Natural Language) ซึ่งพัฒนาและวิจัยโดยทีมวิจัยของแอปเปิล ร่วมกับทีมนักวิจัยจาก University of California, Santa Barbara

โมเดล AI ตัวนี้มีชื่อว่า "MGIE" ย่อมาจาก MLLM-Guided Image Editing โดยนำโมเดลข้อมูลผสมผสานภาษาขนาดใหญ่ มาต่อยอดให้รับคำสั่งเพื่อแก้ไขรูปภาพในหลายแบบ ทั้งระดับเล็กที่พิกเซล จนถึงการแก้ไขภาพรวม

Tags:
Node Thumbnail

Roblox เปิดตัวโมเดล AI ปรับแต่งที่รองรับการแปลข้อความในแชทภาษาต่าง ๆ แบบเรียลไทม์ โดยมีเป้าหมายให้การสนทนาลื่นไหลแบบที่ผู้เล่นไม่ทราบด้วยว่าคู่สนทนาจริง ๆ แชทมาด้วยภาษาอะไร

AI แปลภาษาใน Roblox รองรับการแปลทั้ง 16 ภาษา ซึ่งรวมทั้งภาษาไทยด้วย ส่วนภาษาอื่นเช่น ภาษาอังกฤษ ภาษาสเปน ภาษาฝรั่งเศส ภาษาเยอรมนี ภาษาอินโดนีเซีย ภาษาจีนทั้ง Simplified และ Traditional ภาษาญี่ปุ่น ภาษาเกาหลี ภาษาเวียดนาม ฯลฯ

Pages