DeepMind โชว์ผลงานใช้ AI สร้างคลื่นเสียงเลียนแบบเสียงพูดของมนุษย์-เสียงดนตรีได้แล้ว

By: mk

on 11 September 2016 - 00:11 Tags:

Topics:

DeepMind

Audio

Artificial Intelligence

ทีมปัญญาประดิษฐ์ DeepMind ของกูเกิล (ผู้สร้าง AlphaGo) โชว์ผลงานใหม่ WaveNetโมเดลปัญญาประดิษฐ์ที่สร้างเสียงสังเคราะห์ได้จากรูปแบบคลื่นเสียงของมนุษย์ สามารถใช้สร้างได้ทั้งเสียงพูด (speech) และเสียงดนตรี (music) จากการเรียนรู้ผ่าน deep learning

เป้าหมายหลักของ WaveNet ต้องการนำมาสร้างเสียงพูดสังเคราะห์ (text-to-speech หรือ TTS) ซึ่งปัจจุบัน ระบบสังเคราะห์เสียงพูด TTS ส่วนใหญ่เก็บเสียงพูดเป็นคำสั้นๆ แล้วนำเสียงมาต่อกันเป็นประโยค (มีชื่อเรียกว่า concatenative TTS) ซึ่งมีข้อเสียคือดัดแปลงเสียงได้ยาก เพราะต้องอัดเสียงใหม่ทั้งหมด

ในแวดวงจึงพัฒนาระบบเสียงสังเคราะห์ที่เรียกว่า parametric TTS ที่เปลี่ยนคุณสมบัติของเสียง (เช่น เพศหรืออายุของคนพูด) ได้จากพารามีเตอร์ที่ป้อนให้ แต่ข้อจำกัดของโมเดลนี้คือเสียงที่สังเคราะห์ได้ยังไม่เป็นธรรมชาติ (เมื่อเทียบกับ concatenative TTS)

WaveNet นำแนวคิดเรื่องการสร้างคลื่นเสียง (raw waveform) จาก AI เข้ามาปรับปรุง parametric TTS ให้ได้เสียงที่เป็นธรรมชาติมากขึ้น วิธีการคือเทรน AI ให้รู้จักรูปแบบของคลื่นเสียงโดยตรง ลักษณะเดียวกับ AI ที่ใช้สร้างรูปภาพที่ซับซ้อนขึ้นมาได้ด้วยโมเดล convolution neural network แบบหลายเลเยอร์

No Description

ขั้นตอนการทำงานของ WaveNet คืออัดเสียงพูดของมนุษย์ แล้วเทรน AI ให้เรียนรู้คลื่นเสียงแต่ละแบบไปเรื่อยๆ หลังจากนั้น AI จะสามารถสร้างคลื่นเสียงลักษณะคล้ายๆ กัน (แต่อาจฟังไม่รู้เรื่องเป็นคำๆ) ขึ้นมาได้ ซึ่งทีมงาน DeepMind ต้องนำไปรวมกับข้อความ (text) เพื่อแปลงเป็นเสียงพูดที่ฟังแล้วมีความหมายจริงๆ (ทีมงาน WaveNet ลองเอาไปสร้างเสียงดนตรีได้ด้วย โดยเทรนเสียงเปียโนให้ ผลก็ออกมาใช้ได้ เพราะไม่ต้องมีตัว text มาประกอบ)

DeepMind ลองทดสอบ WaveNet (สีฟ้าในกราฟ) เทียบกับเสียงพูดจริงของมนุษย์ (สีเขียวในกราฟ) พบว่ามีความใกล้เคียงมากขึ้น เมื่อเทียบกับเสียงที่ได้จาก Google TTS ตัวที่ใช้ใน Android ปัจจุบัน (สีชมพูและสีแดง) ในภาพรวมแล้วประสิทธิภาพของ WaveNet ดีขึ้นกว่า Google TTS ถึง 50%

No Description

ใครสนใจลองฟังเสียงจาก WaveNet ก็เข้าไปทดสอบกันได้ตามลิงก์

ที่มา - DeepMind

Hiring! บริษัทที่น่าสนใจ

Skooldio

สคูลดิโอ...สตูดิโอของคนอยากอัพสกิล

Getlinks (On behalf of our partners)

Getlinks is helping our partners to find top-notch engineering talents.

Bighead Creative Co.,ltd.

เราเป็นบริษัท Software House ที่เชี่ยวชาญด้านการพัฒนา Web Based Application และ Mobile Application

Comments

By: checkmate95

on 11 September 2016 - 00:40 #939129

สุดยอด !

By: mrBrightside

on 11 September 2016 - 01:10 #939132

ใกล้เคียงกับเสียงคนมากครับ
มันไม่เหมือนเสียงสังเคราะห์อีกต่อไป แต่เหมือนออกมาจากปากเลย
รู้สึกได้ถึงการแตะลิ้น และขยับปาก คงเหลือก็แต่การพูดตามอารมณ์ต่างๆ

ต่อไปถ้ามันฉลาดขึ้น คงแย่งงานมนุษย์น่าดู

แต่คิดอีกทีก็ดีเหมือนกัน นึกภาพว่าโทรหา 911 แล้วมีคนรับสายแน่นอนหรือโทรหาคอลเซ็นเตอร์ทั้งหลายแล้วไม่ต้องถือสายรอเป็นสิบๆนาที

By: Sephanov

on 11 September 2016 - 01:19 #939136

โหดดดดดด

By: Eddz on 11 September 2016 - 01:29 #939138

ถ้าสำเร็จงานภาคเสียงหนัง อนิเมะ คงเป็นอะไรที่สุดยอดไปเลย ต่อยอดด้วยการเรียบแบบน้ำเสียงจากภาษาต้นฉบับ แบบเสียงของคนแสดงต่างชาติแต่พูดไทยได้ จะรอวันนั้นนะถ้านายไม่ยึดโลกเราเสียก่อน

By: terap

on 11 September 2016 - 02:36 #939145 Reply to:939138

ให้เลือกว่าใครพากย์ตัวละครไหนได้นี้ชอบเลย

By: max212

on 11 September 2016 - 11:27 #939212 Reply to:939138

ใช้ SUB กลายเป็นเสียงได้เลยจะสุดยอดมาก

By: zipper

on 11 September 2016 - 12:12 #939224 Reply to:939138

ถ้าทำอย่างนี้ได้จะดีมากๆ เลย แต่คนพากย์คงจะตกงานกันหมดแน่

By: gab

on 11 September 2016 - 14:27 #939250 Reply to:939138

By: mr_tawan

on 11 September 2016 - 01:49 #939141

เดี๋ยวคงมีคนโหลดเสียงมิกุใส่ไป

9tawan.net บล็อกส่วนตัวฮับ

By: Polwath

on 11 September 2016 - 01:52 #939142

ถ้าสมบูรณ์มากๆ อาจใช้ในหุ่นยนต์, Chat bot, ระบบ call center หรือใช้ในการก่ออาชญากรรมทางโทรศัพท์และทางการแชทอัตโนมัติจะทำได้ง่ายขึ้นด้วย พอเป็นแบบนี้ มันก็กลายเป็นดาบสองคมไปเลยในตัว

Get ready to work from now on.

By: menu_dot on 11 September 2016 - 02:11 #939143

Google มาแรงมาก

By: sapjunior

on 11 September 2016 - 02:44 #939146

convolution neural network น่าจะเป็น convolutional neural network มากกว่านะครับ

By: Jirawat

on 11 September 2016 - 04:58 #939150

แจ่มแมว

By: aeksael

on 11 September 2016 - 08:30 #939170

อิไต อ่า....คิมุจิ โอ้ววอ่า.... #ฝึกให้มันภาคหนังครับ

The Last Wizard Of Century.

By: Hadakung

on 11 September 2016 - 08:34 #939172

กรี๊ดๆๆ จะได้ฟังเสียงคาวาอี๊ คืออยากให้มาพากษ์ไทยอนิเมะมากๆ บอกเลยพากษ์ไทยนิทำหมดอารมณ์ดูไปดูญี่ปุ่นเลยดีกว่า...

By: gooGof

on 11 September 2016 - 09:55 #939191

เสียงดนตรี ให้อารมณ์หัวร้อนมาก

By: rainhawk

on 11 September 2016 - 11:34 #939216

เสียงเหมือนคนมาก

By: tstcnr1u

on 11 September 2016 - 13:22 #939239

เอามาตั้งรับโทรศัพท์เวลาพ่อบ้านหนีเที่ยวได้จะดีมาก

By: Hoo

on 11 September 2016 - 16:45 #939265

ต่อไปถ้ามีเทปลับออกมาก็น่าสงสัยไว้ก่อน

By: jaideejung007

on 11 September 2016 - 18:45 #939281

ฟังแล้ว เสียงดูมีน้ำหนัก มีโทนเสียงต่ำสูง แบบที่ไม่ใช่เสียงโทนเดียวทื่อๆ ชอบๆ

By: lingjaidee

on 12 September 2016 - 00:11 #939333

ระบบความปลอดภัยที่ยืนยันด้วยคำสั่งเสียง ... สั่งยิงขีปนาวุธ -..-'

my blog

By: cill

on 12 September 2016 - 12:57 #939465

สัญญาณของ AI apocalyse