اگر شما هم تا به حال در هزارتوی ویدیوهای یویتوب گم شده باشید، شاید به ویدیوی کامپیوترهایی که اخبار می‌خوانند، برخورده‌اید. شما به راحتی صدای منقطع ربات را تشخیص می‌دهید. اما حالا گوگل ماشینی ساخته که درست مثل انسان به نظر می‌رسد.

گوگل یک برنامه متن به گفتار جدید را به نام WaveNet معرفی کرده است. این هوش مصنوعی جدید توسط تیم «دیپ‌مایند» (Deep Mind) گوگل توسعه داده شده است. این تیم در ساخت شبکه‌های عصبی سابقه خوبی دارد. آنها همان کسانی هستند که «آلفاگو» (AlphaGo) را ساختند. این هوش مصنوعی توانست یکی از بهترین بازیکن‌های بازی فکری گو را شکست دهد.

در حال حاضر، توسعه‌‌دهنده‌ها برای ساخت برنامه‌های متن به گفتار از دو روش استفاده می‌کنند. در یک روش یک نفر مجموعه‌ی بسیار بزرگی از کلمات و بخش‌های گفتار را می‌خواند. در این روش، ایجاد تغییر در صداها و لحن بسیار سخت می‌شود. در روش دیگر، کلمات، بسته به اینکه چگونه باید صدا دهند، به طور الکترونیکی شکل می‌گیرند. با این کار، تغییر آهنگ و لحن گفتار راحت‌تر می‌شود، اما صدای حاصل بسیار رباتیک است.

این تیم برای ساخت یک برنامه متن به گفتار واقع‌گرایانه، شکل امواج صوتی خام را در قالب داده وارد شبکه‌های عصبی کردند. شکل این امواج از سخن گفتن انسان‌های واقعی ضبط شده بود. شکل امواج نماد بصری شکل‌هایی است که صداها به خود می‌گیرند؛ همان امواجی که در نمایشگرهای پخش‌کننده‌های موسیقی بالا و پایین می‌روند. WaveNet به همین شکل، با تشکیل امواج صوتی منحصر به فرد کار می‌کند. ناگفته نماند که این هوش مصنوعی می‌تواند در موسیقی هم آینده‌ای داشته باشد. این تیم قطعاتی از موسیقی کلاسیک پیانو را به این برنامه دادند و توانست نمونه‌های جالبی بسازد.

برداشت آب از مه با استفاده از شبکه توری هارپ مه
مشاهده

اگر این هوش مصنوعی به عنوان یک برنامه متن به گفتار استفاده شود، متنی را که شما تایپ می‌کنید به مجموعه‌ای از واج‌ها و هجاها می‌شکند و سپس آنها را می‌خواند. کسانی که در آزمایش کور WaveNet شرکت کردند، گفتند WaveNet بیشتر از برنامه‌های دیگر شبیه انسان به نظر می‌رسد.