دیپ‌مایند گوگل به کامپیوترها یاد می‌دهد مثل انسان صحبت کنند

/ 17 سپتامبر 16

google deepmind

به گزارش ایتنا از رایورز به نقل از eweek، هرچند قرار است دستیار شخصی اپل با نام سیری در iOS 10 بسیار هوشمندتر عمل کند؛ اما باز هم صدای آن شبیه کامپیوتر خواهد بود. در این میان، دیپ‌مایند (شرکتی که گوگل به‌تازگی آن را تصاحب کرده)، برای آموزش خواندن متن به کامپیوترها سرگرم کار روی یک مدل کاملاً جدید است.

این فناوری WaveNet دارد و گوگل می‌گوید با توجه به الگوریتم‌های بهتر امروزی، می‌تواند صدای انسان را به‌صورت بسیار طبیعی تقلید کند. فناوری WaveNet که مبتنی فناوری توسعه داده شده توسط دیپ‌مایند است، در این هفته نگاه عمیقی به تلاش‌های خود در جهت ایجاد سیگنال‌های صوتی برای صداهای طبیعی‌تر انداخته است. فناوری این شاخه از گوگل، با شبکه‌های عصبی آغاز می‌شود؛ یعنی همان فناوری که در همه جا حضور دارد؛ از اتومبیل‌های خودران گرفته تا تشخیص بیماری.

گفتنی است بسیاری از محصولات متن‌خوان امروزی (مانند سیری)، مبتنی بر شبکه‌های عصبی هستند. اما سیری و همکارانش هم چون Google Voice Search یا الکسا از آمازون، هنوز هم از یک پایگاه داده از بخش‌های کوتاه سخنی استفاده می‌کند که به‌صورت زنجیروار به هم متصل شده‌اند تا واژگان و جملات کامل را تشکیل بدهند. اما نتیجه این کار، حتی اگر قابل‌درک و تشخیص باشد، صدایی دارای وقفه و بی‌روح است.

 

 

google deepmind

در عوض، خیلی خوب بود اگر به جای استفاده از بخش‌های سخنی، راهی برای کامپایل کردن کارآمد شکل موج‌های صوتی محض وجود می‌داشت. این کار، نه‌تنها موجب تولید سخن طبیعی‌تری می‌گشت، بلکه به کامپیوترها نیز این امکان را می‌داد تا بتوانند هر صدایی را تقلید کنند؛ از جمله بازتولید دقیق موسیقی. پژوهشگران دیپ‌مایند می‌گویند درنظر دارند عاطفه و لهجه را نیز به فناوری خود بیفزایند تا صدا حتی واقعی‌تر نیز به نظر برسد.

اما تمام این کارها نیازمند مقدار زیادی از توان رایانشی است و هنوز در کاربردهای واقعی نمود پیدا نکرده است. اما مطابق آنچه که معمولاً در مورد این فناوری‌ها شاهد هستیم، برای طبیعی‌تر شدن هرچه تمام‌تر صدای تولیدی توسط کامپیوترها، زمان زیادی لازم خواهد داشت.

LiveZilla Live Chat Software