دیپمایند گوگل به کامپیوترها یاد میدهد مثل انسان صحبت کنند
/ 17 سپتامبر 16به گزارش ایتنا از رایورز به نقل از eweek، هرچند قرار است دستیار شخصی اپل با نام سیری در iOS 10 بسیار هوشمندتر عمل کند؛ اما باز هم صدای آن شبیه کامپیوتر خواهد بود. در این میان، دیپمایند (شرکتی که گوگل بهتازگی آن را تصاحب کرده)، برای آموزش خواندن متن به کامپیوترها سرگرم کار روی یک مدل کاملاً جدید است.
این فناوری WaveNet دارد و گوگل میگوید با توجه به الگوریتمهای بهتر امروزی، میتواند صدای انسان را بهصورت بسیار طبیعی تقلید کند. فناوری WaveNet که مبتنی فناوری توسعه داده شده توسط دیپمایند است، در این هفته نگاه عمیقی به تلاشهای خود در جهت ایجاد سیگنالهای صوتی برای صداهای طبیعیتر انداخته است. فناوری این شاخه از گوگل، با شبکههای عصبی آغاز میشود؛ یعنی همان فناوری که در همه جا حضور دارد؛ از اتومبیلهای خودران گرفته تا تشخیص بیماری.
گفتنی است بسیاری از محصولات متنخوان امروزی (مانند سیری)، مبتنی بر شبکههای عصبی هستند. اما سیری و همکارانش هم چون Google Voice Search یا الکسا از آمازون، هنوز هم از یک پایگاه داده از بخشهای کوتاه سخنی استفاده میکند که بهصورت زنجیروار به هم متصل شدهاند تا واژگان و جملات کامل را تشکیل بدهند. اما نتیجه این کار، حتی اگر قابلدرک و تشخیص باشد، صدایی دارای وقفه و بیروح است.
در عوض، خیلی خوب بود اگر به جای استفاده از بخشهای سخنی، راهی برای کامپایل کردن کارآمد شکل موجهای صوتی محض وجود میداشت. این کار، نهتنها موجب تولید سخن طبیعیتری میگشت، بلکه به کامپیوترها نیز این امکان را میداد تا بتوانند هر صدایی را تقلید کنند؛ از جمله بازتولید دقیق موسیقی. پژوهشگران دیپمایند میگویند درنظر دارند عاطفه و لهجه را نیز به فناوری خود بیفزایند تا صدا حتی واقعیتر نیز به نظر برسد.
اما تمام این کارها نیازمند مقدار زیادی از توان رایانشی است و هنوز در کاربردهای واقعی نمود پیدا نکرده است. اما مطابق آنچه که معمولاً در مورد این فناوریها شاهد هستیم، برای طبیعیتر شدن هرچه تمامتر صدای تولیدی توسط کامپیوترها، زمان زیادی لازم خواهد داشت.