رویای ساختن کامپیوترهایی که مانند ما انسانها قادر به تعامل باشند دههها است که جز خواستههای انسان بوده است و اگر به بازار و میزان سرمایهگذاری روی پروژههای مربوط نگاه کنیم متوجه میشویم که شدیداً خواستار این تکنولوژی هستیم. سایت MarketsandMarkets پیش بینی کرده است که تا سال 2021 ارزش صنعت «پردازش زبان طبیعی» به 16.07 میلیارد دلار خواهد رسید، ارزشی که به خاطر رشد 16.1 درصدی این صنعت خواهد بود. همچنین طبق گفتهی این سایت تا سال 2022 ارزش صنعت «یادگیری عمیق» به 1.7 میلیارد دلار خواهد رسید که رشدی 65.3 درصدی را بین سالهای 2016 تا 2022 نشان میدهد.
البته که اگر تا به حال از باتهای مخصوص چت استفاده کرده باشید میدانید که هنوز راه زیادی تا رسیدن به قولهایی که در این صنعت داده میشود، داریم. از طرفی با «درهی وهمی» سر و کار داریم، که باعث میشود بدانیم که در حال چت کردن با انسانی عادی نیستیم و از طرف دیگر نیز هوش مصنوعی مورد نظر، منظورمان را به درستی متوجه نمیشود.
برای مثال وقتی که در حال صحبت کردن با بات Poncho، باتی مخصوص آب و هوا هستیم اگر به انگلیسی بپرسیم «اگر بخواهم بیرون بروم چه باید بپوشم؟» جواب بات این خواهد بود «متاسفم، متوجه منظورتان نشدم، برای آگاهی از چیزهایی که میتوانم در مورد آنها به شما کمک کنم بنویسید کمک».
با این حال اگر سوالم این باشد «اگر بیرون بروم، نیازی به چتر دارم؟» این بات در جوابی هوشمندانه به من خواهد گفت «نه، در سانتا کلارا به چترتان نیاز نخواهید داشت.»
مشکل این است که تا این جای کار، وقتی که فهم زبان طبیعی به میان میآید، کامپیوترها نمیتوانند مانند انسانها رفتار کنند. به عنوان افرادی بزرگسال ما با زبان مادرزادیمان بسیار خوب کنار میآییم. ابهامات گفتاری را با سرعت زیادی حل میکنیم، با ضمایر اشاره کننده به نامهای قبلی به خوبی کنار میآییم و به خوبی میتوانیم تشخیص دهیم که عبارت یا کلمهی خاصی کجا آغاز میشود و کجا پایان مییابد. کامپیوترها نمیتوانند همچنین کاری بکنند، یا حداقل نه به شیوهای که برای بسیاری از کاربران راضیکننده باشد.
اگر ماشینها بخواهند واقعاً هوشمند باشند این شکاف تعامل زبان محور باید حل شود. در هر صورت اگر سیستمی تواناییهای زبانی خوبی نداشته باشد نمیتوانیم ادعا کنیم که به هوش مصنوعی واقعی دست پیدا کردهایم. میتوانیم بگوییم که توانایی فهم زبان طبیعی جام مقدرس تحقیقات هوش مصنوعی است و هر کسی که اول از همه قادر به حل آن باشد در مسیر رسیدن به موفقیتهای بسیار بزرگی قرار خواهد گرفت.
یادگیری ماشین و شبکههای عصبی مصنوعی روز به روز بیشتر برای حل مشکل فهم زبان طبیعی استفاده میشوند. با این روشها معمولاً به کارکردهای خوبی میرسیم که از آنها با نام «هوش مصنوعی» یاد میکنیم. با این حال مشکل عدم امکان مکالمههای عادی و معنادار یا مشکلات تعامل انسان و کامپیوتر را حل نمیکنند که در واقع به این معنی است که هوشی که از این سیستمها انتظار داریم هنوز پیدا نشده است.
هنوز هم به دنبال معنی هستیم
در این بحث خیلی زود به مشکلات و محدودیتهای ترجمه توسط ماشین میرسیم. پیشرفتهای اخیر در «ماشین عصبی ترجمهی گوگل» سیستم ترجمهی پاراگرافمحور این تکنولوژی را در مقایسه با مترجم انسانی تا 60 درصد بهبود داده است. با این حال جملههای سادهای در انگلیسی همچون «سگی که از انبار علوفه رد شد افتاد» به درستی به چینی ترجمه نمیشوند (با این حال نتیجهاش «سگ از انبار علوفه رد شد» بسیار نزدیک به جملهی اصلی است)
کمپانیهای دیگری نیز وجود دارند که در حال تلاش برای ساخت سیستمهای هوش مصنوعی با قابلیت فهم حجم زیادی از متون پیچیده در آن واحد هستند. یکی از این کمپانیها مایکروسافت است که اخیراً با خریدن Maluuba در حال تلاش برای ساخت مجموعهی دادههایی از پرسش و پاسخهای انسانی موجود در هزاران مقاله است. هدفشان نیز کمک به محققان برای ساخت الگوریتم درستی برای سیستمهای هوشمند است تا سیستم بتواند با استفاده از متون دیگر به سوالات، جواب درستی بدهد.
مشکل این راهکار این است که معنی جملات و کلمات نادیده گرفته شدهاند. اگر بخواهیم صراحتاً بگوییم این است که پردازش حجم عظیمی از جملات و تحلیل اینکه هر کلمه چند بار تکرار شده است اطلاعاتی در مورد الگوهای استفاده از کلمات در متن به ما میدهد اما در واقع هیچ اطلاعاتی در مورد این که این جملات و کلمات چه معنیای میدهند در اختیار سیستم نمیگذارد. در زبان طبیعی ما میخواهیم بدانیم که «این عبارت به خصوص در اینجای بحث و در این زمان چه معنایی دارد» و هر سیستمی که نتواند این کار را انجام دهد در حل حقیقی مشکل فهم زبان طبیعی به درستی عمل نکرده است.
اگر من به شما بگویم «ساعت گفت یک-ناها، تو من گرسنه، بخوریم برو حالا با هم» مطمئنم که شما نیز موافقید که وقت ناهار است و باید برویم غذا بخوریم چون گرسنهمان است. اما ماشینی که با روش بالا آموزش دیده باشد جملهی ما را به عنوان جملهای به احتمال زیاد اشتباه تشخیص میدهد و آن را رد میکند یا نادیده میگیرد. در چنین مواقعی بات مورد نظر میگوید «متوجه منظورتان نشدم. لطفاً تایپ کنید کمک»
گرچه این مثال، نمونهای افراطی است اما هدف از آن رساندن مشکلی است. اگر میخواهیم به کامپیوترها یاد بدهیم که زبان طبیعی را درک کنند و به مکالمات ما پاسخ بدهند چیزی بیش از محاسبهی توزیع کلمات در متن میخواهیم، به روشی نیاز داریم که توسط آن بتوانیم زبان انسان را به کامپیوتر آموزش دهیم.
یاد گرفتن همچون انسان
به جای اینکه سعی کنیم الگوهای موجود در حجم عظیمی از دادههای زبانی را پیدا کنیم شاید میبایست به سراغ روش یادگیری زبان در انسان برویم. با فراگیری نحوهی یادگیری و استفادهی انسانها از زبان طبیعی میتوانیم شبیهسازیهایی از این فرآیند انجام دهیم.
اگر بخواهیم خیلی عمومی صحبت کنیم یک شخص بالغ میتواند با حدود 4 هزار کلمه در دایرهی واژگانش به خوبی با دیگران ارتباط برقرار کند. جادوی مکالمات روزانه و ارتباطات از ترکیب این کلمات به وجود میآید، ترکیباتی که شامل اشیای واقعی، مردم، فرآیندها و رویدادها میشوند.
این نتیجه نیز با قرار دادن شخصی در یک اتاق و وادار کردن او به یادگیری الگوهای زبان از کتابهای مختلف رخ نمیدهد. هر کدام از ما، به صورت مجزا و در زمان خاص خودمان، زبان را با همگام کردن هر کلمه و عبارت با معنیاش انجام میدهیم. جملهی «درد دارد» به خاطر این برایمان معنی دارد که درد را احساس کردهایم و معنی آن را میدانیم. کلمهی «درد» برچسبی صوتی است که گویای تجربهی درد در انسان است.
جالب است که حتی میتوان گفت که دستور زبان نیز به معنی کلمات ربط دارد. میفهمیم که معنی عبارت «دیروز گرسنه بودم» با «الان گرسنه هستم» متفاوت است چون در ذهنمان «بودم» را به رویدادی در گذشته و «هستم» را به همین لحظه ارتباط میدهیم. در واقع از عناصر دستور زبان برای احساس کردن یا دانستن تجربهای که در حال تعامل در مورد آن هستیم استفاده میکنیم. دستور زبان به تنهایی یک مفهوم انتزاعی نیست بلکه بخش مهمی از تجربهی ما از معنایی است که توسط زبان منتقل میکنیم.
برای یاد دادن زبان و توانایی مکالمه به کامپیوترها باید زبان را به نوعی از نمایش معنی در کامپیوتر متصل کنیم. فقط آن وقت است که قادر خواهیم بود در مورد هوش مصنوعی واقعی و تعاملهای زبانی انسانی با کامپیوتر صحبت کنیم.
به این ترتیب فرآیند یادگیری زبان طبیعی توسط کامپیوتر به اتصال معانی و کلمات تبدیل خواهد شد و یادگیری ماشین از زبان، به فرآیند کشف معنی کلمات مختلف یا گفتن معنی این کلمات توسط انسان به ماشین تبدیل خواهد شد.
ساختن مدلهای مکالماتی
سیلیکونولی به نقطهی تجمع کمپانیهایی تبدیل شده است که در حال تلاش برای حل این مشکل هستند و البته که بعضی از آنها واقعاً در حال کار روی همان روشی هستند که در مورد آن صحبت کردیم. یکی از این کمپانیها Pat Inc، کمپانی کالیفرنیایی است. این کمپانی در حال استفاده از راهکاری است که اجازه میدهد عبارات، مستقیماً به معانی خاصی که در دیکشنری لایهی معانی این سیستم وجود دارند متصل شوند.
سیستم Wit.ai نیز پلتفرم دیگری است که توسط فیسبوک خریداری شده تا در مسنجر این کمپانی از آن استفاده شود و تا اینجای کار ابزاری منتشر کرده است که از آن میتوان برای تعلیم پلتفرم برای مدلهای مکالماتی جدید و همچنین نظارت بر تعامل بین کاربر و پلتفرم استفاده کرد.
پلتفرم Viv نیز یکی دیگر از این پلتفرمهای یادیگری ماشین است که اخیراً توسط سامسونگ خریداری شده است و به توسعهدهندگان اجازه میدهد رابط هوشمند مکالماتی خود را به هر سیستمی اضافه کنند.
خبرهای زیادی در این زمینه برای آینده وجود خواهد داشت و همین حالا نیز در حال مشاهدهی نتایج اولیهی جالبی از بسیاری از کمپانیها هستیم. به این طریق پیش بینی ما این است که اگر روی نحوهی یادگیری زبان توسط انسان تمرکز کنیم در سالهای آینده شاهد پیشرفتهای خوبی در این زمینه خواهیم بود.