آزمون تورینگ و چالش ارزیابی هوش مصنوعی چیست

آزمون تورینگ آزمایشی است که برای اندازه گیری هوش مصنوعی پیشنهاد شده است. در این مقاله با این آزمون و جزئیات مربوط به آن بیشتر آشنا می شویم.

هوش مصنوعی به سرعت در حال پیشرفت است و کاربران و توسعه دهندگان از آن استقبال خوبی کرده اند. امروزه ابزارهایی مانند بلندگوهای هوشمند و دستیارهای صوتی که توسط شرکت هایی مانند آمازون و گوگل ارائه می شود از هوش مصنوعی استفاده می کند. Google Duplex نمونه بارزی از توسعه هوش مصنوعی است که قادر به برقراری تماس های تلفنی مستقل است ، به طوری که طرف مقابل قادر به تشخیص صدا نیست و متوجه نمی شود مخاطب یک ربات است. در سالهای آینده ، شاهد گسترش کاربردهای هوش مصنوعی و استفاده تجاری از آنها در ابزارهایی مانند اتومبیل های خودران خواهیم بود.

اما یکی از متداول ترین روش های ارزیابی هوش مصنوعی ، آزمایشی به نام آزمون تورینگ است. این آزمایش در سال 1951 توسط آلن تورینگ ، یکی از ریاضیدانان و دانشمندان برجسته بریتانیایی پیشنهاد شد. در ادامه با این آزمون بیشتر آشنا می شویم.

آزمون تورینگ چیست؟

نام اصلی آزمون تورینگ “بازی تقلید” است. در نسخه اولیه این بازی خبری از هوش مصنوعی نبود. در این نسخه ، یک قاضی ، یک شرکت کننده مرد و یک شرکت کننده زن در سه اتاق جداگانه قرار می گیرند. وظیفه قاضی این بود که با دو شرکت کننده به صورت متنی و از طریق یک کنسول رایانه صحبت کند. پس از بحث متنی با هر دو شرکت کننده ، قاضی باید تصمیم بگیرد که کدام شرکت کننده مرد است. در این بازی ، هدف شرکت کننده مرد این بود که بتواند مردانگی خود را ثابت کند. هدف زن شرکت کننده این بود که قاضی را فریب دهد و او را متقاعد کند که او یک مرد است. اگر زن شرکت کننده بتواند قاضی را متقاعد کند که با مردی صحبت می کند. او در این بازی برنده شد.

طراحی اولیه بازی تقلید

شاید بپرسید این بازی نسبتاً ساده چه ربطی به هوش مصنوعی دارد؟ به گفته تورینگ ، به جای قرار دادن یک زن و یک مرد در دو طرف مسابقه ، می توان یک انسان و یک کامپیوتر را در دو طرف مسابقه قرار داد. در این حالت ، کار داور شناسایی رایانه خواهد بود. به عبارت دیگر ، داور یک مکالمه متنی پنج دقیقه ای با دو شرکت کننده (یکی انسان و دیگری کامپیوتر) دارد و در این بین ، کار رایانه فریب داور است. این آزمایش چندین بار تکرار می شود تا به نتیجه نهایی برسید. اگر در بیش از نیمی از موارد ، داور فریب خورده و رایانه را انسان می داند ، این رایانه آزمون تورینگ را پشت سر گذاشته است و می توان او را “هوشمند” دانست.

بازی تقلید برای هوش مصنوعی

پردازش زبان‌های طبیعی

پردازش زبان طبیعی یکی از مهمترین شاخه های علوم رایانه و هوش مصنوعی است. هدف از تلاش برای توسعه توانایی پردازش زبان طبیعی در رایانه ، سهولت تعامل انسان و ماشین است. دستیارهای صوتی که امروزه در همه تلفن های هوشمند در دسترس کاربران است یکی از نتایج پردازش زبان طبیعی است.

از آنجا که ماهیت آزمون تورینگ نیز بر اساس تعامل زبانی بین انسان و ماشین است ، بدیهی است که یکی از پیش نیازهای موفقیت در این آزمون توانایی رایانه در پردازش زبان طبیعی است. با درک این موضوع ، محققان و برنامه نویسان در دهه 1960 و 1970 بر پردازش زبان طبیعی در رایانه ها تمرکز کردند. اگرچه تلاش های بسیاری از محققان نتایج امیدوارکننده ای نداشته است ، اما برخی از برنامه های توسعه یافته به موفقیت و شهرت زیادی دست یافته اند. یکی از این برنامه ها ELIZA نام داشت که در اواسط دهه توسط یک محقق آلمانی-آمریکایی به نام ژوزف وایزنبام توسعه یافت.

برخلاف دستیارهای هوشمند دیجیتالی و پروژه هایی مانند Google Duplex که پردازش قوی زبان طبیعی و رویکرد رایانه ها به انسان را نشان می دهد ، نرم افزارهای اولیه مانند ELIZA محدودیت های زیادی داشتند. به همین دلیل ، آنها فقط به توانایی پردازش زبان طبیعی خود متکی نبودند. این برنامه ها از تکنیک های مختلفی برای نزدیک شدن به انسان استفاده می کنند که در ادامه با آنها آشنا می شویم.

چت‌بات‌ها چگونه در آزمون تورینگ موفق می‌شوند؟

برنامه های مختلف ادعا می کنند که آزمون تورینگ را گذرانده اند. اگرچه کارشناسان در مورد موفقیت این نرم افزارها در آزمون تورینگ اتفاق نظر ندارند ، بد نیست به تکنیک های مورد استفاده برای موفقیت در آزمون تورینگ نگاهی بیندازیم.

همانطور که قبلاً ذکر شد ، یکی از اولین تلاشهای نسبتاً موفق برای عبور از سد آزمایشی تورینگ نرم افزاری به نام ELIZA بود. این چت ها از فرد س questionsال می پرسد و بر اساس کلمات کلیدی موجود در پاسخ ، پاسخ مناسب یا سایر س questionsالات را ارائه می دهد. اگر هیچ کلمه کلیدی در کلمه کلیدی موجود در پایگاه داده ELIZA وجود نداشت ، یک جمله یا س generalال کلی برای ادامه مکالمه ارائه می شد.

اما فراتر از این الگوریتم ساده و توانایی ساختن جملات ساده انگلیسی ، ELIZA و چت های دیگر از تکنیک دیگری برای گذراندن آزمون تورینگ استفاده می کنند. این تکنیک را می توان “شخصیت پردازی” نامید. در این تکنیک ، یک شخصیت ویژه برای چت ها تعریف می شود تا محدودیت های زبانی و مکالمات چت ها را توجیه کند. به عنوان مثال ، یکی از مشهورترین سناریوهای تعریف شده برای ELIZA ، سناریوی موسوم به “دکتر” بود. در این سناریو ، چتبات نقش یک روانشناس انسان دوست را ایفا کرد. روانشناسان انسان دوست معمولاً سوالات مختلفی را از بیماران می پرسند ، اما پاسخ های دقیقی به آنها نمی دهند. در چنین موردی ، محدودیت پاسخ های داده شده توسط ELIZA با شخصیتی که برای آن تعریف شده است توجیه می شود. ELIZA با این ترفند ساده و الگوریتم اساسی خود می تواند بسیاری از مردم را متقاعد کند که او یک انسان است.

نمونه‌ای از گفتگو‌ی انجام شده با ELIZA

یکی دیگر از مکاتبات مشهور که مدعی موفقیت در آزمایش تورینگ است ، روباتی به نام یوجین گاستمن است. گوستمن همچنین از شخصیت پردازی به عنوان ابزاری برای گذراندن آزمون تورینگ استفاده کرد. شخصیت تعریف شده برای این ربات یک پسر 13 ساله اوکراینی است. بدیهی است که چنین شخصیتی نه تنها ناآشنایی و ناپختگی پاسخهای داده شده توسط یوجین گوستمن را توجیه می کند. همچنین ، با توجه به ملیت غیر انگلیسی ، زبان تعریف شده برای این ربات (ملیت اوکراینی) ، اشتباهات دستوری در جملات ساخته شده توسط این ربات نیز توجیه خواهد شد. ولادیمیر واسلوف ، خالق این چت بات ، فراتر می رود و پذیرفتن شخصیت تعریف شده برای آن را با اشتباهات تایپی در جملات ساخته شده توسط این ربات آسان می کند. وی در این باره می گوید:

ایده اصلی ما این بود که یوجین ادعا می کند که همه چیز را می داند. اما به لطف سن ، منطقی است که او از همه چیز آگاه نباشد.

در زیر می توانید نمونه ای از گفتگوی یوجین گوستمن با داور را در طول آزمون تورینگ مشاهده کنید. توجه داشته باشید که در متن ترجمه شده زیر ، ناهماهنگی های ساختاری و غلط های املایی در متن منعکس کننده مشکلات ساختاری و املایی در متن اصلی است.

داور: چه نوع موسیقی را دوست داری؟

یوجین: من امین خود را دوست دارم – زیرا هیچ ربطی به مودب بودن ندارد.

داور: خدای من ؛ من امین را دوست دارم. او هنرمند مورد علاقه من است.

یوجین: من نمی دانم عنوان امین به چه معناست. من فقط آن را با کلمه enema مرتبط می کنم. اما او شخص جالبی است ، من The Real Slim Shady را دوست دارم.

داور: من می دانم منظور از عنوان او چیست. نام اصلی او مارشال مدرس است. از حرف اول نام و نام خانوادگی او که شبیه تلفظ M&M است.

یوجین: امینم یک قاتل واقعی است ، نه منظورم رپر بود … او یک رپر بود …. اوه ، منظور من یک رپر بود. من استن و The Real Slim Shady را دوست دارم.

داور: من آهنگ Hailies را دوست دارم.

یوجین: طعم جالبی دارید. من همچنین به کتاب های علمی تخیلی علاقه دارم. راستی شما اهل کجا هستید؟ میشه توضیح بدی کجا زندگی میکنی؟

داور: اسپوم ، محل تولد دربی. خودت؟

یوجین: خوکچه هندی من می گوید کلمه “دربی” بسیار خوب است.

داور: باید یکبار با او صحبت کنم.

یوجین: من فکر می کنم شما باید به کلاس تایپ بروید. یا تایپ کردن را تمرین کنید.

داور: آیا این خیلی بی ادب است؟

یوجین: هوم … راستش من متوجه سوال شما نشدم.

داور: “Hmmm” یک کلمه نیست. من فکر می کنم شما نیاز به کلاس تایپ دارید.

یوجین: من هم همینطور فکر می کنم. به هر حال ، من هنوز تخصص شما را نمی دانم – یا شاید فراموش کرده ام؟

همانطور که از متن مکالمه بالا مشاهده می شود ، ساختار جملات ، وجود اشتباهات املایی و حتی سطحی بودن پاسخ ها باعث می شود که صحبت قاضی با نوجوان 13 ساله ای که دارای تسلط محدود به زبان انگلیسی

جایزه‌ی لوبنر

جایزه لوبنر سالانه به نرم افزاری تعلق می گیرد که توسط آزمون تورینگ ارزیابی شده و بسیار نزدیک به هوش انسان است. قالب کلی مسابقات لوبنر بر اساس آزمون استاندارد تورینگ است. اما برخی تغییرات ایجاد شده است. به عنوان مثال ، در سالهای اولیه مسابقه ، به داوران فقط پنج دقیقه فرصت داده شد تا متن را با شرکت کنندگان در میان بگذارند و رای خود را اعلام کنند. اما این زمان به تدریج از سال 2010 به 25 دقیقه افزایش یافته است.

بدیهی است ، افزایش مدت زمان مکالمه باعث می شود هوش مصنوعی به توانایی بیشتری برای فریب داور نیاز داشته باشد و داوران زمان بیشتری برای ارزیابی شرکت کنندگان خواهند داشت. هر نرم افزار در چهار دور توسط چهار داور ارزیابی می شود. وظیفه هر داور است که تعیین کند کدام شرکت کننده انسان و کدام یک روبات است. علاوه بر این ، به هر نرم افزار یک امتیاز جداگانه تعلق می گیرد. این نمره بر اساس سه معیار به نرم افزار داده می شود: ارتباط پاسخ به سوالات مطرح شده ، درستی پاسخ ها و وضوح منطقی و دستوری جملات.

تعدادی از خصیصه‌های ذاتی زبان می‌توانند منجر به موفقیت رایانه‌ها در آزمون تورینگ شوند

جایزه لوبنر شامل چندین جایزه مختلف است. مدال برنز لوبنر 4000 دلار به نرم افزاری با بالاترین امتیاز تعلق می گیرد. نرم افزاری که از نظر امتیاز در رتبه بعدی قرار دارد ، به ترتیب 1500 دلار ، 1000 دلار و 500 دلار جایزه دریافت می کند. دو جایزه دیگر نیز برای شرکت کنندگان در نظر گرفته شده است که تاکنون هیچ نرم افزاری برنده آن نشده است. یکی از این دو جایزه ، مدال نقره لوبنر به ارزش 25000 دلار است. این جایزه به نرم افزاری تعلق می گیرد که نیمی از داوران آن را انسانی می دانند. جایزه دیگر مدال طلای لوبنر و 100000 دلار است. این جایزه به نرم افزاری تعلق می گیرد که بتواند اطلاعات را از طریق متن ، تصویر و صدا دریافت کند و همچنین همه داوران را متقاعد کند که با یک انسان صحبت می کنند. شایان ذکر است که تاکنون هیچ نرم افزاری نتوانسته یکی از این دو جایزه را دریافت کند. طبق قوانین رقابت لوبنر ، اگر نرم افزار موفق به کسب مدال طلای لوبنر شود ، رقابت لوبنر برای همیشه پایان می یابد.

آخرین برنده جایزه لوبنر روباتی به نام میتسوکو است. شخصیت تعریف شده برای این گپ ، دختری 18 ساله از لیدز است. میتسوکو از توانایی اولیه برای تصمیم گیری منطقی برخوردار است. به عنوان مثال ، اگر از او بپرسید “آیا می توانید خانه بخورید؟” ، ربات عنصر “مصالح ساختمانی” را جستجو می کند و با توجه به اینکه مصالح ساختمانی تعریف شده برای خانه “آجر” است و آجر در ردیف اجزای غیرقابل خوردن است. . پاسخ این ربات به س aboveال بالا منفی خواهد بود.

نمونه ای از مکالمه با میتسوکو

اگر می خواهید چت با Mitsuko را امتحان کنید ، می توانید به این آدرس بروید و پس از انتخاب بستر مناسب ، با Mitsuko گپ بزنید.

انتقادات وارد شده به آزمون تورینگ

با گذشت سالها ، آزمون تورینگ مورد انتقاد قرار گرفت. دسته اول این انتقادات قوانین آزمون تورینگ را مورد هدف قرار می دهد. به گفته بسیاری از کارشناسان ، پنج دقیقه ای که به داور داده می شود تا با دو شرکت کننده صحبت کند به هیچ وجه کافی نیست. زیرا در این حالت ، داور فقط می تواند حدود 2 دقیقه و 30 ثانیه به هر شرکت کننده اختصاص دهد. اعتراض دیگر مربوط به معیار موفقیت در این آزمون است. به گفته برخی از افراد ، اگر هوش مصنوعی فقط در نیمی از موارد بتواند داور را فریب دهد ، نمی توان آن را همتای هوش انسانی در نظر گرفت و لازم است این معیار را به میزان دقیق تری افزایش دهیم.

این مطلب ادامه دارد … .