به گزارش ایران اکونومیست به نقل از مجله ساینتیفیک، این
تکنیک یک الگوریتم به نام Deep TAMER است و امکان آموزش رباتها را از طریق
نقد آنی عملکرد آنها توسط یک مربی فراهم میکند. این شیوه شباهت زیادی به
فرآیند آموزش یک سگ دارد. بسیاری از تکنیکهای موجود برای آموزش رباتها
مستلزم تعامل آنها با محیط اطراف در یک دوره زمانی مشخص است. در این دوره
ممکن است ربات اقداماتی را انجام دهد که نه تنها اشتباه هستند، بلکه
پیامدهای مخربی نیز بر جای میگذارند. برای مثال ممکن است ربات به یک دیوار
برخورد کرده یا از روی یک صخره سقوط کند. امکان تعامل رباتها با یک مربی
در این دوره آموزشی میتواند منابع بروز چنین خساراتی شود.
محققان در
گام اول با استفاده از الگوریتم Deep TAMER و بازخوردهای یک مربی توانستند
رباتی را در 15 دقیقه به گونهای آموزش دهند که در بازی کامپیوتری بولینگ
عملکرد بهتری از انسان داشته باشد. آموزش این بازی حتی برای پیشرفتهترین
روشهای هوش مصنوعی نیز امر دشواری است. اما این الگوریتم رباتی را تربیت
کرد که عملکردی بهتر از بازیکنان عادی و حرفهای داشت.
این الگوریتم
زمینه را برای آموزش رباتهای هوشمندتر و کارآمدتر فراهم میکند. هدف نهایی
محققان ساخت رباتهایی است که بتوانند به سرعت و در یک فرآیند ایمن همه
چیز را از انسانهای اطراف خود یاد بگیرند.
قرار است نتایج این تحقیقات در ماه فوریه در کنفرانس Association for the Advancement of Artificial Intelligence ارائه شود.