এআই কেন সাধারণ গুণ করতে ভুল করে

কবিতা লেখা বা কোড করায় ওস্তাদ হলেও সাধারণ গুণ অঙ্কে কেন কাঁচা এআই? কীভাবে বোকা মডেলকে বানানো হলো গণিতের জাদুকর? এআই কীভাবে চিন্তা করে?

সাধারণ এআই মডেলগুলো গুণ করতে গেলে একটা জায়গায় এসে আটকে যায়ছবি: মিডজার্নি

বর্তমানে চারদিকে এআইয়ের জয়জয়কার। এআই চোখের পলকে জটিল কোড লিখে দিচ্ছে। শেক্‌সপিয়ারের স্টাইলে কবিতাও লিখছে। এমনকি মহাবিশ্বের রহস্য নিয়েও গভীর সব তথ্য দিচ্ছে। তাই তুমি মুগ্ধ হয়ে তাকে একটা ছোট কাজ দিলে। জিজ্ঞেস করলে, ‘১২৩৪ কে ৫৬৭৮ দিয়ে গুণ করলে কত হবে?’

এআই উত্তর দিল। এবং আত্মবিশ্বাসের সঙ্গেই ভুল উত্তর দিল! নিশ্চয়ই অবাক হচ্ছ? হওয়ারই কথা। প্রাইমারি স্কুলের কিশোরেরাও যে চার সংখ্যার গুণ অনায়াসে করতে পারে, বর্তমান বিশ্বের তাবড় সব লার্জ ল্যাঙ্গুয়েজ মডেল সেখানে ফেল মারছে। কেন এমন হয়? চ্যাটজিপিটির মতো আধুনিক সিস্টেমগুলো জটিল সব সমস্যার সমাধান করতে পারলেও সাধারণ গুণ অঙ্কে এসে কেন খেই হারিয়ে ফেলে?

যুক্তরাষ্ট্রের ইউনিভার্সিটি অব শিকাগোর কম্পিউটার সায়েন্সের পিএইচডি গবেষক শিয়াওইয়েন বাই এবং ডেটা সায়েন্স ইনস্টিটিউটের অধ্যাপক চেনহাও তান মিলে এ রহস্যের জট খোলার চেষ্টা করেছেন। তাঁদের সঙ্গে ছিলেন এমআইটি, হার্ভার্ড ও গুগল ডিপমাইন্ডের গবেষকেরা। তাঁরা এআইয়ের এই অদ্ভুত সীমাবদ্ধতাকে বলছেন জ্যাগড ফ্রন্টিয়ার। সহজ বলতে গেলে, এআইয়ের সক্ষমতা সরলরেখার মতো সোজা নয়, বরং আঁকাবাঁকা। এআই একলাফে যেমন পাহাড় ডিঙাতে পারে, তেমনি ছোট গর্তে পড়েও পা ভাঙতেও পারে।

তোমার ছোটবেলার কথা মনে করো। চার সংখ্যার গুণ করার সময় তুমি কী করতে? গুণ করার সময় ১০-এর বেশি হলে হাতে সংখ্যা রাখতে। তারপর আগের সংখ্যার সঙ্গে পরের সংখ্যা যোগ করে ধাপে ধাপে এগিয়ে যেতে। এই যে আগের হিসাব মনে রেখে পরের ধাপে ব্যবহার করা, একে বিজ্ঞানের ভাষায় বলে ‘লং-রেঞ্জ ডিপেন্ডেন্সি’।

আরও পড়ুন

সমস্যা হলো, সাধারণ লার্জ ল্যাঙ্গুয়েজ মডেলগুলো এভাবে কাজ করে না। এরা মূলত প্রচুর ডেটা বিশ্লেষণ করে প্যাটার্ন বা ছক মুখস্থ করে। কিন্তু গুণ অঙ্কের ক্ষেত্রে মুখস্থবিদ্যা চলে না। সংখ্যা যত বড় হয়, প্যাটার্ন তত জটিল হয়। এআই তখন আর আগের হিসাব মনে রাখতে পারে না। মানে হাতে কত ছিল, তা গরমিল করে ফেলে।

গবেষকেরা দেখেছেন, সাধারণ পদ্ধতিতে প্রশিক্ষণপ্রাপ্ত মডেলগুলোতে ধাপসংখ্যা যতই বাড়ানো হোক না কেন, চার সংখ্যার গুণ করার ক্ষেত্রে এদের সঠিক উত্তর দেওয়ার হার ১ শতাংশের কম!

তাহলে উপায় কী? গবেষকেরা দেখলেন, সাধারণ মডেলগুলো একটা জায়গায় এসে আটকে যায়। একে বলে লোকাল অপটিমাম। অর্থাৎ মডেলটি ভাবে, সে সঠিক উত্তরের কাছে পৌঁছে গেছে, কিন্তু আসলে সে ভুল রাস্তায় আছে। যেহেতু তার আগের ধাপগুলোর তথ্য জমা রাখার বা মনে রাখার কোনো ব্যবস্থা নেই, তাই সে চাইলেও আর এগোতে পারে না।

এরপর গবেষকেরা ‘ইমপ্লিসিট চেইন অব থট’ নামের ভিন্ন এক পদ্ধতিতে মডেলকে প্রশিক্ষণ দিলেন। ফলাফল ভালো পাওয়া গেল। যেখানে সাধারণ মডেলের পাসের হার ছিল ১ শতাংশের নিচে, সেখানে এই আইসিওটি মডেল ১০০ শতাংশ সঠিক উত্তর দিল!

আরও পড়ুন

কেন এটি সঠিক উত্তর দিতে পারল? এর পেছনে আছে তিনটি কারণ। প্রথমত, আইসিওটি মডেলটি শিখল যে কোন তথ্যটা মনে রাখতে হবে। সাধারণ মডেলের মতো সে তথ্য ভুলে যায় না। সে আগের ধাপের গুণফল বা হাতে রাখা সংখ্যা মনে রাখে এবং পরের ধাপে ব্যবহার করে। দ্বিতীয়ত, এই মডেল তথ্যের এক দারুণ বিন্যাস তৈরি করে। শুরুর দিকের ধাপগুলোতে সে ছোট ছোট গুণফল বের করে নির্দিষ্ট জায়গায় জমা রাখে। আর শেষের ধাপে গিয়ে সে ঠিক সেই জায়গা থেকে তথ্যগুলো খুঁজে বের করে। তারপর তৈরি করে চূড়ান্ত উত্তর। আর তৃতীয়ত, এই মডেল সংখ্যাগুলোকে সাধারণ সংখ্যা বা প্রতীক হিসেবে দেখে না। সে এগুলোকে ঢেউয়ের মতো প্যাটার্নে সাজায়।

গণিতের ভাষায় একে বলে ফুরিয়ার বেস। ফুরিয়ার বেস মানে জটিল তরঙ্গকে সহজ তরঙ্গের সমষ্টি হিসেবে প্রকাশ করার গাণিতিক পদ্ধতি। শুধু তা-ই নয়, গুণ করার সময় এই এআই নিজে নিজেই জ্যামিতিক পদ্ধতির ব্যবহার শুরু করে। একে বলা হয় মিনকোভস্কি সাম। এই জটিল কথার মানে হলো, দুটি জ্যামিতিক আকৃতিকে যোগ করে নতুন আকৃতি তৈরির একটি পদ্ধতি। সাধারণত রোবট মোশন প্ল্যানিংয়ে এটি ব্যবহৃত হয়। গবেষকেরা কিন্তু এআইকে এই জ্যামিতি শেখাননি, নিজে নিজেই শিখে নিয়েছে!

গবেষকেরা ভাবলেন, সাধারণ মডেলগুলো ফেল করছে। কারণ, তাদের সঠিক নির্দেশনা দেওয়া হয়নি। তাই তাঁরা সাধারণ মডেলের প্রশিক্ষণে একটা ছোট্ট পরিবর্তন আনলেন। তাঁরা মডেলটিকে নির্দেশ দিলেন, ‘প্রতিটি ধাপে কী যোগ করছ, সেটা ট্র্যাক করো বা মনে রাখো।’ মাত্র এইটুকু পরিবর্তনের ফলে যে মডেলটি আগে ১ শতাংশও পারছিল না, সে ৯৯ শতাংশ সঠিক উত্তর দিতে শুরু করল! এই গবেষণা শুধু গুণ অঙ্ক শেখার জন্য নয়, এআই কীভাবে চিন্তা করে, তা বোঝার জন্য এক বড় মাইলফলক।

শিয়াওইয়েন বাই ও চেনহাও তানের এই কাজ প্রমাণ করল, এআইয়ের ক্ষমতা বাড়াতে হলে শুধু ডেটার পাহাড় গড়লে বা মডেলের আকার বড় করলেই হবে না, দরকার সঠিক গঠন ও সঠিক প্রশিক্ষণের নির্দেশনা।

সূত্র: ইউনিভার্সিটি অব শিকাগো ও ফিউচারিটি ডটকম

আরও পড়ুন