مجله انرژی | عوامل هوش مصنوعی

عوامل هوش مصنوعی

مجله انرژی
1402/10/14
8 دقیقه

علوم رایانه

مانند دیگر چالش‌های علمی در طول تاریخ، مهندسی معکوس نحوه عملکرد سیستم‌های هوش مصنوعی، به مقدار قابل توجهی آزمایش نیاز دارد: ایجاد فرضیه‌ها، مداخله در رفتار و حتی کالبد شکافی شبکه‌های بزرگ برای بررسی تک تک سلول‌های عصبی.

توضیح رفتار شبکه های عصبی آموزش دیده همچنان یک معمای قانع کننده است، به خصوص که این مدل ها در اندازه و پیچیدگی بسیاری رشد می کنند.

تا به امروز بیشتر آزمایش های موفق شامل مقادیر زیادی از نظارت انسانی بوده است و توضیح هر محاسباتی در داخل مدل هایی با اندازه GPT-4 و بزرگتر تقریباً به اتوماسیون بیشتری نیاز دارد، شاید حتی با استفاده از خود مدل های هوش مصنوعی.

برای تسهیل این تلاش به موقع، محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) رویکرد جدیدی را توسعه داده‌اند که از مدل‌های هوش مصنوعی برای انجام آزمایش‌ها بر روی سیستم‌های دیگر و توضیح رفتار آنها استفاده می‌کند.

روش آنها از عواملی استفاده می کند که از مدل های زبانی از پیش آموزش دیده ساخته شده اند تا توضیحات شهودی از محاسبات در داخل شبکه های آموزش دیده ارائه کنند.

مرکز این استراتژی عامل تفسیرپذیری خودکار (AIA) است که برای تقلید از فرآیندهای آزمایشی یک دانشمند طراحی شده است.

عوامل تفسیرپذیری آزمایش‌هایی را روی سیستم‌های محاسباتی دیگر برنامه‌ریزی و انجام می‌دهند، که می‌توانند در مقیاس از نورون‌های منفرد تا کل مدل‌ها متغیر باشند تا توضیحاتی درباره این سیستم‌ها به اشکال مختلف ارائه دهند: توصیف زبانی از آنچه که یک سیستم انجام می‌دهد و کجا شکست می‌خورد، و کدی که رفتار سیستم را بازتولید می کند.

برخلاف رویه‌های تفسیرپذیری موجود که بطور منفعلانه نمونه‌ها را طبقه‌بندی یا خلاصه می‌کنند، AIA فعالانه در شکل‌گیری فرضیه، آزمایش تجربی، و یادگیری تکراری شرکت می‌کند، در نتیجه درک خود از سیستم‌های دیگر را در زمان واقعی اصلاح می‌کند.

مکمل روش AIA، معیار جدید تفسیر و توصیف تابع (FIND) است، یک بستر آزمایشی از توابع شبیه محاسبات در داخل شبکه های آموزش دیده، و توضیحات همراه از رفتار آنها.

یکی از چالش‌های کلیدی در ارزیابی کیفیت توصیف اجزای شبکه دنیای واقعی این است که توصیف‌ها به اندازه قدرت توضیحی آن‌ها خوب هستند: محققان به برچسب‌های واقعی واحدها یا توضیحات محاسبات آموخته‌شده دسترسی ندارند.

FIND با ارائه یک استاندارد قابل اعتماد برای ارزیابی رویه‌های تفسیرپذیری، به این موضوع دیرینه در این زمینه می‌پردازد: توضیحات توابع (تولید شده توسط AIA) را می‌توان در مقایسه با توصیف عملکرد در معیار ارزیابی کرد.

به عنوان مثال FIND شامل نورون های مصنوعی است که برای تقلید از رفتار نورون های واقعی در داخل مدل های زبان طراحی شده اند، که برخی از آنها برای مفاهیم فردی مانند حمل و نقل زمینی انتخابی هستند و به AIA ها به نورون های مصنوعی و ورودی های طراحی (مانند درخت، شادی، و ماشین) دسترسی جعبه سیاه داده می شود تا پاسخ یک نورون را آزمایش کنند.

بعد از اینکه متوجه شد که یک نورون مصنوعی مقادیر پاسخ بالاتری را برای خودرو نسبت به سایر ورودی‌ها ایجاد می‌کند، یک AIA ممکن است آزمایش‌های دقیق‌تری را برای تشخیص انتخاب‌پذیری نورون برای اتومبیل‌ها از سایر اشکال حمل‌ونقل مانند هواپیما و قایق طراحی کند.

هنگامی که AIA توصیفی مانند این نورون برای حمل و نقل جاده ای انتخابی است و نه سفرهای هوایی یا دریایی تولید می کند، این توصیف در مقایسه با توصیف حقیقت زمینی نورون مصنوعی (انتخابی برای حمل و نقل زمینی) در FIND ارزیابی می شود.

سپس می توان از معیار برای مقایسه قابلیت های AIA با روش های دیگر در ادبیات استفاده کرد.

ظرفیت AIA ها برای تولید و آزمایش فرضیه های مستقل ممکن است بتواند رفتارهایی را نشان دهد که در غیر این صورت تشخیص آنها برای دانشمندان دشوار است، قابل توجه است که مدل های زبان، زمانی که به ابزارهایی برای کاوش سیستم های دیگر مجهز شوند، قادر به این نوع طراحی آزمایشی هستند.

معیارهای ساده و تمیز با پاسخ‌های واقعی، محرک اصلی قابلیت‌های عمومی‌تر در مدل‌های زبانی بوده‌اند، و ما امیدواریم که FIND بتواند نقشی مشابه در تحقیقات تفسیرپذیری داشته باشد.

قابلیت تفسیر خودکار (Automating interpretability)

مدل‌های بزرگ زبان همچنان جایگاه خود را به عنوان افراد مشهور مورد تقاضای دنیای فناوری حفظ کرده‌اند، پیشرفت های اخیر در LLM توانایی آنها را برای انجام وظایف استدلالی پیچیده در حوزه های مختلف برجسته کرده است.

تیم CSAIL تشخیص داد که با توجه به این قابلیت‌ها، مدل‌های زبان ممکن است بتوانند به عنوان ستون فقرات عوامل تعمیم‌یافته برای تفسیرپذیری خودکار عمل کنند.

شوتمن می گوید: تفسیرپذیری از لحاظ تاریخی یک زمینه بسیار چند وجهی بوده است و هیچ رویکردی برای همه وجود ندارد؛ بیشتر رویه‌ها به سؤالات فردی که ممکن است در مورد یک سیستم داشته باشیم، و به روش‌های فردی مانند بینایی یا زبان بسیار خاص است. مدل‌هایی بر روی داده‌های انسانی، که در آن این مدل‌ها فقط همین وظیفه را انجام می‌دهند.

عوامل تفسیرپذیری که از مدل‌های زبان ساخته شده‌اند، می‌توانند یک رابط کلی برای توضیح سیستم‌های دیگر فراهم کنند، ترکیب نتایج در آزمایش‌ها، ادغام در روش‌های مختلف، حتی کشف تکنیک‌های آزمایشی جدید در یک سطح بسیار اساسی.

همانطور که وارد رژیمی می شویم که در آن مدل هایی که توضیح می دهند خود جعبه های سیاه هستند، ارزیابی های بیرونی روش های تفسیرپذیری به طور فزاینده ای حیاتی می شوند و معیار جدید این تیم با مجموعه ای از عملکردها، با ساختار شناخته شده، که بر اساس رفتارهای مشاهده شده در طبیعت مدل شده است، به این نیاز می پردازد.

توابع داخل FIND دامنه‌های متنوعی را شامل می‌شود، از استدلال ریاضی گرفته تا عملیات نمادین روی رشته‌ها تا نورون‌های مصنوعی ساخته‌شده از وظایف سطح کلمه.

مجموعه داده توابع تعاملی به صورت رویه ای ساخته شده است. پیچیدگی دنیای واقعی با افزودن نویز، ترکیب توابع و شبیه سازی بایاس ها به توابع ساده معرفی می شود، این امکان مقایسه روش‌های تفسیرپذیری را در محیطی فراهم می‌کند که به عملکرد دنیای واقعی ترجمه می‌شود.

علاوه بر مجموعه داده‌های توابع، محققان یک پروتکل ارزیابی نوآورانه را برای ارزیابی اثربخشی AIA و روش‌های قابلیت تفسیر خودکار موجود معرفی کردند. این پروتکل شامل دو رویکرد است. برای کارهایی که نیاز به تکرار تابع در کد دارند، ارزیابی مستقیماً تخمین‌های تولید شده توسط هوش مصنوعی و توابع اصلی و واقعی را مقایسه می‌کند. ارزیابی برای کارهایی که شامل توصیف توابع به زبان طبیعی است پیچیده تر می شود.

در این موارد، سنجش دقیق کیفیت این توصیفات مستلزم درک خودکار محتوای معنایی آنها است. برای مقابله با این چالش، محققان یک مدل زبان تخصصی شخص ثالث را توسعه دادند.

این مدل به طور خاص برای ارزیابی دقت و انسجام توصیف‌های زبان طبیعی ارائه‌شده توسط سیستم‌های هوش مصنوعی آموزش داده شده است و آن را با رفتار تابع حقیقت زمین مقایسه می‌کند.

FIND ارزیابی را قادر می‌سازد که نشان می‌دهد هنوز با خودکارسازی کامل تفسیرپذیری فاصله داریم، اگرچه AIAها از رویکردهای تفسیرپذیری موجود بهتر عمل می‌کنند، اما هنوز نمی‌توانند تقریباً نیمی از عملکردها را در معیار توصیف کنند.

تامار روت شهام، نویسنده ارشد این مطالعه و پسادکتری در CSAIL، خاطرنشان می‌کند که در حالی که این نسل از AIA در توصیف عملکردهای سطح بالا مؤثر است، آنها هنوز هم اغلب جزئیات دقیق‌تر را نادیده می‌گیرند، به ویژه در زیر دامنه‌های عملکردی با نویز یا نویز. (رفتار نامنظم)

این احتمالاً ناشی از نمونه‌گیری ناکافی در این مناطق است و یک مسئله این است که اثربخشی AIA ممکن است به دلیل داده‌های اکتشافی اولیه آنها مختل شود. برای مقابله با این، ما سعی کردیم اکتشاف AIA را با شروع جستجوی آنها با ورودی‌های خاص و مرتبط راهنمایی کنیم. (دقت تفسیر را به طور قابل توجهی افزایش داد)

این رویکرد روش‌های جدید AIA را با تکنیک‌های قبلی با استفاده از مثال‌های از پیش محاسبه‌شده برای شروع فرآیند تفسیر ترکیب می‌کند.

محققان همچنین در حال توسعه ابزاری برای تقویت توانایی AIA برای انجام آزمایش‌های دقیق‌تر روی شبکه‌های عصبی، هم در تنظیمات جعبه سیاه و هم در جعبه سفید هستند و این جعبه ابزار با هدف تجهیز AIAها به ابزارهای بهتر برای انتخاب ورودی ها و پالایش قابلیت های آزمون فرضیه برای تجزیه و تحلیل شبکه عصبی دقیق تر و دقیق تر است.

این تیم همچنین در حال مقابله با چالش‌های عملی در تفسیرپذیری هوش مصنوعی است و بر تعیین سؤالات مناسب هنگام تجزیه و تحلیل مدل‌ها در سناریوهای دنیای واقعی تمرکز دارد. هدف آن‌ها توسعه روش‌های تفسیرپذیر خودکار است که در نهایت می‌تواند به افراد کمک کند تا سیستم‌ها را حسابرسی کنند.

به عنوان مثال برای رانندگی مستقل یا تشخیص چهره، برای تشخیص حالت‌های احتمالی خرابی، سوگیری‌های پنهان یا رفتارهای شگفت‌انگیز قبل از استقرار.

این تیم در نظر دارد روزی AIA تقریباً مستقلی را توسعه دهد که بتواند سیستم‌های دیگر را با نظارت و راهنمایی دانشمندان انسانی ممیزی کند و AIA های پیشرفته می‌توانند انواع جدیدی از آزمایش‌ها و سؤالات را ایجاد کنند که به طور بالقوه فراتر از ملاحظات اولیه دانشمندان انسانی است.

تمرکز بر گسترش تفسیرپذیری هوش مصنوعی است تا رفتارهای پیچیده‌تری را شامل شود، مانند کل مدارهای عصبی یا زیرشبکه‌ها، و پیش‌بینی ورودی‌هایی که ممکن است منجر به رفتارهای نامطلوب شوند.

مارتین واتنبرگ، استاد علوم کامپیوتر در دانشگاه هاروارد می‌گوید: معیار خوب ابزاری قدرتمند برای مقابله با چالش‌های دشوار است، دیدن این معیار پیچیده برای تفسیرپذیری، یکی از مهم‌ترین چالش‌های امروزی در یادگیری ماشین، فوق‌العاده است.

من به‌ویژه تحت تأثیر عامل تفسیرپذیری خودکاری هستم که نویسندگان ایجاد کرده‌اند، این نوعی جیو جیتسو تفسیرپذیر است که هوش مصنوعی را به خود باز می‌گرداند. (به منظور کمک به درک انسان)

عوامل هوش مصنوعی — Schwettmann ،Rott Shaham و همکارانشان کار خود را در NeurIPS 2023 در ماه دسامبر ارائه کردند و سایر نویسندگان MIT همه زیرمجموعه های CSAIL و دپارتمان مهندسی برق و علوم کامپیوتر (EECS)، شامل دانشجوی فارغ التحصیل جوانا ماترزینسکا، دانشجوی مقطع کارشناسی نیل چاودری، شوانگ لی، دکترا، استادیار جاکوب آندریاس، و پروفسور هستند.

مالکیت معنوی مجله انرژی (energymag.ir) علامت تجاری ناشر است. سایر علائم تجاری مورد استفاده در این مقاله متعلق به دارندگان علامت تجاری مربوطه می باشد. ناشر وابسته یا مرتبط با دارندگان علامت تجاری نیست، و توسط دارندگان علامت تجاری حمایت، تایید یا ایجاد نشده است، مگر اینکه خلاف آن ذکر شده باشد و هیچ ادعایی از سوی ناشر نسبت به حقوق مربوط به علائم تجاری شخص ثالث وجود ندارد.

لینک سایت مرجع