زیرساخت هوش مصنوعی چیست و چرا باید امن باشد؟ زیرساخت هوش مصنوعی شامل تمام اجزایی است که از هوش مصنوعی پشتیبانی میکنند: خطوط لوله داده، محیطهای آموزشی، مدلها، سیستمهای استقرار، شتابدهندههای سختافزاری، APIها و ابزارهای نظارتی. ایمنسازی زیرساخت به معنای حفاظت نه تنها از خود مدل، بلکه از همه چیز اطراف آن—جذب داده، ذخیرهسازی، ارتباطات، استنتاج و مدیریت—است.
اگر زیرساخت ناامن باشد، مهاجمان میتوانند دادهها را دستکاری کنند، مدلها را سرقت کنند یا باعث شوند سیستم بهطور نادرست عمل کند. رویکرد "امن بهصورت طراحیشده" کمک میکند تا امنیت در هر لایه تعبیه شود، نه اینکه بعداً بهعنوان یک فکر بعدی اضافه شود.
انواع تهدیدات خصمانه علیه سیستمهای هوش مصنوعی تهدیدات خصمانه از آسیبپذیریهای خاص سیستمهای هوش مصنوعی بهرهبرداری میکنند. در ادامه، دستهبندیهای اصلی حملات آورده شده است:
- حملات فرار / نمونههای خصمانه در حمله فرار، مهاجم بهطور ظریفی دادههای ورودی را تغییر میدهد تا مدل هوش مصنوعی به اشتباه طبقهبندی کند یا رفتار نادرستی داشته باشد. بهعنوان مثال، تغییر کوچک پیکسل در یک تصویر ممکن است باعث شود مدل بینایی علامت توقف را اشتباه شناسایی کند.
- حملات مسمومسازی / درپشتی در اینجا، مهاجم دادههای مخرب را به مجموعه آموزشی تزریق میکند تا مدل رفتار نادرستی (یک "درپشتی") را تحت محرکهای خاصی یاد بگیرد. مدل ممکن است بهطور کلی عادی رفتار کند، اما در زمان فعال شدن محرک، نادرست عمل کند.
- استخراج / سرقت مدل مهاجمان مدل را بهعنوان یک "جعبه سیاه" مورد پرسوجو قرار میدهند و بهتدریج رفتار یا پارامترهای آن را بازسازی یا سرقت میکنند، که مالکیت معنوی و محرمانگی را به خطر میاندازد.
- حملات استنتاج عضویت و حریم خصوصی با مشاهده پاسخهای مدل، مهاجمان میتوانند استنباط کنند که آیا یک نقطه داده خاص بخشی از مجموعه آموزشی بوده است—که این امر دادههای خصوصی را فاش میکند.
- تزریق دستور (برای مدلهای زبانی بزرگ) در مدلهای زبانی یا مولد، ورودیهای طراحیشده با دقت (دستورات) میتوانند دستورات مورد نظر را نادیده بگیرند یا باعث شوند مدل دستورات ناخواستهای را اجرا کند.
- حملات کانال جانبی / نشت سختافزاری حتی اگر مدل و نرمافزار امن باشند، کانالهای جانبی فیزیکی (مانند مصرف برق، زمانبندی) ممکن است جزئیات حساس محاسبات را فاش کنند.
هر یک از این تهدیدات مراحل مختلف چرخه عمر هوش مصنوعی—از آموزش تا استنتاج—را هدف قرار میدهند و حملات ممکن است ترکیب یا زنجیرهای شوند.
مکانیزمهای دفاعی و بهترین روشها دفاع از سیستمهای هوش مصنوعی نیازمند رویکردی چندلایه است. در ادامه استراتژیهای کلیدی آورده شده است:
- آموزش خصمانه نمونههای خصمانه را در آموزش گنجانید. مدل یاد میگیرد در برابر اختلالات مقاومت کند. این رویکرد استحکام را افزایش میدهد اما از نظر محاسباتی گران است و ممکن است تعمیمپذیری را کاهش دهد.
- پیشپردازش و پاکسازی ورودی تحولاتی مانند حذف نویز، فشردهسازی یا فیلتر کردن را به ورودیها قبل از تغذیه به مدلها اعمال کنید. این میتواند نویز خصمانه را حذف کند.
- استحکام گواهیشده / قابل اثبات برخی روشها تضمین میکنند که در محدودههای اختلال مشخص، خروجی مدل تغییر نمیکند. این روشها از نظر ریاضی دقیق هستند اما اغلب هزینهبرند.
- حریم خصوصی تفاضلی و تزریق نویز نویز کنترلشدهای به بهروزرسانیها یا خروجیهای مدل اضافه کنید تا مشارکت نقاط داده خاص مخفی شود و از حملات استنتاج جلوگیری شود.
- کنترلهای دسترسی و رمزنگاری از احراز هویت قوی، دسترسی مبتنی بر نقش و رمزنگاری برای دادهها و مصنوعات مدل (در حالت استراحت، در حین انتقال و در حال استفاده) استفاده کنید. فناوریهایی مانند محیطهای اجرایی قابل اعتماد (TEEs) به ایمنسازی دادهها در طول محاسبات کمک میکنند (محاسبات محرمانه).
- نظارت، تشخیص و پاسخ رفتار مدل و ورودیها را بهطور مداوم برای ناهنجاریها نظارت کنید. از آشکارسازها برای ورودیهای خصمانه استفاده کنید و در صورت بروز ناهنجاریها هشدار یا بازگشت را فعال کنید.
- طراحی امن و حاکمیت چرخه عمر رویکرد امن بهصورت طراحیشده را اتخاذ کنید: بررسیهای امنیتی، مدلسازی تهدیدات و ارزیابی ریسک را در هر مرحله از توسعه لحاظ کنید. همچنین، نسخهبندی، ردیابی منشأ و مسیرهای حسابرسی را اعمال کنید.
- اشتراکگذاری دفاع و اطلاعات تهدید جوامع و چارچوبها (مانند MITRE ATLAS) به اشتراکگذاری تکنیکها و دفاعهای خصمانه جدید را ترویج میکنند. بهروز ماندن به امنیت زیرساخت هوش مصنوعی کمک میکند تا با تهدیدات تکامل یابد.
- مدلهای ترکیبی و مجموعهای استفاده از چندین مدل یا ترکیب تکنیکهای دفاعی مختلف میتواند پیدا کردن یک نقطه ضعف واحد را برای مهاجمان دشوارتر کند.
چالشها و تجارتها
- عملکرد در مقابل استحکام: دفاعهای قوی اغلب استنتاج را کند میکنند یا دقت در ورودیهای "تمیز" را کاهش میدهند.
- هزینه محاسباتی: تکنیکهایی مانند آموزش خصمانه یا دفاعهای گواهیشده به منابع محاسباتی بیشتری نیاز دارند.
- مهاجمان تطبیقی: مهاجمان ممکن است استراتژیهای دفاعی را یاد بگیرند و تطبیق دهند، بنابراین دفاعها باید بهطور مداوم بهروزرسانی شوند.
- مقیاسپذیری: حفاظت از مدلهای بزرگ (مانند مدلهای زبانی بزرگ) و سیستمهای توزیعشده (لبه، ابر، فدرال) پیچیده است.
- دشواری ارزیابی: تعریف و آزمایش استحکام در تنظیمات دنیای واقعی کار آسانی نیست.