تا به امروز، بدافزار همچنان یکی از مؤثرترین ابزارهای مورد استفاده جهت حمله است که اغلب برای مقابله با آن و پیشگیری و شناسایی رخنه بدافزارها در سیستم‌ها، از ابزارهای امنیتی مبتنی بر یادگیری ماشینی استفاده  می‌شود.

نیزی راستوگی، استادیار مؤسسه فناوری روچستر، در این باره می‌گوید ابزارهای امنیتی یادگیری ماشینی تقریباً آنقدر که به نظر می‌آید مؤثر نیستند زیرا موانع مختلفی بر سر راه آنها قرار دارند. راستوگی در کنفرانس انیگما 2022 که در 2 فوریه برگزار شد به شرح دیدگاه‌های خود در مورد محدودیت‌های یادگیری ماشین در مقوله امنیت پرداخت و راه‌حل بالقوه‌ای تحت عنوان امنیت محتوایی را در این جلسه ارائه داد.

یکی از چالش‌های کلیدی که اخیرا در مورد امنیت یادگیری ماشینی به آن پرداخته شده است مسئله هشداردهی‌های نادرست است. راستوگی توضیح داد که این هشدارهای نادرست هم سبب اتلاف وقت سازمان‌ها می‌شود و هم یک خلاء امنیتی است که به طور بالقوه یک سازمان را در معرض خطرپذیری‌های غیرضروری قرار می‌دهد.

راستوگی گفت: “حل مسئله هشدارهای کاذب منفی و مثبت بسیار دشوار است.”

چرا الگو های یادگیری ماشینی هشدارهای نادرست تولید می‌کنند؟

از بین دلایل مهمی که سبب  تولید هشدارهای نادرست توسط الگوهای یادگیری ماشین می‌شود؛ می‌توان به ناکافی بودن داده‌های ارائه شده اشاره کرد.  در تعریف یادگیری ماشین باید گفت؛ رویکردی است که در آن یک ماشین یاد می‌گیرد چگونه کاری را انجام دهد و با نوعی آموزش در قالب یک مجموعه داده فعال می‌شود. چنانچه مجموعه داده‌های آموزشی حاوی همه داده های صحیح نباشد، شناسایی دقیق همه بدافزارها نیز ممکن نخواهد بود. راستوگی گفت که یکی از راه‌های ممکن برای ارتقاء  بهبود الگو‌های امنیتی یادگیری ماشین، یکپارچه‌سازی یک الگوی یادگیری مداوم است. در این رویکرد، با کشف ابزارهای حمله و آسیب پذیری های جدید، داده های جدید هم به طور مداوم برای آموزش سیستم یادگیری ماشین ارائه می‌گردند.

افزودن محتوا برای افزایش کارایی شناسایی بدافزار

با این حال، دریافت داده‌های درست بمنظور آموزش یک الگو،  در عمل بسیار دشوار است. راست گویی ارائه محتوای مضاعف را به عنوان فرصتی برای بهبود الگو‌های شناسایی بدافزار و یادگیری ماشین پیشنهاد می‌کند.محتوای مضاعف را می‌توان از منابع طرف سوم یا هوش منبع باز تهدیدات  (اوسینت(OSINT)) استخراج کرد.  این منابع گزارش‌ها و تحلیل‌های تهدید در مورد حملات جدیدی که اخیرا به وقوع پیوسته‌اند را ارائه می‌کنند. چالشی که در ارتباط با اوسینت وجود دارد معمولا فاقد ساختار بودن داده‌ها، پست‌های وبلاگ و سایر فرمت‌هایی است که برای آموزش یک الگوی یادگیری ماشین به‌خوبی کار نمی‌کنند.راستوگی در این خصوص گفت: “این گزارش‌ها به زبانی قابل فهم برای انسان نوشته شده‌اند و بدین ترتیب محتوای ارائه شده در آنها امکان تبدیل شدن به کد را ندارند”.

استفاده از نمودارهای دانش برای امنیت محتوایی

اکنون این سوال مطرح می‌شود که داده‌های فاقد ساختار  چگونه می‌توانند به یادگیری ماشینی و بهبود تشخیص بدافزار کمک کنند؟ راستوگی و تیمش در تلاش هستند تا از رویکردی به نام نمودار دانش استفاده کنند.یک نمودار دانش از آنچه به عنوان پایگاه داده نمودار شناخته می‌شود بهره می‌برد که ارتباط بین نقاط مختلف داده را ترسیم می‌کند. به گفته راستوگی، بزرگترین مزیت استفاده از نمودارهای دانش این است که مسیر دریافت و درک بهتر اطلاعات فاقد ساختار نوشته شده به زبان قابل درک برای انسان را هموار می‌سازد. او گفت: «تمامی داده‌های ادغام شده بر روی یک نمودار دانش، قادرند به شناسایی یا استنباط الگوهای حمله در زمان شکل گرفتن یک تهدید بدافزاری کمک کنند». این مزیت استفاده از نمودارهای دانش و همان چیزی است که تحقیقات ما آن در پی آن است.»به گفته راستوگی؛  افزودن محتوا و اطلاعات مکانی داده‌ در ردیابی منبع داده‌ها و راستی آزمایی آنها بسیار موثر است و به بهبود دقت کلی تشخیص بدافزار منجر خواهد شد.او افزود: “ما باید با استفاده از امتیازدهی‌های درست و دقیق در مورد ارزیابی عملکرد الگو‌های یادگیری ماشین گامی فراتر بگذاریم. هدف ما کمک به تحلیل‌گران از طریق استنباط درست و مطمئن محتوا است.”