در مقالات قبلی این سری، اهمیت شبکه های گراف، مفاهیم گراف و چگونگی استفاده از تجسم گراف برای ساده تر و موثر تر کردن تحقیقات تقلب را پوشش دادیم. در این مقاله، ما به بررسی این می پردازیم که چگونه از مدل های مبتنی بر گراف برای مبارزه با تقلب استفاده می کنیم در حالی که الگوهای تقلب رشد و تنوع می یابند.

مجله زیبایی و درمانی آذروت has grown rapidly in the past few years. It has expanded its business from ride hailing to food and grocery delivery, financial services, and more. Fraud detection is challenging in Grab, because new fraud patterns always arise whenever we introduce a new business product. We cannot afford to develop a new model whenever a new fraud pattern appears as it is time consuming and introduces a cold start problem, that is no protection at the early stage. We need a general fraud detection framework to better protect مجله زیبایی و درمانی آذروت from various unknown fraud risks.

مشاهده کردیم که مگر اینکه بسیار متنوع باشد، مجله زیبایی و درمانی آذروت بسیاری از عمودهای کسب و کار مختلف دارد، انتیتی های درون این کسب و کارها به یکدیگر متصل هستند (شکل 1. چپ)، به عنوان مثال، دو مسافر می توانند توسط یک مودم Wi-Fi یا دستگاه تلفن، تاجر می تواند با یک مسافر توسط یک سفارش غذا، و غیره متصل باشد. یک گراف روشی شیک برای ضبط همبستگی فضایی بین انتیتی های مختلف در اکوسیستم مجله زیبایی و درمانی آذروت است. یک تقلب معمول الگوهای واضحی را در گراف نشان می دهد، به عنوان مثال، یک اتحادیه تقلب معمولاً دستگاه های فیزیکی را به اشتراک می گذارد و همکاری بین یک تاجر و یک مجموعه معزول از مسافران رخ می دهد (شکل 1. راست).

شکل 1. چپ: گراف همبستگی های مختلف را در اکوسیستم مجله زیبایی و درمانی آذروت نشان می دهد. راست: گراف نشان می دهد که تقلب معمول الگوهای واضحی دارد.

ما باور داریم که گراف ها می توانند به ما در کشف ردیابی های دقیق و الگوهای تقلب پیچیده کمک کنند. راه حل های مبتنی بر گراف اساس پایدار برای مبارزه با ریسک های تقلب شناخته شده و ناشناخته خواهند بود.

چرا گراف؟

شیوه های شناخته شده تشخیص تقلب شامل موتور قوانین و مدل های مبتنی بر درخت تصمیم می باشند، به عنوان مثال، درخت تقویت شده، جنگل تصادفی و غیره. قوانین مجموعه ای از عبارات منطقی ساده هستند که توسط کارشناسان انسانی برای هدف قرار دادن با یک مشکل تقلب خاص طراحی شده اند. آنها برای تشخیص ساده تقلب مناسب هستند، اما معمولاً در موارد تقلب پیچیده یا ناشناخته به خوبی کار نمی کنند.

روش های تشخیص تقلبموتور قوانین پایین ندارد نیاز ندارد ندارددرخت تصمیم پایین پایین بالا بالامدل گراف بالا بالا پایین پایین

جدول 1. گراف در مقابل روش های شناخته شده تشخیص تقلب.

مدل های مبتنی بر درخت تصمیم در سال گذشته ها در تشخیص تقلب و رقابت های Kaggle برای داده های ساختار یافته یا جدولی حاکم بوده است. با این حال، عملکرد یک مدل مبتنی بر درخت بسیار وابسته به کیفیت برچسب ها و مهندسی ویژگی است که در زندگی واقعی اغلب دست یافتن به آنها دشوار است. علاوه بر این، این مدل معمولاً در تقلب ناشناخته که در برچسب ها مشاهده نشده است، به خوبی عمل نمی کند.

از سوی دیگر، مدلی بر پایه گراف به میزان اندکی مهندسی ویژگی نیاز دارد و قابل استفاده در تشخیص تقلب ناشناخته با کمترین وابستگی به برچسب ها است، زیرا از همبستگی های ساختاری روی گراف استفاده می کند.

به خصوص، تقلب کنندگان تمایل دارند که بر روی گراف همبستگی های قوی نشان دهند، زیرا آنها باید ویژگی های فیزیکی مشترکی مانند هویت های شخصی، دستگاه های تلفن، مودم های Wi-Fi، آدرس های تحویل و غیره را به اشتراک بگذارند تا هزینه را کاهش دهند و درآمد را بیشینه کنند، همانطور که در شکل 2 (چپ) نشان داده شده است. نمونه ای از این همبستگی های قوی در شکل 2 (راست) نشان داده شده است، که انتیتی های موجود در گراف به طور فشرده متصل شده اند و تقلب کنندگان شناخته شده به رنگ قرمز روشن مشخص شده اند. این همبستگی های قوی در گراف دلایل کلیدی ای هستند که سبب می شود رویکرد مبتنی بر گراف یک پایه پایدار برای وظایف گوناگون تشخیص تقلب باشد.

یادگیری نیمه محدود گراف

بر خلاف مدل های مبتنی بر درخت تصمیم سنتی، مدل یادگیری ماشین مبتنی بر گراف می تواند همبستگی ها وابسته به گراف را استفاده کند و حتی با تعداد کمی از برچسب ها عملکرد بزرگی را داشته باشد. مدل شبکه کانولوشن گراف نیمه محدود در سال های اخیر بسیار محبوب شده است1. در وظایف تشخیص تقلب در صنایع مختلف مانند تقلب در تجارت الکترونیک، تقلب در مالیات، تقلب در ترافیک اینترنت و غیره، موفقیت خود را اثبات کرده است. ما از شبکه گراف کانولوشنی رابطه ای (RGCN)2 برای تشخیص تقلب در اکوسیستم مجله زیبایی و درمانی آذروت استفاده می کنیم. شکل 3 معماری کلی RGCN را نشان می دهد. این مدل یک گراف را به عنوان ورودی می گیرد و گراف از طریق چندین لایه کانولوشن گرافی رد می شود تا جاسمانی که قابلیت تقلب دارد برای هر گره را به دست آورد. در هر لایه کانولوشن گرافی، اطلاعات به طول می انجامد همراه با همسایگانی مانده های در گراف، به این معنی است که گره هایی که در گراف نزدیک هم قرار دارند، به یکدیگر شبیه هستند.

ما مدل RGCN را بر روی یک گراف با میلیون ها گره و یال آموزش می دهیم، جایی که تنها چند درصد از گره های گراف برچسب دار هستند. مدل گراف نیمه محدود به برچسب ها وابستگی کمی دارد که آن را یک مدل قوی برای مقابله با انواع مختلف تقلب ناشناخته می کند.

شکل 4 نشان دهنده عملکرد کلی مدل RGCN است. در سمت چپ نمودار کارایی دستیابی کننده (ROC) در مجموعه داده برچسب است، به خصوص، مقدار مساحت زیر نمودار کارایی دستیابی کننده (AUROC) نزدیک به 1 است که به این معنی است که مدل RGCN می تواند به خوبی به داده های برچسبی برازش شود. ستون راست نمایش پروژکشن های کم بعدی از تعبیرهای گره در مجموعه داده برچسب است. روشن است که تعبیرهای مسافرین اصلی از تعبیرهای مسافرین تقلبی جدا می شوند. مدل می تواند تقلب و مسافرین اصلی را به خوبی تمایز دهد.

در نهایت، ما می خواهیم چند راهنمایی را که مدل RGCN را در عمل به خوبی کار می کند به اشتراک بگذاریم.

    از کمتر از سه لایه کانولوشن استفاده کنید: اگر تعداد زیادی لایه کانولوشن وجود داشته باشد، ویژگی گره بیش از حد استوار خواهد شد، به این معنی است که همه گره ها در گراف به هم شبیه می شوند.ویژگی های گره مهم هستند: دانش دامنه گره می تواند به عنوان ویژگی های گرافی که برای مدل گراف فرموله می شوند، و ویژگی های گره های غنی می توانند عملکرد مدل را بهبود بخشند.

توضیح قابلیت توجیه گراف

بر خلاف سایر مدل های عمیق شبکه، مدل های شبکه عصبی گراف عموماً دارای قابلیت توجیه بزرگی هستند، به عنوان مثال، حساب های تقلبی احتمالاً دستگاه های سخت افزاری را به اشتراک می گذارند و خوشه های چگال را در گراف تشکیل می دهند، و این خوشه های تقلب را می توان با استفاده از یک تجسم کننده گراف به راحتی شناسایی کرد3.

شکل 5 یک مثال نشان می دهد که تجسم گراف به توضیح درجه پیش بینی مدل کمک می کند. مسافرین اصیل با امتیاز RGCN پایین دستگاهی را با سایر مسافران به اشتراک نمی گذارند، در حالی که مسافر تقلبی با امتیاز RGCN بالا با بسیاری از مسافران دیگر دستگاه به اشتراک می گذارد، به عبارت دیگر، خوشه های چگال.

افکاری نهایی

گرافها پایه پایداری را برای مبارزه با انواع مختلف ریسک های تقلب فراهم می کنند. تقلب کنندگان در این روزها بسیار سریع تکامل می کنند و بهترین قوانین یا مدل های سنتی که می توانند انجام دهند این است که دنبال کردن این تقلب کنندگان است به شرطی که یک الگوی تقلب قبلاً کشف شده باشد، این کار نیمه بهینه است زیرا آسیب در پلتفرم به طور کامل وارد شده است. با کمک مدل های گراف، ما احتمالاً می توانیم تقلب کنندگان را قبل از هر فعالیت تقلبی شناسایی کنیم و در نتیجه هزینه تقلب را کاهش دهیم.

اطلاعات ساختاری گراف می توانند عملکرد مدل را به طرز چشمگیری بالا ببرند بدون وابستگی زیاد به برچسب ها که اغلب در وظایف تشخیص تقلب دشوار است. ما نشان داده ایم که با تنها یک درصد کوچکی از گره های برچسب دار در گراف، مدل ما می تواند عملکرد عالی را به دست آورد.

با این حال، برای بر تاباندن یک مدل گراف در عمل نیز چالش های زیادی وجود دارد. ما در حال کار بر روی حل چالش های زیر هستیم که با آنها مواجه هستیم.

    مقداردهی ویژگی: گاهی اوقات سخت است تا ویژگی گره را براه اندازی کنید، به عنوان مثال، یک گره دستگاه دارای معنی های زیادی نیست. ما برای کمک به مقداردهی ویژگی از پیش آموزش شده خودنظارتی4 استفاده کرده ایم و نتایج اولیه موفقیت آمیز هستند.پیش بینی بلادرنگ مدل: پیش بینی بلادرنگ مدل گراف چالش برانگیز است زیرا بروزرسانی بلادرنگ گراف در بیشتر موارد عملیات سنگینی است. یک راه حل ممکن این است که به پیش بینی بلادرنگ دسته ای بپردازیم تا هزینه را کاهش دهیم.ارتباطات نویزی: برخی از ارتباطات در گراف به طور ذاتی نویزی هستند، به عنوان مثال، دو کاربر که آدرس IP یکسانی را به اشتراک می گذارند




    -8233