فهرست مطالب این مقاله:
داده کاوی (Data Mining) که با عنوان کشف دانش در پایگاههای داده هم شناخته میشه، در واقع فرآیند شناسایی الگوها و روابط جالب و معنادار در حجم وسیعی از دادهها هستش. در این حوزه با استفاده از ابزارهای مختلف آماری و هوش مصنوعی (مانند شبکههای عصبی و ماشین لرنینگ) و ترکیب اونها با راهکارهای مدیریت پایگاه داده، مجموعههای وسیعی از داده که با عنوان Data Set شناخته میشن رو تحلیل میکنن.
داده کاوی به طور گستردهای در کسب و کارها (بیمه، بانکداری، خرده فروشی)، تحقیقات علمی (نجوم، پزشکی) و امنیت ملی (تشخیص سریع مجرمین و تروریست ها) استفاده میشه.
خصوصیات اصلی داده کاوی عبارتند از:
- شناسایی خودکار الگوها
- تخمین خروجی های احتمالی
- تولید اطلاعات قابل اجرا
- تمرکز بر روی مجموعه های بزرگ داده و پایگاه دادهها
داده کاوی میتونه به سوالاتی جواب بده که از طریق تکنیکهای کوئری و گزارش دهی ساده امکانش وجود نداره.
مدل سازی در داده کاوی
در یک فرآیند کامل داده کاوی گام های مختلفی وجود داره که از درک اهداف یک پروژه و داده های در دسترس گرفته تا پیاده سازی تغییرات لازم در فرآیند با توجه به تحلیل نهایی رو شامل میشه. سه گام اصلی پردازشی در داده کاوی شامل فرآیند یادگیری مدل، ارزیابی مدل و استفاده از مدل میشه.
این بخش با توجه به دسته بندی دادهها جزو تمیزترین بخش های داده کاوی به حساب میاد. یادگیری مدل زمانی اتفاق میفته که یک الگوریتم بر روی گروه یا کلاسی از دادهها که دارای پارامتر طبقه بندی کننده هستن اعمال یا با بررسی داده الگوریتم جدیدی شناسایی میشه.
پارامتر طبقه بندی کننده سپس با مجموعهای مستقل از داده که دارای خصوصیات مورد نظر هستند تست میشه. هر چقدر میزان انطباق پارامتر طبقه بندی کننده مدل با خصوصیات مجموعه داده آزمایشی بیشتر باشه، دقت مورد انتظار مدل هم بالاتره. اگر مدل به اندازه کافی دقیق باشه میشه از اون برای طبقه بندی مجموعه های داده با خصوصیات نامشخص استفاده کرد.
رویکرد های مدل سازی و داده کاوی
انواع مختلفی از داده کاوی وجود داره که به طور کلی بر اساس نوع اطلاعاتی (خصوصیاتی) که از قبل شناخته شدن و دانشی که از مدل داده کاوی انتظار داریم تقسیم میشن.
مدل سازی پیش بینی کننده
مدل سازی پیش بینی کننده وقتی استفاده میشه که هدف تخمین ارزشِ یک خصوصیت هدف مشخص باشه. در این رویکرد یک مجموعه داده نمونه شامل خصوصیت مذکور برای آموزش الگوریتم هم باید در دسترس باشه.
برای مثال مجموعه اطلاعاتی که از قبل به گروههای مختلفی تقسیم شدن رو در نظر بگیرین. با استفاده از این تکنیک میشه برای پیدا کردن الگوهای متمایز بین گروهها، دادههای موجود در این مجموعه رو بررسی کرد. الگوهای شناسایی شده میتونن برای دسته بندی داده های که مشخص نیست به کدوم گروه تعلق دارن مورد استفاده قرار بگیرن.
مثلا کارخانه ای رو در نظر بگیرین که یک مدل پیش بینی کننده رو توسعه داده که میتونه قطعات حساس به گرما یا سرمای شدید و سایر شرایط خاص رو از همدیگه متمایز کنه. اینطوری کارخانه میتونه قطعات رو بر اساس کاربردی که میتونن داشته باشن دسته بندی کنه.
یکی دیگه از تکنیکهایی که در مدل سازی پیش بینی کننده به کار میره تحلیل رگرسیونی هستش. از این تکنیک زمانی استفاده میشه که خصوصیت هدف یک ارزش عددیه و هدف اینه که این ارزش در مجموعه جدید داده تخمین زده بشه.
مدل سازی توصیفی
مدل سازی توصیفی یا خوشه بندی هم تکنیکیه که دادهها رو به گروه های مختلف تقسیم میکنه. در این تکنیک، گروههای متناسب با دادههای جدید از همون اول مشخص نیستن. در واقع الگوهایی که با تحلیل دادهها شناسایی شدن برای پیدا کردن گروههای متناسب مورد استفاده قرار میگیرن.
مثلا یک تبلیغ کننده میتونه با تحلیل یک جمعیت مشخص، مشتریان بالقوه رو به خوشههای مختلف تقسیم کنه و بعدش کمپینهای تبلیغاتی رو طراحی کنه که این خوشهها رو به صورت مجزا هدف بگیره. از این تکنیک در تشخیص کلاهبرداری هم استفاده میشه. در این روش با خوشه سازی مشتریانی که الگوهای خرید مشابهی دارن در یک گروه قرار میگیرن.
الگو کاوی
الگو کاوی یا Pattern Mining بر روی شناسایی قوانینی که الگوهای مشخصی در یک مجموعه داده رو توصیف میکنن، تمرکز میکنه. تحلیل سبد بازار که کالاهایی که معمولا با همدیگه خریداری میشن رو شناسایی میکنه یکی از اولین کاربردهای داده کاوی بود. مثلا سوپرمارکتها از این تحلیل برای شناسایی اقلامی که با هم خریداری میشن استفاده میکردن.
مثلا فروشگاهی که ماهی عرضه می کرد، سس تارتار یا سایر چاشنیهای مخصوص طبخ ماهی رو هم به فروش میرسوند. اگرچه تست و تشخیص چنین روابطی از گذشته نسبتا دور امکان پذیر بوده و در مجموعههای داده کوچک ساده به نظر میرسه، اما داده کاوی مدرن امکان شناسایی الگوها و روابطی نامحسوس در مجموعههای وسیعی از دادههای مختلف رو میسر کرده.
یکی از محبوب ترین کاربردهای الگو کاوی، شناسایی روابط غیرمنتظره بین دادههای مختلفه که در نهایت میتونه مسیرهای جدیدی رو برای بازاریابی یا تحقیقات معرفی کنه. یکی دیگه از کاربردهای مهم الگو کاوی شناسایی الگوهای دنباله دار یا دنباله کاوی هستش.
مثلا توالی خطاها و هشدارهایی که قبل از خرابی تجهیزات ایجاد میشن میتونن برای برنامه ریزی بهتر تعمیر و نگهداری اون تجهیزات استفاده بشن یا اطلاعات ارزشمندی رو در خصوص نقص طراحی در اختیارمون قرار بدن.
تشخیص غیرنرمال بودن
تشخیص غیرنرمال بودن رو میشه نقطه مقابل خوشه بندی در نظر گرفت که نمونههای دادهای غیرنرمال که در هیچ الگوی شناسایی شده قرار نمیگیرن رو پیدا میکنه. تشخیص کلاهبرداری یک مثال عالی از تشخیص غیرنرمال بودنه.
اگرچه در نگاه اول تشخیص کلاهبرداری میتونه به عنوان یک مشکل برای مدل سازی پیش بینی کننده محسوب بشه، اما تعداد کم تراکنشهای جعلی و سرعت عمل مجرمین در طراحی روشهای جدید باعث میشه تا دقت مدل پیش بینی کننده پایین بشه.
به همین دلیل تشخیص غیرنرمال بودن بر روی مدل سازی رفتار نرمال تمرکز میکنه تا تراکنشهای غیرمعمول رو در سریع ترین زمان شناسایی کنه. تشخیص غیرنرمال بودن همچنین برای سیستمهای نظارتی مختلفی مثل تشخیص نفوذ به کار میره.
کاربرد داده کاوی در صنایع مختلف
در هر صنعت یا نظامی که کار تحلیلی انجام میشه، داده کاوی به عنوان هسته اصلی به حساب میاد.
تلکام، رسانه و تکنولوژی
با توجه به رقابت شدید امروزی، جواب پرسشهای شما اغلب در دادههای مربوط به مشتری نهفته است. شرکتهای فعال در حوزه تلکام، رسانه و تکنولوژی با استفاده از مدلهای تحلیلی میتونن ارتباط معناداری رو در حجم وسیعی از دادههای مشتری پیدا کنن. با استفاده از این الگوها میشه رفتار مشتری رو پیش بینی و کمپینهای متناسب و با هدفگذاری دقیق رو طراحی کرد.
دیتا ماینینگ در صنعت بیمه
اطلاعات تحلیلی به شرکتهای بیمه کمک می کنه تا مشکلات پیچیده در خصوص کلاهبرداری، میزان انطباق با شرایط، مدیریت ریسک و خستگی مشتری رو حل کنن. با استفاده از تکنیکهای داده کاوی شرکتها میتونن به طور موثرتری قیمت محصولات رو تعیین و به روشهای جدیدی برای ارائه محصولات رقابتی به مشتریانشون دست پیدا کنن.
کاربرد داده کاوی در صنعت آموزش
با مشاهده میزان پیشرفت دانش آموزان به صورت یکپارچه و مبتنی بر داده، آموزش دهندهها میتونن قبل از ورود به کلاس، عملکرد دانش آموزان رو پیش بینی کنن. اینطوری میش استراتژهایی رو پیاده سازی کرد تا میزان تعامل دانش آموزان افزایش پیدا کنه.
داده کاوی به آموزش دهندهها در دسترسی به اطلاعات دانش آموز، پیش بینی سطح دستاورد و شناسایی دانش آموزان یا گروهی از دانش آموزان که به توجه بیشتری نیاز دارن کمک میکنه.
Data Mining در صنعت تولید
همسو کردن برنامههای تامین با تقاضای پیش بینی شده برای هر کارخانهای ضروریه. علاوه بر این، تشخیص زودهنگام مشکلات، تضمین کیفیت و سرمایه گذاری در ارزش آفرینی برند از اهمیت یکسانی برخوردارن. کارخانجات میتونن با پیش بینی استهلاک تجهیزات، فرآیندهای نگهداری رو بهبود بدن و در نتیجه کارایی خط تولید رو افزایش بدن.
بانکداری
الگوریتمهای خودکار به بانکها در زمینه درک بهتر رفتار مشتریان و کنترل میلیاردها تومان تراکنش در سیستم مالی کمک میکنه. داده کاوی به شرکتهای فعال در حوزه خدمات مالی کمک میکنه دید بهتری روی ریسکهای بازار داشته باشن، کلاهبرداری ها رو سریع تر تشخیص بدن و میزان انطباق با قوانین و چهارچوبها رو بهتر مدیریت کنن. همه اینها باعث میشه تا عملکرد بهتری در مدیریت سرمایههای خودشون داشته باشن.
خرده فروشی
پایگاههای داده بزرگ مشتریان معمولا بینش ارزشمندی رو در خودشون مخفی کردن که دسترسی به اون میتونه به بهبود روابط شما، بهینه سازی کمپینهای بازاریابی و پیش بینی فروش کمک کنه. از طریق مدلهای داده دقیق تر، شرکتهای خرده فروشی میتونین کمپینهای هدفمندتری رو برگزار و پیشنهادات تاثیرگذار روی مشتریانشون رو پیدا کنن.
داده کاوی و شبکه اجتماعی
به کارگیری داده کاوی در شبکههای اجتماعی یکی از سودآورترین کاربردهای اون بوده. پلتفرمهایی مثل فیسبوک، تیک تاک، اینستاگرام و توییتر با استفاده از اطلاعات کاربران، علایق اونها رو شناسایی میکنن و اینطوری میتونن تبلیغات هدفمند و متناسبی رو نمایش بدن برای مثال اگر شخصی دنبال محصولی مانند نرم افزار CRM باشه مدام تبلیغات مرتبط به اون رو در شبکه های اجتماعی میبینه.
این اطلاعات همچنین برای تاثیر روی رفتار کاربر و تغییر ترجیحاتش استفاده میشه که نمونهای از اون رو میشه در تبلیغ محصولی خاص یا جلب توجه به یک کاندید انتخاباتی دید. داده کاوی در شبکه اجتماعی البته به یک نگرانی بزرگ هم تبدیل شده. گزارشهای تحقیقاتی و افشاگریهای مختلف نشون میدن که داده کاوی اطلاعات کاربران میتونه شرورانه باشه.
داده کاوی: تخصص آینده
امروزه تحقیق، تحلیل و مدیریت داده بازارهای تقریبا نوظهوری هستن که فرصتهای شغلی فوق العاده زیادی رو در دسترس قرار داده. متخصصین داده کاوی برای ارزیابی اطلاعات و جداسازی اطلاعات بی فایده یا نامعتبر از پایگاه های داده استفاده میکنن. این کار به دانش کلان داده (Big Data)، پردازش و تحلیل اطلاعات نیاز داره و کاربر باید بتونه با نرم افزارهای مختلفی کار کنه.
بر اساس گزارش سال 2017 لینکدین در خصوص مشاغل نوظهور، سه مورد از پرمتقاضی ترین مشاغل در آمریکا به حوزه کلان داده مرتبط هستن. پیش بینیهای IBM هم نشون میده میزان تقاضا برای این متخصصین تا سال 2020 تا 28 درصد افزایش پیدا میکنه.
سوالات متداول
داده کاوی چیست؟
داده کاوی در واقع فرآیندی هستش که با استفاده از نرم افزارهای تخصصی و تکنولوژی هوش مصنوعی، ارتباطات آشکار و پنهان بین دادههای مختلف رو پیدا میکنه. شناسایی این ارتباطات در حالت عادی یا خیلی دشواره یا به طور کلی غیرممکنه.
داده کاوی چه فایده ای داره؟
با کشف ارتباط بین مجموعههای مختلف داده هر کسب و کار میتونه رفتار کاربرانش و عملکرد محصولات مشابه رو بهتر درک کنه و با استفاده از اطلاعات به دست اومده بازاریابی موثرتری داشته باشه.
داده کاوی انواع مختلفی داره؟
جواب کلی به این سوال مثبته. داده کاوی بر اساس اطلاعاتی که از قبل می شناسیم و مشخص شدن و همچنین جوابی که قراره از طریق الگوریتم های داده کاوی به اونها برسیم به دستههای مختلف تقسیم میشن.