فهرست مطالب این مقاله:
در هر روز هزاران رویداد در سراسر زیرساخت فناوری اطلاعات شما رخ میدهد. چرا؟ در حقیقت، رویداد یک تغییر در وضعیت یک سرویس IT یا آیتم پیکربندی (CI) است که برای مدیریت آن بسیار اهمیت دارد. برای مثال تغییر سرور از حالت آنلاین به حالت غیرفعال میتواند یک رویداد باشد، یا تکمیل اسکریپت نگهداری سرور بصورت منظم نیز یک رویداد در نظر گرفته میشود؛ دانستن این موارد ارزشمند و مفید بوده و حتی ممکن است اقداماتی باشند که شما میخواهید به عنوان نتیجه انجام دهید.
اهداف مدیریت رویداد در ITIL عبارتند از: تشخیص رویدادها، تجزیه و تحلیل آنها و تعیین اقدامات کنترلی درست. با تحقق این اهداف، فرآیند رویداد یک بستر قوی برای تضمین سرویس، گزارشگیری و بهبود سرویس فراهم خواهد کرد.
آنچه اهمیت دارد دانستن این نکته است که مانیتورینگ و مدیریت رویداد در ITIL با یکدیگر تفاوت دارند. درحقیقت، مانیتورینگ یک جزء از مدیریت رویداد در ITIL بوده و به همین علت یک روش مفید برای شناسایی رویدادها میباشد. از سوی دیگر، مدیریت رخداد با استخراج مفهوم رویدادها به فناوری اطلاعات کمک میکند تا اقدامات لازم را در مواقع لزوم انجام دهند.
دامنه و مزایای مدیریت رویداد در ITIL
مدیریت رویداد در ITIL میتواند در هر یک از جنبه های مدیریت سرویس که نیازمند کنترل بوده و میتواند خودکارسازی شود (از شبکه ها، سرورها و برنامه های کاربردی تا تمام شرایط محیطی مانند تشخیص آتش و دود و امنیت و تشخیص نفوذ) مورد استفاده قرار گیرد.
از آنجایی که مدیریت رویداد در ITIL می تواند در هر جنبه از مدیریت سرویسها در سازمان فناوری اطلاعات شما اعمال شود، مزایای گسترده ای نیز دارد. به طور کلی، مدیریت موثر رویدادها میتواند:
- فراهم ساختن پایه و بستری قوی برای خودکارسازی اجزاء عملیات فناوری اطلاعات
- بهبود زمان تشخیص و پاسخ به رخدادها، تغییرات، استثناها و … .
- کاهش زمان وقفه به عنوان نتیجه ای از موارد بالا
در مدیریت رویداد در ITIL، موفق بودن به معنای داشتن قابلیت تشخیص، برقراری ارتباط و انجام اقدامات مناسب برای هر رویداد (یا تغییر در حالت) بوده که برای مدیریت سرویسهای فناوری اطلاعات و CI هایی که از آنها پشتیبانی می کند، بسیار اهمیت دارد.
جریان فرآیند مدیریت رویداد (Event Management Process Flow)
چه تفاوتی بین رویداد و رخداد وجود دارد؟
سوال خوبی است و پاسخ آن نیز ساده است. رخدادها وقفه های پیش بینی نشده یا کاهش کیفیت سرویس فناوری اطلاعات هستند. هنگامیکه رخدادی بوجود می آید، به معنای ان است که موردی اشتباه است. اما در مقابل رویدادها تغییراتی هستند که در وضعیت سرویسها، CI ها یا تقریبا هر چیز مهم در زیرساخت IT شما رخ میدهند.
آیا رخداد میتواند یک رویداد باشد؟ پاسخ مثبت است. همه رخدادها نوعی رویداد هستند زیرا قطعی سرویس یا کاهش کیفیت سرویس نوعی تغییر در وضعیت سرویس محسوب میشوند. اما همه رویدادها، رخداد نیستند، زیرا افزایش بازدهی، ورود کاربر به سیستم یا تکمیل خودکار سرویس پشتیبان، نشان دهنده تغییر وضعیت سرویس بوده اما منجر به ایجاد وقفه یا کاهش کیفیت سرویس نمیشود.
سه نوع رویداد توسط ITIL تعریف شده است. این رویدادها عبارتند از:
- اطلاعات. این رویدادها معمولا به هیچ پاسخی نیاز ندارند، زیرا آنها بروز رسانی های اولیه یا داده هایی هستند که برای کمک به گزارشگیری تولید میشوند. لاگها و گزارشها نمونه هایی از این موارد هستند.
- هشدار. هشدارها نشان دهنده فعالیتهای خارج از محدوده نرمال هستند (مانند رسیدن به مقدار آستانه). هشدار به معنای آن است که شما باید شرایط را نظارت کرده تا اطمینان حاصل کنید شرایط بدتر نخواهند شد و یا اقدامات لازم را برای جلوگیری از بدتر شدن آنها انجام دهید. یک مثال از این نوع رویداد حالتی است که ظرفیت سرور به 75٪ برسد یا یک تراکنش استاندارد 15٪ بیشتر از حالت نرمال طول بکشد.
- استثنا. رویدادهای استثنا نشان میدهند که چه چیزی اشتباه است. سرویسها (و کسب و کاری که آنها پشتبانی میکنند) نیز ممکن است تاثیر منفی بپذیرند. Down شدن سرور یا شبکه مثالی از این نوع رویداد هستند.
چه فعالیتهای دیگری میتواند به عنوان رویداد درنظر گرفته شود و یک فرآیند مدیریت رویداد را آغاز کند؟ تعداد کمی فعالیت وجود دارد، از استثناها و فرآیندهای خودکار گرفته تا تغییر وضعیتهای ساده در یک سرور یا پایگاه داده. محدودیتی در برابر آن وجود ندارد.
در نهایت وظیفه فناوری اطلاعات طراحی انواع فعالیتهایی است که به عنوان رویدادهای اطلاعاتی، رویدادهای هشدار دهنده و رویدادهای استثنا در نظر گرفته میشوند. رویدادهای “هشدار” عموما رویدادهایی هستند که ممکن است به نظارت دقیقتر یا حتی مداخله ای برای کمک به شما در جلوگیری از وقوع استثناها نیاز داشته باشند. “استثنا” به معنای آن است که چیزی به معنای واقعی اشتباه بوده و به اقدام فوری نیاز دارد.
فعالیتهای کلیدی مدیریت رویداد در ITIL
شما میبایست در طول فاز طراحی سرویسهای IT انواع رویدادهایی که باید تولید شوند و نیز چگونگی تولید آنها را برای هر نوع آیتم پیکربندی (CI) که در ارائه سرویس وجود دارند را تعریف کنید. چرخه حیات رویداد به شرح زیر است:
۱. وقوع رویداد (Event Occurrence)
رویدادها در تمام سال و بصورت 24 ساعته رخ میدهند. در مدیریت رویداد ITIL، موضوع کلیدی تعریف انواع رویدادهایی است که برای عملیات شما و اطمینان از داشتن یک سیستم برای تشخیص آنها، بسیار مهم است.
۲. اعلان رویداد (Event Notification)
اعلانها معمولا توسط ابزارها یا CIها ارسال میشوند. اعلانهایی که در این مرحله هستند، اطلاع میدهند یک رویداد اتفاق افتاده و همچنان تاثیر و مفهوم آنها مورد تجزیه و تحلیل قرار نگرفته است.
۳. تشخیص رویداد (Event Detection)
در این مرحله یک سیستم مانیتورینگ، عامل خودکار (automated agent) یا راه حل مدیریت سیستمها، اعلانها را دریافت کرده و مفهوم هر رویداد را مشخص میکند.
۴. ثبت رویداد (Event Logged)
همزمان با هر اقدامی که انجام میشود، یک رکورد برای رویداد ساخته میشود. اینکار ممکن است توسط راه حل مدیریت سیستمها و یا توسط سخت افزار/ سرویس/ برنامه های مجزا که باعث وقوع این رویداد میشوند، انجام شود.
۵. آنالیز و فیلتر رویداد (Event Filtering and Correlation)
آیا میتوان رویداد را نادیده گرفت یا باید به سیستم مدیریت رویداد منتقل شود؟ در اغلب موارد، رویدادهای اطلاعاتی نادیده گرفته میشوند درصورتیکه هشدارها و استثناها اغلب نیازمند اقدامات اضافی هستند. بنابراین اولین قدم در این فرآیند، فیلترینگ و آنالیز سطح یک نامیده شده که به سادگی رویدادهایی را که باید نادیده گرفته شوند، فیلتر میکند.
در سطح دوم فیلترینگ و آنالیز، یک موتور تحلیل گر از قوانین کسب و کار از پیش تعریف شده برای تعیین اهمیت رویدادهای هشدار و استثنا استفاده میکند و در خصوص گام های درست بعدی تصمیم گیری میکند.
۶. پاسخ رویداد / اقدام بعدی
به یاد داشته باشید که همه رویدادها (و پاسخها) باید ثبت شوند. علاوه بر این، موتور تحلیل گر ممکن است براساس نوع و شدت رویداد ،تعیین کند که آیا مناسب است این رویداد به یک تیم یا فرد ارجاع داده شود یا در شرایط وقوع هشدارها و استثناهای شدیدتر، حتی به صورت خودکار یک رخداد، مشکل یا تغییر ایجاد میکند.
۷. بستن رویداد (Closing the Event)
اگر رویدادی که منجر به وقوع رخداد، مشکل و یا تغییر میشود، ایجاد شود، در چنین حالتی میبایست رویداد از طریق فرآیندهای مربوطه بسته شود. در واقع پس از اطمینان از این که رویداد به درستی ثبت شده است و همچنین اقدام بعدی نیز انجام شده و شامل یک لینک به رخداد، مشکل یا درخواست تغییر میباشد، رویداد میتواند در سیستم مدیریت رویداد بسته شود.
همچون بسیاری از فرآیندهای ITIL، مدیریت رویداد نیز در یک محیط ایزوله و جداگانه فعالیت نمیکند. مادامی که مدیریت رویداد با مدیریت رخداد، مشکل و تغییر (برای مقابله با استثناها) در ارتباط است، با موارد نیز در ارتباط خواهد بود:
- مدیریت ظرفیت و دسترس پذیری برای درک اهمیت رویدادها، مقادیر آستانه و … .
- مدیریت دارایی برای مدیریت وضعیت دارایی ها
- مدیریت پیکربندی برای مدیریت وضعیت CI ها
اندازه گیری اثربخشی
چند شاخص کلیدی عملکرد (KPI) وجود دارند که به شما کمک میکند میزان کارایی و اثربخشی فرآیند مدیریت رویداد را اندازه گیری کنید. این شاخصها عبارتند از:
- CI هایی که بیشتر رویدادها را تولید میکنند.
- تعداد رویدادهای گزارش شده توسط ابزارهای مانیتورینگ و تحلیل های آماری بر اساس دسته بندی رویدادها
- درصد کل رویدادهایی که به رخداد تبدیل شده اند ( یا منجر به تغییر شده اند) و بطور خاص، تعداد این رخدادها که از طریق سیستمهای خودکار شما گزارش شده اند.
توصیههای کلیدی
ابتدا اطمینان حاصل کنید که یک مطالعه کامل در مورد انواع رویدادهایی که در محیط IT شما اتفاق می افتد، انجام داده اید. اطلاع داشته باشید که سیستمها چه رویدادهایی را در کجا ثبت میکنند و مفهوم رویدادها چیست.
اینکار شناخت و تعریف انواع رویدادهایی که به توجه بیشتر نیاز دارند را بسیار ساده میکند (چه این رویدادها بر اثر مداخله انسانی و چه بر اثر جریان های کاری خودکار برای کنترل تغییرات یا افزایش رخدادها بوجود آمده باشند).
از آنجایی که برای یک فرد زنده (یا حتی تیمی از افراد) نظارت و مدیریت هر یک از رویدادها توسط همه سیستم ها امکان پذیر نیست،، هدف شما باید اینگونه باشد که یک مجموعه ساده و کارآمد از جریان های کاری برای خودکار سازی کارهای ساده ایجاد کنید و در زمان وقوع رویدادهای مهمی که سرویسها را تهدید میکنند (یا رویدادهایی که نیازمند کمک انسانی هستند)، تیم خود را آگاه سازید.
در نهایت، اطمینان حاصل کنید که لاگ های رویداد شما سطح مناسبی از جزئیات را در بر میگیرد، برای مثال جزئیاتی در خصوص اینکه چه اتفاقی افتاده است، چه زمانی اتفاق افتاده است، چگونه کنترل و اداره شده است، به چه کسی ارجاع داده شده است و هرگونه جزئیات مربوط به ارتباطاتی که با سایر افراد یا سیستمها جهت پشتیبانی از هرگونه اقدام صورت گرفته است. شما همچنین می خواهید رویدادهایی که SLA ها یا OLA های شما را نقض می کنند را ذخیره کرده تا از این طریق بتوانید گزارشهای دقیق ارائه کرده و سازگاری خود را حفظ کنید.