فهرست مطالب این مقاله:
به عنوان مدیر رخداد یا مدیر مشکل، میتونین تمام آموزشهای ITIL یا مدیریت خدمات فناوری اطلاعات (ITSM) رو در جهان پشت سر بگذارین، اما هیچ چیزی واقعا نمیتونه اونطوری که باید شما رو برای اولین رخداد یا بحران بزرگ آماده کنه. این موضوع قطعا چیزی هستش که با تجربه و در طول زمان آسونتر میشه.
در این مقاله از زبان یکی از مدیرانی که برای چندین سال مسئولیت مدیریت رخدادهای بزرگ رو برعهده داشته، به 13 نکته اصلی اشاره میکنیم تا با کمک اونها بتونین با یک بحران جدی مدیریت رخدادهای بزرگ مقابله کنین.
برای کسب اطلاعات بیشتر در مورد مدیریت رخداد در ITIL به صفحه “مدیریت رخداد” ما مراجعه کنید.
1. حفظ آرامش
حتی اگه رخداد خیلی بزرگ هستش، باز هم بهتره آرامش خودتون رو حفظ کنین. درسته، همه میدونیم که گفتن این حرف خیلی آسونتر از انجام دادن اون موقع بروز یک رخداد بزرگ هستش. علاوه بر این، وقتی که دیگران دارن آرامش خودشون رو از دست میدن، آروم و معقول بودن سختتر میشه.
بنابراین، یک مدیر موفق باید به هنر تظاهر مسلط بشه! ایده اصلی اینه که در طول یک حادثه بزرگ ظاهری آروم داشته باشیم. چون اگه آروم باشیم، اطرافیانمون هم کم کم آروم میشن و شما به طور موثر احساس وحشت رو از موقعیت خارج میکنین.
شاید این امر واضح به نظر برسه، اما وقتی با یک رخداد یا بحران بزرگ سر و کار دارین، وحشت قرار نیست به کسی کمکی کنه.
2. مراقبت از افراد خود
آیا کسی به دلیل یک حادثه بزرگ در معرض خطر فوری و جدی قرار داره؟ اگه جواب مثبت هستش، از پروتکلهای ایمنی مناسب استفاده کنین. این پروتکلها میتونه شامل دکمه خاموش کردن اضطراری (EPO) یا خارج کردن افراد از سایت و رسوندن اونها به مکان امن باشه.
وقتی که خطر فوری ناشی از یک حادثه بزرگ مهار شد، میتونین ببینین چه کسی چه کاری رو انجام میده و چه درسهایی رو میشه یاد گرفت. اما قبل از هر چیز باید از افراد و همکاران خودتون مراقبت کنین.
3. درخواست کمک برای حادثه مهم
این حادثهی بزرگ چقدر جدی هستش؟ آیا زمان اون رسیده که از طرحهای بازیابی بلایا (DR) استفاده کنیم؟ مدیریت تغییر رو آگاه کنین که ممکنه نیاز به یک تغییر فوری برای رفع مشکلات وجود داشته باشه. اگه سرویس دسک شما به طور قابل توجهی با مشکل مواجه هستش، میتونین افراد بیشتری رو برای کاهش فشار روی شیفت فعلی خودتون فراخوانی کنین؟
4. برقراری ارتباط در طول حادثهی مهم
لحن اصلی مدیریت حادثه که باید به دنبال اون باشین، آرام و در عین حال سریع و کارآمد هستش.
به عنوان یک مدیر بحران، مطمئن بشین که همه افراد درگیر با این حادثه بزرگ میدونن که چطور باید شما رو به روزرسانی کنن تا به این ترتیب بتونین به روزرسانیهای مناسب رو برای افرادی که نیاز به اطلاعرسانی دارن ارسال کنین. این رویه تضمین میکنه که نه تنها همه چیز رو برای گزارش ثبت کردین، بلکه تیمهای پشتیبانی شما رو از پرسیدن یک سوال تکراری توسط ده نفر نجات میده و زمان اونها رو آزاد میکنه تا به رفع مشکل کمک کنن.
تا جایی که میتونین در انتشار پیام مدیریت رخداد اصلی فعال باشین. مثلا به عنوان یک مدیر ارشد، هیچ چیز بدتر از این نیست که یک مشتری خشمگین یک مشکل رو به شما اطلاع بده. بنابراین مطمئن بشین که تیم مدیریت ارشد شما در جریان همه چیزهایی که باید در مورد موضوع و تاثیرات اون بدونن قرار داره.
اگر یک CMDB یا یک کاتالوگ خدمات دارین، سعی کنین ببینین که آیا تاثیر حادثه بزرگ به سایر مشتریان یا برجهای خدماتی هم کشیده میشه یا نه. در صورتی که جواب مثبت هستش باید متناسب با نوع تاثیر به اونها هشدار بدین. همچنین مطمئن بشین که سرویس دسک پیام خوش آمدگویی رو در سیستم توزیع خودکار تماس (ACD) شما به روزرسانی کرده تا سعی کنه از سیل ناگهانی تماسهای ورودی جلوگیری کنه.
اما چرا این موضوع اهمیت زیادی داره؟ خوبه بدونین که هیچ چیز برای یک تحلیلگر سرویس بیشتر از این استرس زا نیست که تماسهای متعددی رو در صف انتظار برای پاسخگویی داشته باشه.
برای مثال، یکی از مدیران رخداد میگه: «در زمان وقع یک رخداد بزرگ ما پیامی رو بر روی سیستم ACD دریافت کردیم، اما وقتی که موفق به استقرار اون شدیم، سیستم دیگه قادر به مقابله با تعداد بسیار زیاد تماسها نبود و از کار افتاد. حالا مشکل خیلی جدیتر شده بود، نه تنها خدمات تجاری بلکه سرویس دسک هم از کار افتاده بود. بنابراین، هیچ کس نمیتونست مشکلات جدید رو گزارش کنه و تیمهای پشتیبانی ما به جای یک مورد، دو رخداد مهم رو باید رفع میکردن که اصلا وضعیت خوبی نیست.»
5. تست و تایید راهحل یک رخداد بزرگ
فرض کنین یکی از افراد در تیم سرور به نام مجید به راهحلی برای رخداد بزرگ فعلی دست پیدا کرده. اما آیا این راهحل تست و بررسی شده؟
یادتون هست که قبلا با مدیریت تغییر صحبت کردیم تا از قبل به اونها هشدار بدیم که ممکنه به عنوان بخشی از تلاش اصلی برای رفع رخداد به یک تغییر اضطراری نیاز باشه؟ با اونها صحبت کنین و در حالی که مجید از تیم سرور در حال آزمایش راهحل هستش، تغییراتی رو با تمام جزئیات موجود مطرح کنین. نیاز نیست که رکورد تغییر کامل باشه، بلکه باید فعالیتهای کلیدی، افرادی که در انجام کار دخیل هستن و زمانبندیهای سفت و سخت در اون لحاظ شده باشه.
6. مدیریت راهحل رخداد بزرگ پس از وقوع رخداد بزرگ
مطمئن بشین که مجید همه چیزهایی رو که برای رفع رخداد بزرگ نیاز داره رو در اختیار داره. مطمئن بشین که افراد کافی در دسترس هستن. مثلا تیمهای پشتیبانی دیگه یا پشتیبانی شخص ثالث رو در صورت نیاز برای اطمینان از عدم وجود تاخیر یا اختلال در حالت آمادهباش قرار بدین.
7. بررسی فعال بودن همه چیز
درسته که به عنوان یک مدیر همیشه با این وسوسه مواجه هستین که داد بزنین «همه چیز به روال عادی برگشته!»، اما بهتره اول یک بررسی سلامت سریع رو بعد از یک رخداد بزرگ انجام بدین. اگه سرور DNS شما خراب بود، بررسی کنین تا مطمئن بشین که میتونین به دنیای خارج دسترسی داشته باشین. تلفن قطع شده بود؟ ببینین آیا الان میتونین تماس بگیرین. وبسایت خراب بود؟ ببینین آیا الان میتونین به اون دسترسی داشته باشین و روی چند مورد از پیوندهای محتوا کلیک کنین تا مطمئن بشین که همه چیز به خوبی کار میکنه نه فقط لندینگ پیج.
به طور خلاصه، قبل از اینکه پیروزی خودتون رو جشن بگیرین اول باید مطمئن بشین که همه چیز به خوبی کار میکنه.
8. داشتن برنامه برای مدیریت رفتار چالشبرانگیز
بدون شک یک رخداد بزرگ استرس زیادی رو به تیم وارد میکنه. هیچ کس از رویارویی با خرابی گسترده سیستم و کاربران ناراضی لذت نمیبره و گاهی اوقات استرس باعث میشه تا افراد به گونهای رفتار کنن که ایدهآل به حساب نمیاد.
در اینجا به چند نمونه از این رفتارها موقع بروز رخدادی مهم اشاره میکنیم:
وضعیت | چطور واکنش نشون بدیم |
---|---|
یک حادثه بزرگ رخ داده و در خصوص اینکه چه کاری باید انجام بشه عدم اطمینان وجود داره. شکایتهای مردم داره زیاد میشه. | خب، اجازه بدین فرایند رو شروع کنیم. بعد از دریافت پیام، یک تیم رو جمع میکنیم. تا اینجا خوب پیش رفته و حالا فقط باید روی حادثه کار کنیم و مراحل بعدی رو مشخص کنیم. |
یک مدیر ارشد به تماس اصلی رخداد ملحق میشه و کمی دچار استرس میشه و تلاش مربوط به رفع حادثه رو مختل میکنه. | از بازخورد شما متشکریم، اما ما در حال حاضر در تلاش هستیم تا تمرکز خودمون رو بر روی تلاش برای رفع حادثه نگه داریم. بعدا روی موضوع X تمرکز میکنیم. |
چند ساعتی هستش که هیچ کس نمیدونه چه چیزی باعث بروز این مشکل شده و مردم کم کم دارن وحشت میکنن. | اجازه بدین به سرعت اون چیزی رو که تا اینجا فهمیدم مرور کنیم و ادامه بدیم. آیا تیمهای پشتیبانی دیگهای هم وجود داره که در این مرحله باید به اونها مراجعه کنیم؟ |
شخصی در یکی از تیمهای پشتیبانی شروع به کار میکنه و تیم دیگه، یک تامینکننده یا کسب و کار رو مقصر میدونه. | من صدای شما رو میشنوم، اما این چیزی نیست که ما در این تماس درباره اون صحبت کنیم. ما بعدا در بررسی رخداد بزرگ به این موضوع میپردازیم. |
شما با یک رخداد بزرگ دست و پنجه نرم میکنین و شخصی یکی از اعضای تیم شما رو مقصر میدونه. | سریع و جدی مداخله کنین. در صورت لزوم اونها رو از ارتباط خارج یا بیصدا کنین. اما هیچ وقت نباید با اونها برخورد تهاجمی داشته باشین یا فریاد بکشین.
میتونین از جملات مشابه حالت قبلی استفاده کنین و رسیدگی به این موضوع رو به زمان دیگهای موکول کنین. اما اگه کسی خیلی تلاش میکنه تا فرد یا افرادی رو مقصر جلوه بده نباید اجازه بدین تا در ارتباط بمونه. |
9. تمرین بیشتر برای عالی شدن
نحوه مدیریت رخدادهای بزرگ رو در مطالب آموزشی خودتون هم در نظر بگیرین. کتابهای مفید رو در اختیار تیمها قرار بدین تا هر فردی که در سرویس دسک شما فعالیت میکنه به خوبی بدونه چطور یک رخداد بزرگ رو مدیریت کنه و اگه کسی باشه که تماسها رو قبول میکنه، بتونه به درستی پاسخ بده.
چک لیستها و سناریوهای نمونه زیادی رو آماده کنین تا برخورد با یک رخداد بزرگ و مهم برای افراد شما به یک اقدام ذاتی تبدیل بشه که به نوبه خود مقداری از استرس و اضطراب رو از اونها دور میکنه.
10. تغییرات و رخدادهای بزرگ
مثل یک رخداد بزرگ، تغییرات اضطراری هم قرار نیست سرگرم کننده باشن، اما معمولا برای حل یک مشکل بزرگ ضرورت دارن. مطمئن بشین که فرایندهای مربوط به رخداد بزرگ و تغییر اضطراری شما کاملا همسو هستن. همچنین توصیه میشه عضوی از تیم مدیریت تغییر بخشی از رخداد بزرگ رو در اختیار داشته باشین یا در لیست تماس قرار بدین تا در صورت نیاز به تغییر اضطراری، تیم پشتیبانی همه چیزهایی رو که برای رفع موثر، کارآمد و ایمن نیاز داره در اختیار داشته باشه.
طراحی فرم رخداد بزرگ سازمانتون رو به گونهای در نظر بگیرین که که گردش کار «نیاز به تغییر اضطراری برای حل و فصل» در صورت نیاز خودکار بشه.
11. مقابله با عواقب فوری رخداد بزرگ
تا جایی که میتونین اطلاعات بیشتری رو در مورد رخداد بزرگ دریافت کنین، چون وقتی این مشکل برطرف بشه افراد اونقدر روی مشکل بعدی متمرکز میشن که همه چیز رو فراموش میکنن. بنابراین، مطمئن بشین که همه چیز رو در حالی که هنوز در ذهن افراد تازه هستش ثبت کنین.
12. جلسه بررسی رخداد بزرگ
قوانین اساسی رو تنظیم کنین و به همه افراد حاضر در اتاق اطمینان بدین که جلسه مدیریت رخدادهای مهم برای بررسی اتفاقاتی هستش که رخ داده و چطور میشه از تکرار اونها جلوگیری کرد، نه پیدا کردن مقصر. اگه افراد فکر کنن که قراره سرزنش بشن، در این صورت اونها تمایلی به صحبت کردن ندارن و اینطوری روند کار پیشرفت زیادی نداره.
با ایجاد آرامش و احساس راحتی در افراد، خیلی سریعتر به علت اصلی و همچنین هر اقدامی برای جلوگیری از تکرار اون دست پیدا میکنین.
وقتی درسهای مربوط به رخداد بزرگ اخیر رو ثبت میکنین باید مطمئن بشین که مستند هستن، به اشتراک گذاشته شدن و براساس اونها عمل میشه.
سادهترین راه برای انجام این کار اینه که اگه سازمان شما چنین بخشی داره، اونها رو به یک ثبت CSI اضافه کنین. هر اتفاقی که بیفته، فراموش نکنین اگه رخداد مشابهی شش ماه دیگه اتفاق افتاد و قابل جلوگیری بود مردم شما رو کمتر میبخشن.
13. مراقبت از افراد هنگام وقوع رخداد بزرگ
این موضوع اونقدر مهمه که در این مقاله دو بار به اون اشاره کردیم. بسیار خوب، شما سرویس رو بازیابی کردین، به سهامداران خودتون اطلاع دادین، با پیامدها به خوبی مقابله کردین و درسهای مهم از این رخداد رو دریافت کردین. این احتمال وجود داره که شما و تیم تحت فشار زیادی قرار گرفته باشین و به شدیدا احساس خستگی کنین.
بنابراین، حالا زمان ایجاد انگیزه در قالب ارائه مرخصی، پذیرایی با قهوه یا تقویت مجدد روحیه تیمی با تعیین یک دورهمی دوستانه در رستوران هستش. این مورد رو لزوما در هر کتاب یا دوره آموزشی مدیریت رخدادهای بزرگ پیدا نمیکنین، اما تاثیرات شگفتانگیزی بر روحیه افراد داره.