
IT Service Continuity Management (ITSCM) คืออะไร?
IT Service Continuity Management (ITSCM) คือกระบวนการวางแผนและจัดการเพื่อให้บริการ IT ขององค์กรสามารถ กลับมาทำงานได้ ภายในระยะเวลาที่กำหนด เมื่อเกิดเหตุการณ์ร้ายแรง (Disaster) ที่ส่งผลกระทบต่อการดำเนินธุรกิจ ไม่ว่าจะเป็นภัยธรรมชาติ, Cyber Attack, ไฟฟ้าดับ หรือโรคระบาด
ITSCM เป็นส่วนหนึ่งของ ITIL Framework และเชื่อมโยงกับ Business Continuity Planning (BCP) ขององค์กร เพราะในยุค 2026 ธุรกิจแทบทุกประเภทพึ่งพาระบบ IT หากระบบ IT หยุดทำงาน ธุรกิจก็หยุดตามไปด้วย
ITSCM vs BCP vs DRP — ความสัมพันธ์
หลายคนสับสนระหว่าง 3 คำนี้ มาทำความเข้าใจให้ชัดเจน:
| คำย่อ | ชื่อเต็ม | ขอบเขต | เน้นอะไร |
|---|---|---|---|
| BCP | Business Continuity Planning | ทั้งองค์กร | ให้ธุรกิจดำเนินต่อได้ (คน, สถานที่, IT, Supply chain) |
| ITSCM | IT Service Continuity Management | บริการ IT | ให้บริการ IT กลับมาทำงานตาม SLA |
| DRP | Disaster Recovery Plan | ระบบเทคนิค | กู้คืน Infrastructure (Server, Database, Network) |
ลำดับชั้น: BCP (ภาพรวมธุรกิจ) → ITSCM (บริการ IT) → DRP (เทคนิคการกู้คืน) โดย ITSCM อยู่ตรงกลาง เชื่อมระหว่างความต้องการของธุรกิจกับแผนเทคนิค
Business Impact Analysis (BIA) สำหรับ IT
Business Impact Analysis คือขั้นตอนแรกและสำคัญที่สุดของ ITSCM ช่วยกำหนดว่าบริการ IT ใดสำคัญที่สุด และต้องกลับมาทำงานเร็วแค่ไหน:
Key Metrics ที่ต้องกำหนด
| Metric | ความหมาย | ตัวอย่าง |
|---|---|---|
| RPO | Recovery Point Objective — ยอมเสียข้อมูลได้กี่ชั่วโมง | RPO = 1 ชม. หมายถึง backup ทุก 1 ชม. |
| RTO | Recovery Time Objective — กลับมาทำงานภายในกี่ชั่วโมง | RTO = 4 ชม. หมายถึงระบบต้อง up ภายใน 4 ชม. |
| MTPD | Maximum Tolerable Period of Disruption — หยุดได้นานสุดกี่ชั่วโมงก่อนธุรกิจพัง | MTPD = 24 ชม. หมายถึงห้ามหยุดเกิน 1 วัน |
| MBCO | Minimum Business Continuity Objective — ต้องทำงานได้กี่ % ขั้นต่ำ | MBCO = 50% หมายถึง ระบบต้องรองรับ 50% ของ capacity |
BIA Template สำหรับ IT Services
| IT Service | Business Impact | RPO | RTO | MTPD | Priority |
|---|---|---|---|---|---|
| Core Banking System | ลูกค้าทำธุรกรรมไม่ได้ สูญเสียรายได้ ผิด กม. | 0 นาที | 15 นาที | 1 ชม. | Critical |
| Email System | สื่อสารภายในหยุดชะงัก | 1 ชม. | 4 ชม. | 24 ชม. | High |
| HR/Payroll | พนักงานไม่ได้เงินเดือน | 24 ชม. | 48 ชม. | 7 วัน | Medium |
| Intranet Portal | ข้อมูลภายในเข้าถึงไม่ได้ | 24 ชม. | 72 ชม. | 14 วัน | Low |
Risk Assessment — ประเมินความเสี่ยง
หลังจาก BIA แล้ว ต้อง ประเมินความเสี่ยง ที่อาจทำให้บริการ IT หยุดชะงัก โดยพิจารณาทั้ง Likelihood (โอกาสเกิด) และ Impact (ผลกระทบ):
ประเภทความเสี่ยง
| ประเภท | ตัวอย่าง | โอกาส (ไทย) | ผลกระทบ |
|---|---|---|---|
| ภัยธรรมชาติ | น้ำท่วม, แผ่นดินไหว, พายุ | ปานกลาง (น้ำท่วม 2554 เป็นบทเรียนสำคัญ) | สูงมาก – Data Center อาจเสียหาย |
| Cyber Attack | Ransomware, DDoS, Data Breach | สูงมาก (เกิดบ่อยขึ้นทุกปี) | สูง – ข้อมูลรั่วไหล, ระบบ encrypted |
| ไฟฟ้าดับ | Power outage, UPS failure | ปานกลาง | สูง – Server ทั้งหมด down |
| โรคระบาด | COVID-19, ไข้หวัดนก | ต่ำ-ปานกลาง | สูง – พนักงาน IT ไม่สามารถเข้าทำงาน |
| Hardware Failure | Server, Storage, Network ล่ม | สูง | ปานกลาง (ถ้ามี HA) |
| Human Error | ลบข้อมูล, Config ผิด | สูง | ปานกลาง-สูง |
Continuity Strategies — กลยุทธ์ความต่อเนื่อง
Cold / Warm / Hot Standby
| Strategy | คำอธิบาย | RTO | ต้นทุน | เหมาะกับ |
|---|---|---|---|---|
| Cold Standby | มีสถานที่สำรอง แต่ยังไม่ติดตั้ง Hardware ต้อง Setup ทุกอย่างเมื่อเกิด Disaster | วัน – สัปดาห์ | ต่ำ | Low priority systems |
| Warm Standby | มี Hardware ติดตั้งแล้ว มี Software พร้อมใช้ แต่ Data ไม่ Real-time ต้อง Restore | ชั่วโมง | ปานกลาง | Medium priority systems |
| Hot Standby | ระบบสำรองทำงานตลอดเวลา Data replicate แบบ Real-time Failover อัตโนมัติ | นาที | สูง | Critical systems |
Active-Active Architecture
Active-Active คือทั้ง 2 Site ทำงานพร้อมกัน รับ Traffic จริง โดยใช้ Load Balancer กระจาย Traffic ถ้า Site ใด Site หนึ่งล่ม อีก Site รับ Traffic ทั้งหมดโดยอัตโนมัติ ไม่มี Downtime:
# Active-Active Architecture Example:
#
# [Users]
# |
# [Global Load Balancer / DNS]
# / # [Site A] [Site B]
# Bangkok Chiang Mai
# - Web Servers - Web Servers
# - App Servers - App Servers
# - DB Primary - DB Replica (async/sync)
# - Storage - Storage
#
# Data Replication:
# - Database: MySQL Group Replication / PostgreSQL Logical
# - Storage: Ceph, MinIO Cross-site replication
# - File: rsync, Syncthing (near real-time)
Cloud-Based Continuity
Multi-Region Strategy
การใช้ Cloud ช่วยลดต้นทุน ITSCM ได้มากเพราะไม่ต้องลงทุน Hardware สำรอง:
# AWS Multi-Region Continuity:
#
# Primary Region: ap-southeast-1 (Singapore)
# DR Region: ap-northeast-1 (Tokyo)
#
# Services:
# - RDS Multi-AZ (Automated failover within region)
# - RDS Cross-Region Read Replica (DR)
# - S3 Cross-Region Replication (CRR)
# - Route 53 Health Checks + Failover routing
# - CloudFront (CDN - available even if origin down)
# - AWS Backup (Automated cross-region backup)
#
# Azure Equivalent:
# - Azure Site Recovery (ASR)
# - Azure SQL Geo-Replication
# - Azure Traffic Manager
#
# GCP Equivalent:
# - Cloud SQL Cross-Region Replica
# - Cloud DNS Routing Policies
# - Multi-region Cloud Storage
Multi-Cloud Strategy
สำหรับองค์กรที่ต้องการ Availability สูงสุด สามารถใช้ Multi-Cloud Strategy กระจายระบบไปหลาย Cloud Provider:
- Primary: AWS ap-southeast-1 (Singapore)
- Secondary: Azure Southeast Asia
- Tertiary: GCP asia-southeast1
ข้อดีคือไม่ผูกติดกับ Provider เดียว (No vendor lock-in) แต่ข้อเสียคือความซับซ้อนในการจัดการสูง ต้องมีทีม IT ที่เชี่ยวชาญหลาย Platform
Communication Plan During Disaster
การสื่อสารระหว่าง Disaster เป็นสิ่งที่องค์กรมักมองข้าม แต่สำคัญมาก ต้องวางแผนล่วงหน้าว่าจะแจ้งใคร อย่างไร และเมื่อไหร่:
Communication Matrix
| เวลา | แจ้งใคร | ช่องทาง | ข้อมูลที่แจ้ง |
|---|---|---|---|
| 0-15 นาที | IT Team / On-call Engineer | Phone, PagerDuty, LINE | เกิดอะไร, Severity level |
| 15-30 นาที | IT Manager, CISO | Phone, Email | ผลกระทบ, แผนการแก้ไข |
| 30-60 นาที | Business Stakeholders, CEO | Email, Emergency meeting | ผลกระทบต่อธุรกิจ, ETA กู้คืน |
| 1-2 ชม. | ลูกค้า, Partners | Email, Status page, Social media | ปัญหาที่เกิด, เวลาที่คาดว่ากลับมาปกติ |
| ทุก 2-4 ชม. | ทุกกลุ่ม | ทุกช่องทาง | Status update, Progress |
| หลังกู้คืน | ทุกกลุ่ม | Email, Meeting | สรุปเหตุการณ์, Post-mortem |
Emergency Contact ที่ต้องมี
- IT Team Lead: เบอร์โทร + LINE (ติดต่อได้ 24/7)
- ISP / Cloud Provider Support: Ticket system + Emergency hotline
- Hardware Vendor: Dell/HP/Lenovo on-site support contract
- Cyber Insurance: บริษัทประกันความเสียหาย Cyber
- Legal Team: กรณี Data breach ที่ต้องแจ้งตาม PDPA
Testing Continuity Plan — ทดสอบแผน
แผน ITSCM ที่ไม่เคยทดสอบ = ไม่มีแผน ต้องทดสอบเป็นประจำอย่างน้อยปีละ 1-2 ครั้ง:
ระดับการทดสอบ
| ระดับ | วิธีการ | ผู้เข้าร่วม | ระยะเวลา | ความถี่ |
|---|---|---|---|---|
| Tabletop Exercise | ประชุมจำลองสถานการณ์ คุยว่าจะทำอะไรบ้าง | IT Team + Management | 2-4 ชม. | ทุก 3 เดือน |
| Walkthrough Test | ทำตามแผนทีละขั้นตอน แต่ไม่ Failover จริง | IT Team | 4-8 ชม. | ทุก 6 เดือน |
| Component Test | ทดสอบส่วนประกอบแต่ละอย่าง (Backup restore, Failover DB) | IT Team | 4-8 ชม. | ทุก 3 เดือน |
| Full Simulation | จำลอง Disaster จริง Failover ไป DR site จริง | ทั้งองค์กร | 1-2 วัน | ปีละ 1 ครั้ง |
# ตัวอย่าง Full Simulation Checklist:
#
# 1. Pre-test:
# [ ] แจ้งทุกฝ่ายล่วงหน้า 2 สัปดาห์
# [ ] เตรียม Rollback plan
# [ ] Verify backup ล่าสุด
#
# 2. During test:
# [ ] Simulate primary site failure
# [ ] Activate communication plan
# [ ] Failover to DR site
# [ ] Verify all services operational
# [ ] Test user access from DR
# [ ] Measure actual RTO vs target RTO
#
# 3. Post-test:
# [ ] Failback to primary site
# [ ] Document findings
# [ ] Update plan based on issues found
# [ ] Report to management
Documentation Requirements
ITSCM ต้องมีเอกสารที่ครบถ้วนและอัพเดทอยู่เสมอ:
- ITSCM Policy: นโยบายระดับองค์กร ผู้บริหารลงนาม กำหนดขอบเขต บทบาท งบประมาณ
- BIA Report: ผลการวิเคราะห์ผลกระทบทางธุรกิจ RPO/RTO/MTPD ของแต่ละ Service
- Risk Assessment Report: รายงานประเมินความเสี่ยง ความเป็นไปได้ ผลกระทบ มาตรการลดความเสี่ยง
- ITSCM Plan: แผนหลัก ขั้นตอนการ Activate การ Escalation การ Failover
- DRP (Technical): ขั้นตอนเทคนิคการกู้คืน Server, Database, Network, Application
- Communication Plan: ผู้ติดต่อ ช่องทาง Template ข้อความ
- Test Reports: ผลการทดสอบแต่ละครั้ง ปัญหาที่พบ การปรับปรุง
- Vendor Contracts: สัญญากับ ISP, Cloud, Hardware vendor ระบุ SLA
Regulatory Compliance (กฎหมายที่เกี่ยวข้อง)
BOT — สำหรับสถาบันการเงิน
ธนาคารแห่งประเทศไทย (BOT) กำหนดให้สถาบันการเงินต้องมี:
- BCP/DRP ที่ทดสอบแล้ว: ทดสอบอย่างน้อยปีละ 1 ครั้ง
- DR Site แยกจาก Primary: ระยะห่างเพียงพอ (แนะนำ 50+ กม.)
- RTO สำหรับ Core Banking: ไม่เกิน 4 ชม. (บางระบบ 15 นาที)
- RPO สำหรับ Core Banking: ไม่เกิน 15 นาที (Near-zero)
- รายงาน BOT: แจ้งเหตุ Disruption ภายใน 4 ชม.
PDPA — กฎหมายคุ้มครองข้อมูลส่วนบุคคล
PDPA (พ.ร.บ.คุ้มครองข้อมูลส่วนบุคคล) กำหนดให้องค์กรต้อง:
- มีมาตรการรักษาความปลอดภัย: ป้องกันข้อมูลส่วนบุคคลจาก Unauthorized access
- แจ้ง Data Breach: แจ้ง สคส. ภายใน 72 ชม. เมื่อเกิดข้อมูลรั่วไหล
- มี Backup: เพื่อกู้คืนข้อมูลส่วนบุคคลได้
- บันทึกกิจกรรม: Log การเข้าถึงข้อมูลส่วนบุคคล
ITSCM Lifecycle
ITSCM ไม่ใช่โปรเจคที่ทำครั้งเดียวจบ แต่เป็น Lifecycle ที่ทำซ้ำ อย่างต่อเนื่อง:
- Plan (วางแผน): ทำ BIA, Risk Assessment, กำหนด RPO/RTO, เลือก Strategy (Cold/Warm/Hot), จัดงบประมาณ, กำหนดบทบาทหน้าที่
- Implement (นำไปใช้): จัดหา DR Site, Setup Infrastructure, ติดตั้ง Backup/Replication, สร้าง Runbook, ฝึกอบรมทีม
- Test (ทดสอบ): ทดสอบตามระดับ (Tabletop, Walkthrough, Full Simulation), บันทึกผล, ระบุปัญหา
- Improve (ปรับปรุง): แก้ไขปัญหาที่พบจากการทดสอบ, อัพเดทแผนเมื่อมีระบบใหม่, Review ทุก Quarter, รายงานผู้บริหาร
Supplier Continuity — ความต่อเนื่องของ Supplier
องค์กรไม่ได้ทำทุกอย่างเอง ต้องพึ่งพา Supplier ภายนอก ซึ่ง Supplier ก็มีความเสี่ยงเช่นกัน:
- ISP: ใช้ ISP อย่างน้อย 2 ราย จาก 2 เส้นทาง (Diverse routing)
- Cloud Provider: มีแผน Migration ไป Provider อื่นได้ ถ้าจำเป็น
- SaaS: ตรวจสอบ SLA ของ SaaS ที่ใช้ (Office 365, Salesforce, SAP) มีแผนสำรองถ้า SaaS ล่ม
- Hardware Vendor: มี Support contract ที่ระบุเวลาซ่อม/เปลี่ยนชิ้นส่วน (4 ชม., Next Business Day)
- Outsource Team: ทีม Outsource มีแผน BCP ของตัวเองหรือไม่ ตรวจสอบใน Contract
People Continuity — ความต่อเนื่องของคน
ระบบ IT ทำงานด้วยคน ถ้าคนสำคัญไม่อยู่ ระบบก็กู้คืนไม่ได้:
Cross-Training
- ทุกระบบต้องมีคนดูแลอย่างน้อย 2 คน: Primary + Backup admin
- Knowledge sharing: จัด Session แบ่งปันความรู้เป็นประจำ
- Documentation: เขียน Runbook ที่คนอื่นทำตามได้ (Step-by-step)
- Rotation: สลับหน้าที่ทุก Quarter เพื่อให้ทุกคนรู้ทุกระบบ
Succession Planning
- Key Person Risk: ระบุคนที่ถ้าหายไป จะกระทบมากที่สุด
- Succession Plan: ผู้สืบทอดที่พร้อมรับหน้าที่ภายใน 24 ชม.
- External Support: มี Vendor/Consultant สำรองที่สามารถเข้ามาช่วยได้
บทเรียนจาก COVID-19 สำหรับ ITSCM
COVID-19 เป็น Stress Test ที่ใหญ่ที่สุดของ ITSCM ทั่วโลก สิ่งที่เราเรียนรู้:
- Work from Home ต้องพร้อม: VPN, Remote Desktop, Cloud applications, Video Conferencing ต้องรองรับพนักงานทั้งหมดได้ ไม่ใช่แค่ 10-20%
- VPN Capacity: หลายองค์กร VPN รองรับได้แค่ 50 คนพร้อมกัน แต่มีพนักงาน 500 คนต้อง WFH ต้อง Scale ได้เร็ว
- BYOD Security: พนักงานใช้คอมพิวเตอร์ส่วนตัว ความปลอดภัยต่ำ ต้องมี MDM หรือ Virtual Desktop
- Cloud-first ได้เปรียบ: องค์กรที่ใช้ Cloud-based applications (Office 365, Google Workspace) ปรับตัวได้เร็วกว่าองค์กรที่ใช้ On-premises ทั้งหมด
- Supply Chain Disruption: Hardware ขาดตลาด ส่งช้า 3-6 เดือน ต้องมี Stock สำรอง หรือใช้ Cloud ทดแทน
- Mental Health: ทีม IT ทำงานหนักมากระหว่าง COVID ต้องดูแลสุขภาพจิตทีม ป้องกัน Burnout
- Pandemic Plan: ต้องมี Pandemic-specific plan แยกจาก Disaster plan ทั่วไป เพราะ Pandemic ใช้เวลานาน (เดือน-ปี) ไม่ใช่ชั่วโมง-วัน
ITSCM Maturity Model
| Level | ระดับ | ลักษณะ |
|---|---|---|
| Level 1 | Initial | ไม่มีแผน ITSCM อาศัยความรู้ของบุคคล |
| Level 2 | Repeatable | มีแผนเบื้องต้น มี Backup แต่ยังไม่ได้ทดสอบ |
| Level 3 | Defined | มีแผนที่ครบถ้วน มี DR Site ทดสอบเป็นประจำ |
| Level 4 | Managed | มี Metrics วัดผล RTO/RPO จริง ปรับปรุงต่อเนื่อง |
| Level 5 | Optimized | Automated failover, Chaos Engineering, ทดสอบ DR ทุกเดือน |
สรุป — เริ่มต้น ITSCM สำหรับองค์กรของคุณ
IT Service Continuity Management ไม่ใช่ทางเลือก แต่เป็น สิ่งจำเป็น สำหรับทุกองค์กรในปี 2026 เริ่มต้นด้วยการทำ BIA เพื่อรู้ว่า Service ไหนสำคัญที่สุด กำหนด RPO/RTO ที่เหมาะสม เลือก Continuity strategy ตามงบประมาณ และ ทดสอบแผนอย่างสม่ำเสมอ
สิ่งที่สำคัญที่สุดคือ แผนที่ดีที่สุดคือ แผนที่ถูกทดสอบแล้ว แผนที่ไม่เคยทดสอบเท่ากับไม่มีแผน ทำ Tabletop Exercise ทุก Quarter และ Full Simulation ปีละ 1 ครั้ง จะช่วยให้องค์กรพร้อมรับมือกับ Disaster ได้อย่างมั่นใจ