Facebook đã cho biết một lỗi trong quá trình bảo trì định kỳ mạng lưới các trung tâm dữ liệu của họ đã gây ra một loạt các sự cố khiến nền tảng của họ bị phá hủy trong hơn 6 giờ vào thứ Hai 4/10.
Trong một bài đăng trên blog được xuất bản vào thứ Ba 5/10, Santosh Janardhan, Phó chủ tịch kỹ thuật, cho biết sự cố ngừng hoạt động toàn cầu khiến hàng tỷ người dùng Facebook, Instagram và WhatsApp mất kết nối đã bắt đầu khi các kỹ sư của công ty đưa ra lệnh vô tình ngắt kết nối các trung tâm dữ liệu của Facebook khỏi phần còn lại của thế giới.
Janardhan mô tả lỗi bắt nguồn từ "xương sống toàn cầu" của công ty về cáp quang và trung tâm dữ liệu.
“Sự cố ngừng hoạt động này được kích hoạt bởi hệ thống quản lý dung lượng mạng đường trục toàn cầu của chúng tôi”, Janardhan viết.
“Xương sống là mạng mà Facebook đã xây dựng để kết nối tất cả các cơ sở máy tính của chúng tôi với nhau, bao gồm hàng chục nghìn dặm cáp quang xuyên toàn cầu và liên kết tất cả các trung tâm dữ liệu của chúng tôi”.
Janardhan cho biết: “Trong một trong những công việc bảo trì định kỳ này, một lệnh được đưa ra với mục đích đánh giá tính khả dụng của dung lượng đường trục toàn cầu.
Công ty cho biết hệ thống của họ được thiết kế để kiểm tra các lệnh nhằm ngăn chặn sai lầm, nhưng công cụ kiểm tra đã gặp lỗi và không thể dừng lệnh gây ra sự cố. Sự cố mất điện đã loại bỏ các công cụ mà các kỹ sư thường sử dụng để điều tra và sửa chữa những sự cố như vậy, khiến nhiệm vụ càng trở nên khó khăn hơn.
Sự cố này là lớn nhất mà Downdetector, một công ty giám sát web, cho biết họ từng thấy.
Facebook khẳng định đó không phải do các hoạt động ác ý gây ra.
Trong khi người dùng mất quyền truy cập vào một trong những ứng dụng nhắn tin phổ biến nhất thế giới - WhatsApp có hơn 2 tỷ người dùng - thì các nhân viên cũng bị chặn khỏi các công cụ nội bộ.
Công ty cho biết họ đã cử một nhóm kỹ sư đến vị trí các trung tâm dữ liệu của mình để cố gắng gỡ lỗi và khởi động lại hệ thống.
Tuy nhiên, công ty đã phải mất thêm thời gian để các kỹ sư bên trong làm việc trên các máy chủ do bảo mật vật lý và hệ thống tại chỗ.
Ngay cả sau khi kết nối mạng được khôi phục với các trung tâm dữ liệu, Facebook cho biết họ lo ngại lưu lượng truy cập tăng cao sẽ khiến các trang web và ứng dụng của họ gặp sự cố.
Sự cố ngừng hoạt động diễn ra trong một tuần khó khăn đối với Facebook, khi Thượng viện Hoa Kỳ tổ chức phiên điều trần với một cựu nhân viên đã tố cáo mạng xã hội này đặt lợi nhuận trước sự an toàn của mọi người, một tuyên bố mà Facebook tranh chấp.