QTSC – Hành trình từng bước “lên mây” cùng HPT

Nguyễn Trụ – P. GP Hệ thống HCM, HSI


“Chập chững bước vào đời với hai bàn tay trắng, chỉ có những khát khao theo tôi mỗi ngày” là câu đầu  trong ca khúc Ước mơ tôi của nhạc sĩ Nguyễn Hoàng Duy. Đó cũng chính là tâm trạng của tôi khi được sếp Nam LNH giao nhiệm vụ cùng với anh Qua PLA triển khai dự án xây dựng hệ thống Điện toán đám mây (Cloud) mới cho QTSC vào cuối tháng 6 năm 2019. Đọc đến đây, chắc có lẽ nhiều anh, chị sẽ thắc mắc tại sao tôi vào HPT từ tháng 8/2019, nhưng lại bắt đầu dự án này từ cuối tháng 6/2019?… Có điều gì đó vô lý nhỉ? Hoặc có thể do tôi nhớ sai mốc thời gian chăng? Lời giải đáp nằm ở cuối bài viết này, mọi người cố gắng đọc hết nhé!

Tôi sẽ tiếp tục mạch cảm xúc của mình, những ngày đầu tiên làm việc tại HPT và dự án này hiển nhiên cũng là dự án đầu tiên mà tôi được tham gia tại HPT. Anh Qua PLA là Trưởng dự án (PM), cũng là ban cố vấn thường trực mà tôi thường hỏi ý kiến và thảo luận. Nghe anh kể lại, dự án được bắt đầu từ 3 năm trước và HPT trải qua nhiều lần hội họp, trao đổi, thảo luận về giải pháp với sự cạnh tranh khốc liệt từ các SI nổi tiếng khác; đề xuất các giải pháp chuyên sâu của nhiều hãng khác nhau như NetApp, VMware, đặc biệt là Cisco; có sự tham gia thảo luận của đội Cisco Advanced Services1…Từ cuối tháng 6 đến đầu tháng 7 năm 2019, được sự chấp thuận của QTSC, HPT đã thuê 3 máy chủ Dell R630, đặt máy chủ tại Datacenter QTSC phục vụ cho việc cài đặt bản demo hệ thống Cloud mới. Anh Qua cùng với sự hỗ trợ của bộ phận quản lý dự án phía khách hàng đã hoàn tất việc cài đặt các thành phần cơ bản. Công việc của tôi được anh Qua PLA giao phó là kết nối các thành phần lại với nhau tạo thành một thể thống nhất và xây dựng 4 mẫu template, phục vụ cho việc cung cấp dịch vụ hạ tầng, gọi tắt là IaaS; PhucNM phụ trách việc triển khai SRM (VMware vCenter Site Recovery Manager) cho DC-DR QTSC.


Chia sẻ về giải pháp mà chúng tôi đã lựa chọn xây dựng cho QTSC, giải pháp sử dụng công nghệ ảo hóa VMware với sự kết hợp của các bộ sản phẩm huyền thoại như vSphere2, vCenter, vRA4, NSX5, SRM6tạo nên một hệ thống Cloud đa nhiệm, linh hoạt, khả năng đáp ứng và tính sẵn sàng cao. VRA (vRealize Automation) và NSX (Network Security Virtualization Platform) là 2 bộ sản phẩm mới của VMware, bản thân tôi chưa từng được tiếp cận và hoàn toàn chưa có kinh nghiệm trong việc triển khai. Vì vậy, ngoài việc xây dựng bản demo tại QTSC, anh Qua PLA cũng đã phải cài đặt hệ thống lab với quy mô nhỏ hơn tại trụ sở chính HPT quận 9. Việc này giúp mô phỏng lại giải pháp để tôi thử nghiệm, kiểm tra và phát triển các thành phần nhỏ trong hệ thống Cloud mới nói trên, trước khi triển khai thực tế trên bản demo tại QTSC. Tôi vẫn còn nhớ rất rõ con số 119, đó chính là số lần tôi thực hiện triển khai (deploy) thử bản thiết kế (blueprint) đầu tiên7của template 1.  Số 119 là con số biết nói đối với tôi. Nhiều lần deploy phát sinh lỗi, tôi tưởng chừng như muốn từ bỏ, do bế tắc trong việc tìm kiếm hướng xử lý mới, mở hàng chục tab Chrome cũng chỉ để nghiên cứu và tìm ra chỗ sai của mình, nhận được nhiều góp ý của các đồng nghiệp nhưng cũng không có hướng xử lý tốt hơn. Rồi điều gì đến cũng đã đến, câu nói từ thời xưa “cần cù bù thông minh” nay mới ứng nghiệm, chỉ một vài điều chỉnh nhỏ trong kịch bản (script) và thay đổi quy trình vận hành (workflow), tôi đã vượt qua thử thách đầu tiên ở lần deploy thứ 119. Ghi chép cẩn thận từng bước thực hiện, tôi tự tin triển khai blueprint này lên bản demo của QTSC. Tuy quá trình triển khai có phát sinh một vài lỗi nhỏ do hệ thống mạng (network) và tường lửa (firewall) nhưng blueprint đã hoạt động tốt với sự hỗ trợ nhiệt tình của đội dự án phía QTSC.

Sau khi hoàn tất blueprint đầu tiên, tôi tiến hành chạy demo một vài tính năng quản lý của vRA, giải thích cách thức hoạt động của các dịch vụ, đặc biệt hơn cả là giúp team quản trị hệ thống của QTSC thấy được chỉ với một cú click chuột đơn giản, chúng tôi có thể tạo ra nhiều máy chủ ảo một cách tự động, nhanh chóng với độ chính xác và tương đồng tuyệt đối. Nhận thấy sự tương thích, khả năng đáp ứng và tính phù hợp của giải pháp, sáng ngày 23 tháng 8 năm 2019, một cuộc họp quan trọng với QTSC được diễn ra với sự tham gia của anh Quyền N, chị Linh DVT, anh Qua PLA, Phúc NM và tôi thuộc đội HPT. Nội dung chính của buổi họp là trao đổi chuyên sâu về kiến trúc giải pháp Cloud mới, thảo luận về khả năng đáp ứng và tính tương thích của giải pháp khi áp dụng vào hệ thống QTSC. Với sự nỗ lực chứng minh quan điểm và khả năng hùng biện tài tình của anh Qua PLA, cộng thêm những góp ý sâu sắc từ anh Quyền N và chị Linh DVT, HTP đã có cho mình bản hợp đồng xây dựng PoC giải pháp Cloud mới – được QTSC ký kết  triển khai vào những tháng cuối năm 2019. Ngoài các điều khoản triển khai ghi trên hợp đồng, QTSC còn mong muốn HPT là đơn vị chịu trách nhiệm tư vấn, hỗ trợ xây dựng hệ thống DC-DR sao cho phù hợp với hạ tầng QTSC đang hoạt động trong giai đoạn hiện tại. Đây là điều đáng tự hào về những nỗ lực của cả tập thể đội dự án HPT với nhiều vai trò cùng chung tay thuyết phục khách hàng.

Một trong nhiều cuộc họp dự án, những cuộc họp vỉa hè chúng tôi không kịp ghi hình

QTSC quyết định đầu tư 3 máy chủ Cisco C240M5 mới thay thế cho 3 máy chủ Dell R630 mà chúng tôi đã sử dụng để triển khai hệ thống Cloud phiên bản demo, nhằm tăng tài nguyên, khả năng xử lý và độ ổn định cho việc chuyển đổi hệ thống từ phiên bản demo lên phiên bản beta. Quá trình chuyển đổi và chuẩn hóa dịch vụ được thực hiện một cách trơn tru, hoàn hảo mà không có bất kỳ sự cố nào xảy ra. Ở phiên bản beta QTSC đã kết nối với hệ thống production của họ với mục đích kiểm tra độ tương thích và khả năng đáp ứng của hệ thống khi hoạt động trên môi trường production. Không dừng lại ở đó, QTSC đã mạnh dạn cung cấp dịch vụ trên hệ thống Cloud beta như các sản phẩm thương mại mà họ đang cung cấp (trên hệ thống production). Điều này gây ra rất nhiều khó khăn và thách thức đối với đội triển khai HPT, chúng tôi vừa phải nghiên cứu triển khai, vừa phải kiểm tra nhiều lần, lên kế hoạch thực hiện nhằm đảm bảo quá trình triển khai không gây downtime hoặc hạn chế tối đa ảnh hưởng tới hoạt động của hệ thống. Nhiều lúc tôi cảm thấy khó hiểu về quyết định này nhưng tôi tự trấn an mình: “Có lẽ, QTSC đang thử thách chúng tôi để đánh giá năng lực HPT, hoặc cũng có thể họ tin tưởng chúng tôi đến mức đặt niềm tin hoàn toàn vào chúng tôi.”

“Vàng thì thử lửa, thử than
Chuông kia thử tiếng, người ngoan thử lời”

Tôi tiếp tục thực hiện nhiệm vụ của mình, vùi đầu vào blueprint kế tiếp8 của template 1. Yêu cầu lần này cũng tương tự như blueprint đầu tiên, nhưng khác hệ điều hành và cách cài đặt. Nắm bắt được cơ chế hoạt động của hệ thống, cộng thêm kinh nghiệm triển khai blueprint đầu tiên, tôi nhanh chóng hoàn tất blueprint này chỉ trong 1 tuần làm việc. Và cũng không quá 1 tuần để tôi hoàn tất blueprint thứ 39 thuộc template 2. Song song với tôi, PhúcNM cùng với khách hang xây dựng hệ thống demo DR site tại Datacenter QTSC, là môi trường DR giả lập cho việc triển khai SRM. Phúc NM cũng gặp một số khó khăn trong quá trình triển khai, đặt biệt là vấn đề đồng bộ thời gian với máy chủ của QTSC. Tuy nhiên với sự hỗ trợ nhiệt tình của nhóm System QTSC, vấn đề cũng đã được giải quyết một cách nhanh chóng. Dường như, mọi thứ dần trở nên đơn giản hơn với tôi và Phúc NM, cho đến khi chúng tôi đụng đến Network, chính xác hơn là NSX. Phúc NM cần NSX để hoàn tất triển khai SRM. Còn tôi cần NSX để có thể làm tiếp các blueprint còn lại của template 3 và 4.

Hai giờ chiều ngày 18 tháng 11 năm 2019, đội triển khai HPT và nhóm System QTSC ngồi lại với nhau, họp bàn vấn đề triển khai NSX và thống nhất phương án triển khai SRM. Trong cuộc họp, khách hàng rất không hài lòng vì chúng tôi chưa tìm được giải pháp thích hợp cho network DC-DR. Team QTSC cho chúng tôi 10 ngày để chuẩn bị giải pháp và demo cụ thể. Kết thúc buổi họp, tâm trạng anh em triển khai ai cũng ủ rũ, nét mặt buồn rầu, bảo nhau: “Thôi về nhà luôn đi, làm gì tầm này nữa, không có tâm trạng làm việc”. Tuy nói vậy nhưng chúng tôi lên lịch họp nội bộ ngay sáng hôm sau tại văn phòng HPT quận 9 để bàn bạc về vấn đề nóng hổi này. Tuy nhiên, một sự cố bất ngờ xảy ra, vợ anh Qua PLA bị tai nạn giao thông, cấp cứu tại bệnh viện Chợ Rẫy. Anh buộc lòng phải nghỉ phép để chăm sóc vợ mình. Chúng tôi tự trấn an và chờ đợi anh quay trở lại với công việc. May mắn thay, 6 giờ tối cùng ngày, anh Qua PLA đã phản hồi cho chúng tôi. Chúng tôi ngay lập tức lên lịch họp khẩn tại quán café trước cổng bệnh viện, lần này có sự tham gia của anh Nam LNH, anh NhậtNM (thánh network HPT). Sau khi trao đổi và thảo luận với nhau, chúng tôi đã tìm ra giải pháp thích hợp cho hạ tầng DC-DR của QTSC.  Nhiệm vụ tiếp theo là tiến hành triển khai thử nghiệm giải pháp này trên hệ thống lab tại HPT, kiểm chứng lại giải pháp một lần nữa, để chắc chắn rằng chúng có thể giải quyết triệt để vấn đề mà QTSC đang gặp phải. Sau khi tự tin với kết quả thử nghiệm, ngày 28 tháng 11 năm 2019 chúng tôi cùng QTSC đã ngồi lại thảo luận và thống nhất phương án triển khai network DC-DR. Thở phào nhẹ nhõm, tôi nghĩ bụng, thật sự khi đi vào thực tế triển khai chắc lúc nào cũng có những công việc không có trong hạng mục hợp đồng, không có trong SOW nhưng chúng tôi không thể không “sống chết” để giải quyết.

Sau hôm đó, tôi được anh Qua PLA giao thêm nhiệm vụ mới là triển khai NSX cho DC-DR QTSC, lại thêm một nhiệm vụ vượt quá tầm hiểu biết của mình. Lúc đó, trong đầu tôi hoàn toàn trống rỗng, không có bất kỳ kiến thức nào về NSX, đã vậy kinh nghiệm network của tôi còn thuộc loại gà mờ. Thế rồi, tôi tự nhủ với bản thân rằng, nếu không làm được thì liệu tôi có còn cơ hội được làm việc tại HPT nữa không? Nghĩ như vậy nên tôi lao đầu vào làm việc, nghiên cứu ngày đêm, đọc từ tài liệu phổ thông tới tài liệu của đối tác, xem nát cả kênh youtube về NSX. Nhưng đến khi bắt tay vào triển khai thực tế trên hạ tầng QTSC tôi mới cảm nhận được “ngày thứ 6 đen tối” là như thế nào. Hệ thống network hết lớp này đến lớp khác xếp chồng lên nhau, với nhiều rule và policy nằm rải rác trên mỗi thiết bị mạng. Để “thông” được mạng là cả một vấn đề lớn, điều mà tôi sẽ không bao giờ làm được nếu không có sự hỗ trợ nhiệt tình từ phía QTSC. Anh thuộc team QTSC hỗ trợ tôi triển khai rất giỏi về network và cũng là người nắm toàn bộ hệ thống network tại QTSC, dù chưa có nhiều kinh nghiệm triển khai NSX. Chúng tôi bổ trợ cho nhau, cùng nhau triển khai, nghiên cứu nhiều cách thức. Nhiều hôm chúng tôi làm việc quên cả thời gian, giật mình vì đói bụng thì đã 8h tối. Hai anh em rủ nhau đi làm một “cặp” rồi mới về nhà. Cứ thế công việc tiếp diễn, nhiều lúc chúng tôi bế tắc, không biết lý do tại sao làm đúng mà network không thông. Chúng tôi tìm đến đội hỗ trợ NSX của VMware, rồi 1 ngày, 2 ngày, đến 1 tuần, 2 tuần trôi qua trong vô vọng, chúng tôi chỉ học lỏm được các cách kiểm tra và tracking lỗi từ đối tác. Nghi ngờ chính sản phẩm của VMware có vấn đề10, tôi đề xuất phương án mới11. Đối tác đã đồng ý chạy thử nghiệm phương án mới mà tôi đề xuất, thật không giờ rằng, hệ thống đã hoạt động, lỗi đã được xử lý. Chính đối tác đã chứng kiến và gửi mail xác nhận vấn đề, họ sẽ kiểm tra lại trường hợp này và cân nhắc điều chỉnh ở phiên bản mới. Cuối cùng, chúng tôi cũng đã tích hợp NSX vào hệ thống mạng DC-DR12 của QTSC thành công.

Sau khi tích hợp thành công NSX vào hệ thống, tôi dễ dàng hoàn tất 2 blueprint kế tiếp13 chỉ trong 1 tuần làm việc. Phúc NM cũng đã nhanh chóng hoàn tất SRM. Đầu tháng 3, mọi thứ dường như đã hoàn tất, tài liệu được tôi và Phúc NM viết một cách chi tiết, chỉn chu và đầy đủ. Các kịch bản UAT cũng đã được thực hiện và thành công mỹ mãn. Tuy nhiên, người quản trị mạng phải thực hiện nhiều thao tác cấu hình network khi chuyển site, điều này khá bất tiện và tiềm ẩn nguy cơ thao tác nhầm lẫn. Nắm bắt được vấn đề này, QTSC đã đề nghị một buổi họp tham khảo ý kiến chuyên gia Network của HPT. Ngày 6 tháng 3 năm 2020, một cuộc họp thảo luận về việc tối ưu hóa mô hình network khi chuyển site14 và bàn giao hệ thống đã diễn ra trong không khí vui vẻ và cởi mở, đó cũng chính là ngày chúng tôi kết thúc dự án QTSC, một dự án để đời mà chúng tôi đã cố gắng hết sức để hoàn thành. Hơn hết, qua dự án chúng tôi đã chinh phục được sự tin tưởng từ phía khách hàng.

Ngày chúng tôi được vinh danh là Gương mặt tiêu biểu của công ty, cộng với tổng kết khen thưởng dự án QTSC, nghe được những lời chia sẻ chân tình từ anh Quyền N, anh Nam LNH, tôi mới hiểu hết được tầm quan trọng của dự án này. Chúng ta đã xây dựng cho QTSC một hệ thống Cloud đa nhiệm15, linh hoạt, khả năng đáp ứng và tính sẵn sàng cao. Bên cạnh đó, chúng ta còn giúp QTSC chuẩn hóa hệ thống mạng, tích hợp hệ thống khôi phục sau thảm họa, góp phần xây dựng giải pháp DC-DR toàn diện. Sự thành công của dự án đã phá tan bức tường vô hình, tồn tại trong suốt những năm vừa qua cản trở cơ hội hợp tác giữa HPT và QTSC. Và giờ đây, chúng ta đã có được niềm tin và sự tín nhiệm của QTSC, mở ra những cơ hội mới kèm theo những thách thức mới. Đối với QTSC, họ cũng đã có những bản hợp đồng dịch vụ đầu tiên trên nền tảng hệ thống Cloud mới mà chúng tôi đã triển khai; giải pháp DC-DR của họ cũng đã được Sở Thông tin truyền thông TP.HCM khen ngợi, tán thành. Dự kiến sẽ có những bản hợp đồng thuê dịch vụ DC-DR của họ tiếp tục được ký kết trong năm nay.

Những gì mà tôi đúc kết được sau dự án này, không chỉ là kiến thức chuyên môn, kinh nghiệm triển khai giải pháp, mà quan trọng hơn hết chính là sự gắn kết, tinh thần đồng đội, dám đương đầu, kiên trì vượt qua khó khăn, thử thách. “Chặng đường dài ngàn dặm luôn khởi đầu từ một bước chân” – Hy vọng chúng ta, những người HPT vẫn luôn giữ vững tinh thần: “vượt khó, sáng tạo, quyết liệt, hành động” (*) trên mọi chặng đường sắp tới. Tôi xin kết thúc ký sự “QTSC – hành trình từng bước “lên mây” cùng HPT” tại đây. Cảm ơn bạn đọc đã cố gắng dõi theo mạch cảm xúc của tôi từ đầu cho tới những dòng cuối cùng này! Nếu bạn đọc vẫn còn thắc mắc về những câu hỏi ở đầu bài, vui lòng tham khảo tại sách “25 năm HPT – Hành Trình & Ước mơ” trang 278 để biết thêm thông tin chi tiết.

(*) Slogan năm 2020 của công ty HPT

Team dự án tập hợp sức mạnh tổng lực để hoàn thành dự án


(1) Cisco Advanced Services là đội chuyên gia có trình độ kỹ thuật cao nhất của Cisco hoạt động ở khắp mọi nơi nới triên toàn cầu.

(2) VMware vSphere là một nền tảng ảo hóa cho phép xây dựng hạ tầng điện toán đám mây. VMware vSphere bao gồm một bộ các ứng dụng ảo hóa dành cho doanh nghiệp, trong đó nền tảng là ESXi. Hiểu một cách đơn giản hơn, VMware vSphere là bộ sản phẩm của VMware, dùng để phục vụ nhu cầu ảo hóa hệ thống.

(3) Vmware vCenter Server là một ứng dụng về cơ sở dữ liệu cho phép triển khai, quản lý, giám sát, vận hành và bảo mật cho cơ sở hạ tầng ảo một cách dễ dàng. Hay nói cách khác, Vmware vCenter Server chịu trách nhiệm quản lý, vận hành các máy chủ ESXi.

(4) VMware vRealize Automation là một nền tảng cho phép chúng ta xây dựng môi trường tự động hóa cơ sở hạ tầng. VMware vRealize Automation, giúp tăng khả năng xử lý và hiệu quả công việc nhờ vào khả năng tự động hóa, giảm sự phức tạp của môi trường CNTT, hợp lý hóa các quy trình CNTT và cung cấp môi trường DevOps tự động hóa tới người dùng.

(5) VMware NSX là nền tảng ảo hóa mạng. Network Security Virtualization Platform là 1 bộ chi tiết các thiết bị ảo như Switch, Router, Firewall, Balancer..v..v.  cung cấp dịch vụ mạng (thiết bị mạng) từ lớp 2 tới lớp 7.

(6) VMware vCenter Site Recovery Manager là bộ sản phẩm quản trị sao lưu và phục hồi sau thảm họa (Disaster Recovery). Bộ sản phẩm này của VMware đáp ứng đầy đủ các yêu cầu về sự đơn giản và cơ chế bảo vệ một cách ổn định khi xảy ra thảm họa đối với hệ thống ứng dụng ảo hóa. VMware SRM cung cấp cơ chế quản lý tập trung các kế hoạch phục hồi (Recovery Plans), thử nghiệm sự cố thảm họa cùng các tiến trình tự động hóa chuyển đổi và phục hồi các site.

(7) Blueprint 1 của template 1: “Tạo VM Linux CentOS 7 bằng Kickstart, bao gồm customize workflow trong vRO nhằm cho phép người dùng cuối set root password từ giao diện vRA trước khi hoàn tất khởi tạo VM.”

(8) Blueprint 2 của template 1: ”Tạo VM Windows 2019 bằng WIM, bao gồm customize workflow trong vRO nhằm cho phép người dùng cuối set administrator password từ giao diện vRA trước khi hoàn tất khởi tạo VM.”

(9) Blueprint 1 của template 2: “Tạo các gói cài đặt, cấu hình software như: IIS + ASP.NET, Apache + PHP, Nginx + PHP, MSSQL + SSMS, Mysql, Redis, Memcache,… sử dụng cho việc tích hợp vào VM khi cần.”

(10) Vấn đề xảy ra khi sử dụng VM ESG làm thiết bị router ảo, nhằm mục đích định tuyến traffic cho VTEP giữa các máy chủ vật lý ESXi đặt tại DC và DR.

(11) Phương án mới: Sử dụng thiết bị router vật lý để thay thế VM ESG.

(12) Tích hợp thành công mô hình NSX DC-DR Cross-vCenter
. Sử dụng Universal Transport Zone và các thành phần thiết bị mạng ảo để liên kết 2 hệ thống mạng riêng biệt giữa DC và DR trở thành một hệ thống mạng duy nhất.

(13) Blueprint 1 của template 3: “Xây dựng mô hình frontend + backend với 2 lớp mạng tách biệt (tích hợp với NSX)”
Blueprint 1 của template 4: “Xây dựng mô hình 3 tier: WEB + APP + DB với 3 lớp mạng tách biệt kết hợp với Load balancer của NSX.”

(14) Tối ưu hóa mô hình network khi chuyển site: Chuyển đổi mô hình mạng từ định tuyến tĩnh (Static route) sang định tuyến động (OSPF).

(15) HPT đã kết hợp nhiều bộ giải pháp của VMware như: Dùng vSphere ESXi để xây dựng nền tảng ảo hóa, các máy chủ ảo hóa được xây dựng này sẽ chụi sự quản lý bới vCenter. vRA kết nối và điều khiển vCenter, với giao diện đơn giản, trực quan, dễ dùng, cộng với khả năng xử lý công việc nhanh chóng và chính xác nhờ vào sức mạnh của việc tự động hóa hạ tầng. vRO cung cấp môi trường cho các quản trị viên lập trình (DevOps) xây dựng lên các kịch bản tự động hóa theo  yêu cầu và mục đích riêng. Hệ thống quản trị cloud được đặt trong các cluster làm gia tăng khả năng đáp ứng. Hơn nữa, NSX ảo hóa hạ tầng mạng, giúp cho việc thay đổi kiến trúc mạng, mô hình dịch vụ, ứng dụng trở lên dễ dàng và linh hoạt hơn. Ngoài ra, NSX còn giúp cho hệ thống SRM hoạt động mượt mà hơn giữa 2 site DC và DR. Góp phần giúp cho hệ thống Cloud và các cịch vụ chạy trên cloud được vững chắc, bảo đảm hơn kể cả khi có thảm họa xảy ra.