Giới thiệu tổng quan về data warehouse
Giới thiệu chung
Chắc hẳn chúng ta những người làm về ngành công nghệ thông tin thường xuyên phải làm việc tiếp xúc với dữ liệu dù nhiều hay ít, kể cả việc bạn lập trình ra một trang web, một ứng dụng hay hệ thống to nhỏ gì thì chúng ta vẫn phải thao tác đến dữ liệu VD: lưu dữ liệu, thêm sửa , xóa thông tin trong bảng của cơ sở dữ liệu…
Việc lưu trữ truy xuất dữ liệu luôn đóng vai trò đặc biệt quan trọng đến giá trị, hiệu suất trong sản phẩm công nghệ, những vấn đề về dữ liệu (đặc biệt là bảo mật dữ liệu) luôn là vấn đề được quan tâm hàng trong một dự án
Vì vậy việc chọn một nơi để lưu trữ cũng như để thao tác dữ liệu một cách an toàn và hiệu quả sẽ là bước khởi đầu để phát triển dự án đi đến thành công
Ở trong hầu hết các lĩnh vực đời sống sản xuất kinh doanh thì khối lượng dữ liệu cần phải lưu trữ vô cùng lớn buộc cho các doanh nghiệp thường sẽ lựa chọn các data warehouse (kho dữ liệu) để có thể quản lý một lượng dữ liệu khổng lồ như vậy
Hiện nay có rất nhiều dịch vụ cung cấp các kho dữ liệu (data warehouse) như: Amazon Redshift, IBM V2, Treasure Data, BigQuery, SnowFlake…
1.Data warehouse là gì?
- Data warehouse là một kho kỹ thuật số chứa dữ liệu,dữ liệu được tập hợp lưu trữ một cách có tổ chức
- Dữ liệu đầu vào có thể là tệp csv, bảng tính, cơ sở dữ liệu quan hệ hoặc không quan hệ, ngoài ra chúng ta cũng có thể lấy dữ liệu bằng API
2.Nên tự xây dựng 1 datawarehouse hay thuê từ bên ngoài?
Trong doanh nghiệp khi chúng ta có 1 lượng dữ liệu lớn cần lưu trữ chúng ta cần 1 data warehouse (nơi lưu trữ dữ liệu) chúng ta có hai lựa chọn phổ biến: xây dựng data warehouse hoặc thuê
Nhưng việc xây dựng data warehouse rất tốn kém chúng ta cần nhiều nỗ lực và công sức
→ Nhìn chung để xây dựng 1 data warehouse chúng ta phải trải qua các bước sau:
Phân tích yêu cầu → Thiết kế mô hình dữ liệu → Thiết kế tầng vật lý → Thiết kế trích xuất chuyển đổi và nạp số liệu (Extract → Transform → Loading) → Xây dựng hệ thống báo cáo, quản trị hệ thống → Cài đặt,triển khai và quản trị dữ liệu
→ Có thể mất hàng tháng để xây dựng một warehouse, chắc chắn là rất nhiều thời gian trước khi có warehouse để có thể sử dụng được
Và chúng ta vẫn có rủi ro: điều gì sẽ xảy ra nếu chúng ta gặp sự cố giữa chừng ?
VD: Có thể phiên bản linux không tương thích,hay chúng ta cần phần cứng cụ thể để bật data warehouse?
Để triển khai các giai đoạn trên chúng ta cần không gian vật lý, máy móc và các cơ sở hạ tầng khác trong trung tâm dữ liệu, tất nhiên chúng ta cần thuê các chuyên gia để xây dựng một data warehouse phù hợp
Vì vậy, đến lựa chọn thứ hai, chúng ta sẽ thuê data warehouse ở bên ngoài và việc sử dụng data warehouse bên ngoài rẻ hơn so với xây dựng nó
3.Những đặc điểm nổi bật của data warehouse
Có ba đặc điểm nổi bật của kho dữ liệu:
- Tích hợp: Cách dữ liệu được trích xuất và chuyển đổi là thống nhất, bất kể nguồn gốc
- Biến thể theo thời gian: Dữ liệu được sắp xếp theo các khoảng thời gian (hàng tuần, hàng tháng, hàng năm, v.v.)
- Không biến động: Kho dữ liệu không được cập nhật theo thời gian thực. Nó được cập nhật định kỳ thông qua việc tải lên dữ liệu, bảo vệ dữ liệu khỏi ảnh hưởng của sự thay đổi nhất thời
→Việc sử dụng kho dữ liệu giúp việc tạo báo cáo, chạy các truy vấn đột xuất và trích xuất các luồng dữ liệu trở nên đơn giản
→Sức mạnh lớn nhất của data warehouse là đưa thông tin và cái nhìn sâu sắc có liên quan đến tay những người ra quyết định một cách kịp thời. Điều này cho phép các doanh nghiệp bắt kịp với tốc độ thay đổi, cạnh tranh cao và chuyển đổi kỹ thuật số
4.Quy trình xử lý luồng dữ liệu trong data warehouse
Trước khi tiến hành lưu trữ dữ liệu vào data warehouse ta cần hiểu cách thức hoạt động cơ bản của luồng dữ liệu
Có 6 bước phổ biến trong xử lý luồng dữ liệu trong data warehouse:
Bước đầu tiên là nhập dữ liệu hoặc lấy dữ liệu từ nguồn.
Thứ 2, chuẩn bị dữ liệu, loại bỏ dữ liệu xấu và chuyển đổi dữ liệu
Thứ 3, lưu dữ liệu vào bộ nhớ
Thứ 4, trình bày thông tin chi tiết về dữ liệu đó vào biểu diễn trực quan
Thứ 5, phân tích dữ liệu được lưu trữ để rút ra thông tin chi tiết
Và cuối cùng,cung cấp chia sẻ thông tin, kết quả cuối cùng thu được sau quá trình phân tích dữ liệu
Lời kết
Qua những phần trên , chúng ta có một cái nhìn cụ thể về data ware house . Phần tiếp theo sẽ là phần giới thiệu về BigQuery nằm top 3 data warehouse được sử dụng phổ biến hiện nay và sắp tới tập đoàn Septeni có cuộc chuyển giao từ Treasure Data → BigQuery hoặc có thể là SnowFlake. Vậy tại sao BigQuery nó lại được ưa chuộng như vậy có những đặc điểm lợi thế nào so với các data warehouse khác mời các bạn đón đọc phần 2 trong series blog của nhóm.