Trong ứng dụng này, bạn tìm thấy các khóa học + bài tập + chỉnh sửa chi tiết về Người phục vụ dữ liệu và Khai thác dữ liệu
"Kho dữ liệu" đầu tiên là gì? :
Đây là một loại cơ sở dữ liệu chứa một lượng dữ liệu khổng lồ để giúp đưa ra quyết định trong tổ chức. Loại cơ sở dữ liệu này được đặc trưng bởi sự phù hợp của cấu trúc bên trong của nó với những gì người dùng cần từ các chỉ số và trục phân tích trong cái được gọi là mô hình ngôi sao và các ứng dụng của nó: các hệ thống hỗ trợ quyết định và khai thác dữ liệu.
Kho dữ liệu thường chứa dữ liệu lịch sử được lấy và trích xuất từ dữ liệu trong cơ sở dữ liệu thông thường được sử dụng trong các ứng dụng có nhiều hoạt động nhập và cập nhật và kho dữ liệu cũng có thể chứa dữ liệu từ các nguồn khác như tệp văn bản và các tài liệu khác.
"Khai thác dữ liệu" là gì? :
Đây là một tìm kiếm bằng máy tính và thủ công để tìm hiểu kiến thức về dữ liệu mà không có giả thuyết sơ bộ về kiến thức này có thể là gì. Khai thác dữ liệu cũng được định nghĩa là quá trình phân tích một lượng dữ liệu (thường là một lượng lớn), để tìm mối quan hệ logic tóm tắt dữ liệu theo cách mới dễ hiểu và hữu ích cho chủ sở hữu dữ liệu . Các mô hình của hoàng tử được gọi là mối quan hệ và dữ liệu tóm tắt thu được từ khai thác dữ liệu. Khai thác dữ liệu thường xử lý dữ liệu thu được cho mục đích khác với khai thác dữ liệu (ví dụ: cơ sở dữ liệu giao dịch trong ngân hàng), có nghĩa là phương pháp khai thác dữ liệu không ảnh hưởng đến cách thu thập dữ liệu. Đây là một trong những lĩnh vực khai thác dữ liệu khác với thống kê và vì lý do này, quy trình khai thác dữ liệu được gọi là quy trình thống kê thứ cấp. Định nghĩa cũng chỉ ra rằng lượng dữ liệu nói chung là lớn, nhưng nếu lượng dữ liệu nhỏ, tốt nhất nên sử dụng các phương pháp thống kê thông thường để phân tích nó.
Khi xử lý một khối lượng dữ liệu lớn, các vấn đề mới nảy sinh như cách xác định các điểm khác biệt trong dữ liệu, cách phân tích dữ liệu trong thời gian hợp lý và cách quyết định xem mối quan hệ rõ ràng có phản ánh thực tế về bản chất của dữ liệu hay không. . Thông thường, dữ liệu được trích xuất là một phần của tập dữ liệu, trong đó mục tiêu thường là tổng quát hóa kết quả cho tất cả dữ liệu (ví dụ: phân tích dữ liệu hiện tại của người tiêu dùng sản phẩm để dự đoán nhu cầu trong tương lai người tiêu dùng). Một trong những mục tiêu của khai thác dữ liệu cũng là giảm hoặc nén một lượng lớn dữ liệu để thể hiện dữ liệu đơn giản mà không cần khái quát hóa.