Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu

Trong một cơ sở dữ liệu quan hệ với phụ thuộc hàm cho trước A  b giá trị của thuộc tính

b được xác định duy nhất bởi tập thuộc tính A. Tuy nhiên, qua quá trình truyền dữ liệu, dữ

liệu nhận được đã bị nhiễu và có thể không còn đúng như nguyên bản. Rõ ràng, trên bộ dữ

liệu mới này phụ thuộc hàm A  b không còn đúng nữa. Nói cách khác, nếu chỉ dựa vào

dữ liệu trên tập thuộc tính A chúng ta không thể xác định được chính xác các đối tượng.

Trong bài báo này, chúng tôi sẽ nghiên cứu việc mở rộng tập thuộc tính A thành một tập

cực tiểu A’ chứa A sao cho A' b là phụ thuộc hàm đúng trên cơ cở dữ liệu mới.

pdf 9 trang kimcuc 23840
Bạn đang xem tài liệu "Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu

Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học – Đại học Huế Tập 6, Số 1 (2016) 
1 
MỞ RỘNG PHỤ THUỘC HÀM TRONG CƠ SỞ DỮ LIỆU BỊ NHIỄU 
Hoàng Thị Lan Giao 
Khoa Công nghệ Thông tin, Trường Đại học Khoa học – Đại học Huế 
Email:hlgiao.it@gmail.com 
TÓM TẮT 
Trong một cơ sở dữ liệu quan hệ với phụ thuộc hàm cho trước A b giá trị của thuộc tính 
b được xác định duy nhất bởi tập thuộc tính A. Tuy nhiên, qua quá trình truyền dữ liệu, dữ 
liệu nhận được đã bị nhiễu và có thể không còn đúng như nguyên bản. Rõ ràng, trên bộ dữ 
liệu mới này phụ thuộc hàm A b không còn đúng nữa. Nói cách khác, nếu chỉ dựa vào 
dữ liệu trên tập thuộc tính A chúng ta không thể xác định được chính xác các đối tượng. 
Trong bài báo này, chúng tôi sẽ nghiên cứu việc mở rộng tập thuộc tính A thành một tập 
cực tiểu A’ chứa A sao cho A' b là phụ thuộc hàm đúng trên cơ cở dữ liệu mới. 
Từ khóa: cơ sở dữ liệu quan hệ, phụ thuộc hàm, phụ thuộc hàm bị lỗi. 
1. MỞ ĐẦU 
Giả sử ta có một cơ sở dữ liệu thực gồm m đối tượng và  là tập n thuộc tính, được biểu 
diễn bằng một ma trận Mmxn, khi đó mỗi dòng tương ứng là một bản ghi và không có hai dòng 
giống nhau. Gọi K là họ các khóa cực tiểu. Những dữ liệu này được chuyển dịch thông qua một 
kênh có lỗi, ta ký hiệu M* là ma trận nhận được sau khi dịch chuyển. M và M* khác nhau ít 
nhất là e giá trị trên mỗi dòng. Trong M không có hai dòng giống nhau nhưng trong M* điều 
này không chắc chắn. Chẳng hạn cặp thuộc tính (ten, ho) là một khóa trong cơ sở dữ liệu M và 
ta có hai dòng tương ứng với cặp này là (Trần, Chi) và (Trần, Nhi). Tuy nhiên, khi chuyển dịch 
ta nhận được trong M* hai cặp giá trị này đều là (Trần, Nhi). Khi đó đối tượng cần xác định 
trong M* không duy nhất. 
Có nhiều cách tiếp cận khác nhau, chẳng hạn thuật toán Tane [7]mở rộng các phụ thuộc 
hàm bằng cách đưa ra một sai số chấp nhận được dựa vào tỷ lệ giữa các bộ (đối tượng) đúng với 
phụ thuộc hàm đó và tổng số bộ trong cơ sở dữ liệu. Ý tưởng này cũng được chúng tối mở rộng 
trên cả phụ thuộc đa trị xấp xỉ theo tiếp cận tập thô bằng cách xây dựng ma trận phụ thuộc [5,6]. 
Mục đích của nghiên cứu này theo hướng tiếp cận khác, tìm cách bổ sung thuộc tính 
vào khóa để chúng ta có thể xác định một cách duy nhất đối tượng cần tìm trong M*. Vấn đề đặt 
ra là biết cấu trúc của M và chỉ nhận dữ liệu là M*, chúng ta cần đưa ra kết luận dựa vào những 
Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu 
2 
thông tin này. Bài toán này sẽ ứng dụng trong Khai phá dữ liệu, đặc biệt là trong Hỗ trợ quyết 
định, khi thuộc tính quyết định được xem như vế phải của phụ thuộc hàm. 
Giả sử A b (A  , b  ) đúng trong M nhưng không tất yếu A a đúng trong M* 
do dữ liệu bị biến dạng. Liệu chúng ta có thể bổ sung các thuộc tính vào A thành A' (trong M*) 
để A' b, nếu có thì nên mở rộng như thế nào? Chẳng hạn, nếu số lỗi trên một dòng ít nhất là 1 
(e = 1) và gioi tinh là một thuộc tính, khi đó hoặc ten, hoặc gioi tinh có thể đúng và như vậy bộ 
(Trần, Nhi, . . .) trong M có thể tìm thấy hai dòng khác nhau trong M*: 
(Trần, Nhi, Nữ, . . .) 
(Trần, Nhi, Nam, . . ) 
Như vậy nếu chúng ta bổ sung vào tập khóa thêm thuộc tính gioitinh thì chúng ta sẽ xác 
định được bộ dữ liệu chúng ta cần tìm kiếm. 
2. XỬ LÝ PHỤ THUỘC HÀM BỊ NHIỄU 
2.1. Khoảng cách Haming 
Cho M là ma trận m dòng và n cột. Mỗi dòng của M là một bộ n phần tử ( xi1, x
i
2, , . . ., 
xin). Khoảng cách Haming giữa hai dòng (x
i
1, x
i
2, , . . ., x
i
n) và (x
j
1, x
j
2, , . . ., x
j
n) được định nghĩa 
là 
,  = 	∑ (

 , 

) (1) 
trong đó hàm dấu sign được tính: (, ) = 	 1	ế		 ≠ 
0	ế	 = 
 (2) 
Ví dụ 1. Cho bảng quyết định về thông tin 6 bệnh nhân bị cảm cúm dưới đây: 
X Đau đầu Đau cơ Thân nhiệt Cảm cúm 
X1 Có Có Bình thường Không 
X2 Có Có Cao Có 
X3 Có Có Rất cao Có 
X4 Không Có Bình thường Không 
X5 Không Không Cao Không 
X6 Không Có Rất cao Có 
ma trận M lưu trữ thông tin này gồm 6 dòng, 4 cột và khoảng cách H(X1, X2) = 2; H(X1, 
X4) = 1. 
 =
⎝
⎜
⎛
	ó 	ó
	ó 	ó
	ó 	ó
	ì	ườ ô
	 ó
	ấ	 ó
ô ó	
ô ô
ô ó	
	ì	ườ ô
 ô
ấ	 ó ⎠
⎟
⎞
 (3) 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học – Đại học Huế Tập 6, Số 1 (2016) 
3 
2.2. Phụ thuộc hàm có lỗi 
Cho A, B là tập con các thuộc tính của  , những giá trị trong những cột của A xác định 
những giá trị trong những cột của B duy nhất với ít nhất e lỗi xãy ra trong mỗi dòng (thực ra nó 
xác định trong M nhưng do dữ liệu trong M* có thể sai). Khi đó ta ký hiệu A {e}B. Nói một 
cách khác, với một dòng bất kỳ r trong M*, nếu có hai dòng s, t trong M, hai dòng này có 
khoảng cách Haming với r không vượt quá e trong những cột của A, thì chúng sẽ bằng nhau 
trong những cột của B. Phụ thuộc hàm A {e}B được gọi là phụ thuộc hàm e-lỗi. Ký hiệu M(A) 
là ma trận dữ liệu tương ứng với phép chiếu M trên tập thuộc tính A. M(A) là ma trận có kích 
thước m x |A|. 
Ví dụ 2. Trong Ví dụ 1, giả sử ma trận ∗ nhận được là: 
∗ =
⎝
⎜
⎛
ô ó
ó ô
ó ó
ì	ườ ô
 ó
 ó
ô 	ô
ô ô
ô ó	
 ô
 ó
	ấ		 ó ⎠
⎟
⎞
 (4) 
lấy A = {Đau đầu, Thân nhiệt}; B= {Cảm cúm}, khi đó A B trong M và A {1}B 
trong ∗ 
Chúng ta dễ dàng nhận được kết quả sau: 
Mệnh đề 1. Cho A  , a . Khi đó A {e}a nếu và chỉ nếu khoảng cách Haming của mỗi 
cặp trong M(A), mà khác nhau tại a, ít nhất là 2e + 1. 
Rõ ràng nếu khoảng cách Haming của từng cặp dòng trong M(A), khác nhau tại a ít nhất 
là 2e thì tri thức nhận được trong ∗(A) sẽ phát hiện lỗi (tức là có mặt lỗi trong ∗), nhưng 
không xác định dữ liệu trong a duy nhất. Có nghĩa là có thể có nhiều hơn một dòng của M có 
giá trị giống nhau trong ∗(A). Từ đây chúng ta đưa ra định nghĩa tổng quát về phụ thuộc hàm 
d-khoảng cách. 
Định nghĩa 1. Cho A  , a . Khi đó A (d)a được gọi là phụ thuộc hàm d-khoảng cách 
nếu và chỉ nếu khoảng cách Haming của mỗi cặp trong M(A), mà khác nhau trong a, ít nhất là d. 
Mục đích chính của nghiên cứu này là tìm mối liên hệ giữa phụ thuộc hàm và phụ thuộc 
hàm d-khoảng cách. Gọi F_a là họ các tập con cực tiểu F của  thỏa F a (trong M). 
Mệnh đề 2. Cho A  , a . Khi đó A (d)a nếu và chỉ nếu với d-1 thuộc tính bất kỳ a1, a2, 
. . . ,a(d-1) trong A, tồn tại F F_a sao cho F  A \{a1, a2, . . ., a(d-1)}. 
Chứng minh 
 Điều kiện cần (“ ”) 
Giả sử ngược lại, tồn tại một bộ (d-1) thuộc tính a1, a2, . . . ,a(d-1) trong A sao cho A \{a1, 
a2, . . ., a(d-1)} không chứa phần tử nào của F_a, hay nói cách khác, không có phụ thuộc hàm A 
\{a1, a2, . . ., a(d-1)} a. Như vậy, tồn tại hai dòng của M bằng nhau trong A \{a1, a2, . . ., a(d-1)} 
Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu 
4 
nhưng khác nhau trong a. Khi đó khoảng cách Haming của hai dòng này trong M(A) nhiều nhất 
là d-1 (< d). Điều này mâu thuẩn với giả thiết. 
 Điều kiện đủ (“”) 
Giả sử trong M(A) chứa hai dòng có khoảng cách Haming nhỏ hơn d và hai dòng này 
khác nhau trong a. Nếu chúng ta xóa đi những cột mà tại đó hai dòng này khác nhau. Khi đó 
M(A \{a1, a2, . . ., a(d-1)}) chứa hai dòng bằng nhau nhưng lại khác nhau trong a. Do đó A \{a1, a2, 
. . ., a(d-1)} a không đúng trong M hay A \{a1, a2, . . ., a(d-1)} không thể chứa phần tử nào của 
F_a. 
Bây giờ chúng ta sẽ đưa ra sự mô tả tương đương hệ phụ thuộc hàm Amstrong bằng bao 
đóng [2]. Đặt L(A) = {a: a , A a } (A  ). Rõ ràng bao đóng này thỏa ba tính chất: 
i) A  L(A), 
ii) A  B L(A)  L(B), 
iii) L(L(A)) = L(A). 
Thật vậy, 
 i) a A, A a A  L(A), 
 ii) a L(A) A a, A  B B a a L(B) L(A)  L(B), 
 iii) A  L(A) L(A)  L(L(A)). Đặt B = L(A) b B, A b, do đó A B. 
Hơn nữa, a L(L(A)) = L(B), B a. Theo trên, ta có A B, như vậy A a hay a 
L(A). 
Như vậy F_a gồm {a} và họ bao hàm tự do F các tập con của  \{a} (hệ bao hàm tự do 
của F có nghĩa là F_1, F_2 F , F_1 F_2 F_1  F_2). 
Bổ đề 1. [1,2] Cho họ bao hàm tự do F các tập con của  \{a}. Khi đó tồn tại một hệ phụ thuộc 
hàm (và vì vậy, tương ứng ma trận quan hệ M ) sao cho nó xác định F_a = F  {a} đối với a  
nào đó. 
Chứng minh. Cố định a  và định nghĩa F_a = F  {a}, đặt 
  ∪ {} nếu ∃	F_a và  ⊂  
() = (5) 
  trong trường hợp ngược lại 
Dễ thấy L(A) thỏa mãn các điều kiện i), ii), iii) của bao đóng. 
Bổ đề trên trên khẳng định với một họ bao hàm thức tự do bất kỳ trên tập n-1 phần tử, 
tồn tại một cơ sở dữ liệu mà họ các tập cực tiểu F a thỏa bằng đúng F_a = F  {a}. 
Định nghĩa 2. Cho X là một tập n phần tử và F là một họ bao hàm tự do các tập con của nó, ký 
hiệu F (d) là tập được xác định bởi: 
F (d) = { G  X |  x1, x2, . . ., x(d-1) G,  F F , F  G \ { x1, x2, . . ., x(d-1)} và G là cực 
tiểu thỏa mãn tính chất này}. 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học – Đại học Huế Tập 6, Số 1 (2016) 
5 
Chú ý rằng, F (1) = F. Đặc biệt trong phần sau chúng ta sẽ thấy đối với một họ bao hàm 
tự do của những tập F bao gồm vế trái của những phụ thuộc hàm cực tiểu của một quan hệ thì F 
(d) sẽ là vế trái của những phụ thuộc hàm d-khoảng cách cực tiểu. Hơn nữa, F (d) có thể rỗng 
trong khi F khác rỗng. Cố định a X và k là số nguyên lớn hơn 2. Chúng ta xây dựng F là họ k 
phần tử của X chứa a. Thế thì với bất kỳ tập G  X, G \{a} không thể chứa bất kỳ phần tử của F 
và vì vậy F (d) là rỗng với mọi d 2. Mặt khác, nếu F gồm tất cả các tập con k phần tử của X thì 
tất cả tập G  X với (k+d-1) phần tử tạo thành F(d). Chúng ta nói rằng họ F có thể được gắn bởi 
p phần tử nếu có x1, x2, . . . , xp sao cho mọi phần tử F của F, F { x1, x2, . . . , xp } . Nếu F có 
thể gắn bởi (d-1) phần tử thì F (d) là rỗng. Ngược lại F (d) khác rỗng do X thỏa điều kiện đầu của 
phần tử trong F (d) (  x1, x2, . . . , xd-1, X { x1, x2, . . . , xd-1 } =  X  X \ { x1, x2, . . . , xd-1 
}) và nếu chưa cực tiểu, chúng ta có thể rút gọn cho đến khi nhận được tập cực tiểu. 
Định lý 1. [3] Cho n n0(k,d) và F là một họ bao hàm tự do của những tập con có kích thước tối 
đa k của tập cho trước có n phần tử. Khi đó kích thước của những phần tử trong F (d) tối đa là 
c1k. Mặt khác, tồn tại F như vậy mà tất cả các phần tử của nó có kích thước ít nhất là c2k, ở đây 
c1, c2 chỉ phụ thuộc vào d. 
[3] đưa ra kết quả này để giới hạn việc mở rộng vế trái các phụ thuộc hàm có lỗi là 
những phần tử của F (d). Chúng tôi chứng minh định lý này để khẳng định tính đúng đắn của nó. 
Trước hết chúng ta sẽ chứng minh mệnh đề sau 
Mệnh đề 3. G F (d) nếu và chỉ nếu {F | F F, F  G } không thể gắn bởi d-1 phần tử nhưng 
{F | F F, F  G \{a}} có thể gắn bởi d-1 phần tử đối với mỗi a G. 
Chứng minh. Cho G F (d)  a1, a2, . . . , ad-1,  F F sao cho F  G \{ a1, a2, . . . , ad-1 } 
suy ra F  { a1, a2, . . . , ad-1 } =  và F  G do đó {F | F F, F  G } không thể gắn bởi d-1 
phần tử. Mặt khác, G F (d) là tập cực tiểu thỏa tính chất: với mọi a1, a2, . . . , ad-1, tồn tại F F 
sao cho F  G \{ a1, a2, . . . , ad-1 }, vì vậy a G, G \{a} F (d) tồn tại a1, a2, . . . , ad-1, mà 
với mọi F F, (F  G \{a}), F  { a1, a2, . . . , ad-1 }  {F | F F, F  G \{a}} có thể 
được gắn bởi d-1 phần tử. 
Ngược lại, họ F * = { F | F  G } không thể gắn bởi d-1 phần tử suy ra tồn tại a1, a2, . . . 
, ad-1,  F F * sao cho F  { a1, a2, . . . , ad-1 } =  . Mặt khác, F F *, nên F  G, do đó F  
G \ { a1, a2, . . . , ad-1 }. Xét tập con thực sự của G: G' = G \ {a} (a G). Khi đó F *={F |F  G’ 
} có thể gắn bởi d-1 phần tử , vì vậy tồn tại a1, a2, . . . , ad-1, sao cho  F F *, F  G’' ( G), F 
 { a1, a2, . . . , ad-1 }  . Khi đó, F  G' \ { a1, a2, . . . , ad-1 }, như vậy G' F (d) , do đó G là 
tập cực tiểu thỏa  a1, a2, . . . , ad-1,  F, F  G \{ a1, a2, . . . , ad-1 }. Hay nói cách khác G F 
(d). 
Bây giờ chúng ta sẽ chứng minh Định lý 1 
Trước hết, chúng ta chứng minh giới hạn dưới: Cho họ bao hàm thức tự do F gồm các 
tập k phần tử (k 2) sinh ra F (d) chứa một phần tử có kích thước ít nhất là c2k
d. Cố định số 
nguyên i: 1 i k và lấy tập con A  X có kích thước i+d-1. Đặt B1, B2, . . ., 
 là những 
Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu 
6 
tập con i phần tử của A; và E1, E2, . . . , là những tập con rời nhau của X \ A với |E1| = |E2| = . . . = 
k-i. Điều này có thể thực hiện được nếu tổng các phần tử của những tập Ej không vượt quá số 
phần tử của X \ A. Tức là, bất đẳng thức sau phải đúng: 
 +  − 1 + 
 × ( − ) ≤  (6) 
Tiếp đến, đặt  là họ {B1  E1, B2  E2, . . .}, chúng ta sẽ chứng minh 
() =

Đặt D = A ⋃  . Theo Mênh đề 3, trước tiên ta chứng minh {F 
 |  D} không thể 
gắn bởi d-1 phần tử. Thật vậy, giả sử ngược lại, tức là,  x1, x2, . . . , xd-1,  F = Bj  Ej sao cho 
F {x1, x2, . . . , xd-1} = . Giả sử tập {x1, x2, . . . , xd-1} có r phần tử thuộc A và d-1-r phần tử 
thuộc phần bù của nó. Vì vậy, có tối đa d-1-r tập Ej chứa các phần tử của {x1, x2, . . . , xd-1} (Mỗi 
Ej chứa một phần tử vì các Ej rời nhau). Chọn Bj  A \{x1, x2, . . . , xd-1} có i phần tử. Khi đó số 
tập Bj được chọn lớn hơn d-1-r. Thật vậy, số tập Bj là 
 
 =
()×()×⋯×()
×(()×⋯×
≥ 	


>  − 1 −  ≥ 0 
Điều này có nghĩa là, tồn tại tập F = Bj  Ej sao cho F {x1, x2, . . . , xd-1} =  (đpcm). 
Phần còn lại, cần chứng minh {F  | F  D \{a}} có thể gắn bởi d-1 phần tử (a D). 
Xét hai trường hợp: 
1. a Ej, chọn {x1, x2, . . . , xd-1} = A \ Bj. Khi đó,  F  D \{a} và F 
 , ta có F = Bl  
El. Do đó l j và Bl  (A \ Bj)  
2. a A, xét Tập H có d-1 phần tử và H  A \{a},  F  D \{a}, ta có F = Bl  El với Bl  
A \{a}. Vì |Bl| = i và a Bl suy ra Bl  H . Vậy D 
 (d). Chọn i = (1 −


. 
Khi đó ta có các bất đẳng thức: 
 ≥
()

≤  + 1;	


	≤  −  (7) 
Mặt khác, kích thước của D được xác định bởi vế trái của biểu thức (6): 
|| = || + ( − ) × 
 =  +  − 1 + ( − ) ×
( + 1) × ⋯× ( +  − 1)
( − 1)!
> ( − ) ×
()
()!
>


× ( × (1 −


)) ×

()!
>  ×
()

×

()!
= 
 
Bây giờ chúng ta sẽ chứng minh giới hạn trên. Cho GÎ F (d) với F là họ các tập con của 
X có số phần tử k, chúng ta sẽ chỉ ra rằng |G| dkd. Có thể giả thiết mọi phần tử của F đều con 
của G. Từ Mệnh đề 3, suy ra rằng các tập con D có d phần tử của G gắn các phần tử của họ F . 
Cụ thể, mỗi phần tử a của G có thể mở rộng thành tập D. Hơn nữa, Mệnh đề 3 còn chỉ ra rằng, 
hợp của những tập này bằng đúng G. Chúng ta ký hiệu họ các tập D là D. Khi đó: 
 {D D }D = G (8) 
và D  F , D D , F F (9) 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học – Đại học Huế Tập 6, Số 1 (2016) 
7 
F không thể gắn bởi một tập ít hơn d phần tử. Cho I  G, I- bậc của D là số phần tử của 
D chứa I, ký hiệu degI(D) = |{D D : I  D}|. 
Bổ đề 2. Nếu |I| < d thì degI(D ) k
d-|I|. 
Bổ đề này sẽ được chứng minh bằng quy nạp theo j = d - |I|. 
Với j = d - |I| = 1 |I| = d-1, nếu tất cả các phần tử của F được gắn bởi d-1 phần tử, 
điều này vô lý. Vì vậy, tồn tại F F : F  I = . Từ (8), tập D thỏa mãn I  D thì D  F . 
Do đó, số các tập D này bé hơn hoặc bằng số phần tử của F, hơn nữa |F| k = kd - |I|. 
Giả sử mệnh đề đúng với j = d-|I| 1, chúng ta chứng minh mệnh đề đúng với j + 1 = d 
- |I|. Đặt |I*| = d - j - 1, khi đó tồn tại F F , F  I* = , vì ngược lại thì F được gắn bởi ít hơn 
d phần tử, vô lý. Đặt F =\{x1, x2, . . ., xl}, với l k. Theo (8), chúng ta có: 
{ ∈ : ∗̀	} = 	{	 ∈ : ∗ ∪ {}̀	}


Kích thước của tập ở vế phải là deg{I*  {xi}}(D), theo giả thiết quy nạp với j = d - |I*  
{xi} = degI* {xi}(D) = k
d - |I^*| - 1 = kj. Theo (9): degI*(D) l k
d - I* - 1 kd - |I*|. Vậy, bổ đề được 
chứng minh với j+1. 
Cuối cùng, xét bất kỳ F = {y1, y2, . . ., yr} F với r < k. Từ (8) ta có họ {D D: yi D} 
phủ D. Áp dụng bổ đề vừa chứng minh với I = {yi}: |{D D: yi D}| k
d-1 suy ra |D| kd (= k 
kd-1) và |D D D| |D| d ( |D| = d) dk
d. Từ (7) suy ra |G| dkd. Định lý 1đã được chứng minh 
hoàn toàn. 
Như nhận xét trước đây, chúng ta xác định F a(d) như là tập vế trái của phụ thuộc hàm 
cực tiểu d-khoảng cách mô tả bởi Mệnh đề 2. Họ F (d) được xác định là hợp của họ F a(d) đối 
với mọi a . 
Áp dụng Định lý 1 đối với phụ thuộc hàm và phụ thuộc hàm có lỗi chúng ta sẽ thu được 
kết quả ở định lý sau: 
Định lý 2.[4] Cho n n0(k,e) ( d = 2e+1), giả sử tất cả những tập vế trái của phụ thuộc hàm cực 
tiểu có kích thước tối đa là k. Khi đó, kích thước các phần tử của F (2e+1)$ không thể lớn hơn 
c1k. Mặt khác, tồn tại một cơ sở dữ liệu với những tập vế trái của phụ thuộc hàm cực tiểu có 
kích thước tối đa là k, mà các phần tử của và F (2e+1) có kích thước ít nhất là c2k, ở đây c1, c2 
chỉ phụ thuộc vào e. 
3. KẾT LUẬN 
Họ các bao hàm thức tự do F a được xác định bởi cận dưới tối ưu trong Định lý 1, biểu 
diễn trường hợp xấu nhất. Do đó chúng ta hy vọng có thể tìm được M* trong họ này dựa vào 
việc sắp xếp chúng trên những đánh giá thực tế. Việc xây dựng tiêu chuẩn đánh giá hay sắp xếp 
các phần tử trong họ {M*} có thể là vấn đề nghiên cứu tiếp theo. Hơn nữa, với sai số e =1, 
Mở rộng phụ thuộc hàm trong cơ sở dữ liệu bị nhiễu 
8 
chúng ta có kích thước các phần tử của F (3) không thể lớn hơn 3k3 và tồn tại một cơ sở dữ liệu 
với tập vế trái của phụ thuộc hàm cực tiểu với kích thước không vượt quá k có kích thước ít nhất 
là c2k
3, ở đây c2 xấp xỉ 


. 
TÀI LIỆU THAM KHẢO 
[1]. Burosch, G., Demetrovics, J. and Katona G.O.H.(1987), The Poset of Closures as a Model of 
Changing Databases, Order 4, pp.127-142. 
[2]. Demetrovics, J. and Katona G.O.H., Miklós, D. (2000), Error - correcting keys in relational 
databades, in Foundations of Information ang Knowledge Systems, FoIKS, Lecture Notes in 
Computer Science, 1762, Springer, pp. 88-93. 
[3]. Demetrovics, J. and Katona G.O.H., Miklós, D.(2002), Functional dependencies in presence of 
errors, in Foundations of Information and Knowledge Systems, FoIKS, Lecture Notes in Computer 
Science, 2284, Springer, pp. 85-92. 
[4]. Demetrovics, J. and Katona G.O.H., Miklós, D.(2012), Functional dependencies distorted by errors, 
preprint submitted to Elsevier Science. 
[5]. Hồ Thuần, Hoàng Thị Lan Giao (2006), Khám phá phụ thuộc đa trị dựa vào ma trận phụ thuộc, Tạp 
chí Tin học và Điều khiển học. 
[6]. Hồ Thuần, Hoàng Thị Lan Giao (2007), Mở rộng phụ thuộc hàm và phụ thuộc đa trị, Tạp chí Tin 
Học và Điều khiển học. 
[7]. Yka Huhtala, Juha Karkkainen, Pasi Porkka and Hannu Toivonen (1999), Tane: An Efficient 
Algorithm for Discovering Functional and Approximate Dependencies, Computer Journal, Vol 42, No.2. 
EXPANDING FUNCTIONAL DEPENDENCIES IN TROUBLE DATABASES 
Hoang Thi Lan Giao 
Department of Information Technology, Hue University College of Sciences 
Email: hlgiao.it@gmail.com 
ABSTRACT 
In relational database with a given functional dependencies A b, values of attribute b 
will be uniquely determined by the ones of attributes A. However, during data transmission, 
the data received has been noised and may not be as the original. Clearly, on the new data 
the functional dependencies A b will no longer true. In other words, It cannot be 
identified the objects based on the data of attributes A only. In this paper, we study how to 
expand the set of attributes A to a minimal set A’ containing A so that A' b is really a 
functional dependencies on the new data. 
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học – Đại học Huế Tập 6, Số 1 (2016) 
9 
Keywords: error functional dependencies, functional dependencies, relational database. 

File đính kèm:

  • pdfmo_rong_phu_thuoc_ham_trong_co_so_du_lieu_bi_nhieu.pdf