Một số công cụ hỗ trợ tự động hóa phân loại và biên mục tài liệu

Xử lý thông tin luôn đóng một vai trò

quan trọng trong hoạt động của các cơ quan

thông tin-thư viện (TT-TV). Một nghiên

cứu đã chỉ ra rằng:“Chỉ tính riêng về lĩnh

vực khoa học tự nhiên và kỹ thuật, hành tinh

chúng ta hàng năm cho ra đời khoảng năm

vạn tạp chí với 4,5 triệu bài báo, 110 nghìn

cuốn sách, 30 vạn bản mô tả sáng chế phát

minh, 25 vạn báo cáo khoa học và thiết kế

thử nghiệm, nửa triệu catalog công nghiệp,

Khối lượng các tài liệu này, cứ khoảng 10 đến

15 năm, lại tăng lên gấp đôi; với độ tăng ấy,

cứ sau 1000 năm, tổng số ấn phẩm khoa học

kỹ thuật lại tăng gấp 100 lần” [1, tr.93]. Sự

bùng nổ này đã dẫn tới hiện tượng thông tin

trùng lặp, lạc hậu, kém chất lượng, khó kiểm

soát. Nếu các thư viện và cơ quan thông tin

không tiến hành xử lý thông tin sẽ dẫn đến

tình trạng “khủng hoảng thông tin”.

pdf 7 trang kimcuc 8520
Bạn đang xem tài liệu "Một số công cụ hỗ trợ tự động hóa phân loại và biên mục tài liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Một số công cụ hỗ trợ tự động hóa phân loại và biên mục tài liệu

Một số công cụ hỗ trợ tự động hóa phân loại và biên mục tài liệu
THÔNG TIN VÀ TƯ LIỆU - 4/2016 | 31
TRAO ĐỔI NGHIỆP VỤ
Tóm tắt: Giới thiệu một số công cụ điện tử hỗ trợ công tác xử lý thông tin tại các thư 
viện và cơ quan thông tin nhằm giúp cán bộ thư viện rút ngắn thời gian xử lý đồng thời 
phát huy hiệu quả trong việc tự động hóa các khâu công tác thư viện.
Từ khóa: Phân loại tài liệu; công cụ tra cứu; tự động hóa; biên mục; xử lý thông tin
Automatic document classifi cation and cataloguing tools
Abstract: Th e article introduces several e-tools to assist the information processing 
at libraries and information centres as well as to improve automatic library activities 
performance.
Keywords: Document classifi cation; search tools; automatic; cataloguing; information 
processing.
MỘT SỐ CÔNG CỤ HỖ TRỢ TỰ ĐỘNG HÓA 
PHÂN LOẠI VÀ BIÊN MỤC TÀI LIỆU
Th S Đinh Th úy Quỳnh
Trường Đại học Văn hóa Hà Nội
những dạng thức mới nhằm đáp ứng nhu 
cầu người dùng tin một cách nhanh chóng, 
chính xác và đầy đủ. Kết quả của quá trình 
xử lý thông tin sẽ tạo ra các sản phẩm và 
dịch vụ thông tin, là cơ sở để người dùng 
tin cũng như các cơ quan TT-TV có thể lưu 
trữ, quản lý và khai thác thông tin có hiệu 
quả. Chính vì vậy, xử lý thông tin luôn là 
một trong những quy trình nghiệp vụ được 
các thư viện và cơ quan thông tin quan tâm 
phát triển.
Đặc biệt, trong những năm trở lại đây, 
cùng với sự phát triển vượt bậc của KH&CN, 
nhiều thành tựu tiên tiến của công nghệ 
thông tin đã được ứng dụng vào lĩnh vực TT-
TV nói chung và công tác xử lý thông tin nói 
riêng. Trong đó, phải kể đến một số công cụ 
điện tử đã được sử dụng để hỗ trợ cho công 
tác xử lý thông tin nhanh hơn và đạt kết quả 
chính xác hơn. Các công cụ này, cùng với 
thời gian, đã có những sự thay đổi về định 
dạng để phù hợp với nhu cầu ngày càng cao 
Mở đầu
Xử lý thông tin luôn đóng một vai trò 
quan trọng trong hoạt động của các cơ quan 
thông tin-thư viện (TT-TV). Một nghiên 
cứu đã chỉ ra rằng:“Chỉ tính riêng về lĩnh 
vực khoa học tự nhiên và kỹ thuật, hành tinh 
chúng ta hàng năm cho ra đời khoảng năm 
vạn tạp chí với 4,5 triệu bài báo, 110 nghìn 
cuốn sách, 30 vạn bản mô tả sáng chế phát 
minh, 25 vạn báo cáo khoa học và thiết kế 
thử nghiệm, nửa triệu catalog công nghiệp, 
Khối lượng các tài liệu này, cứ khoảng 10 đến 
15 năm, lại tăng lên gấp đôi; với độ tăng ấy, 
cứ sau 1000 năm, tổng số ấn phẩm khoa học 
kỹ thuật lại tăng gấp 100 lần” [1, tr.93]. Sự 
bùng nổ này đã dẫn tới hiện tượng thông tin 
trùng lặp, lạc hậu, kém chất lượng, khó kiểm 
soát. Nếu các thư viện và cơ quan thông tin 
không tiến hành xử lý thông tin sẽ dẫn đến 
tình trạng “khủng hoảng thông tin”. 
Xử lý thông tin chính là quá trình biến 
đổi thông tin từ dạng thức ban đầu thành 
32 | THÔNG TIN VÀ TƯ LIỆU - 4/2016
TRAO ĐỔI NGHIỆP VỤ
của các cơ quan TT-TV: từ vi phim, cho đến 
CD-ROM và ngày nay là Web.
1. Web Dewey 
Web Dewey là phiên bản Bảng phân 
loại thập phân Bách Khoa DDC điện tử do 
OCLC phát triển. Đây là phiên bản DDC 
truy cập qua web thay cho phương thức 
truy cập từ CD-ROM trước đây (Địa chỉ 
truy cập: 
login.html). Điều này đã tạo điều kiện thuận 
lợi cho người dùng trong việc truy cập và sử 
dụng dịch vụ. Phiên bản ban đầu của Web 
Dewey được OCLC phát hành vào năm 
2003, cùng thời điểm với việc công bố bản 
in DDC 22. Đến năm 2010, khi bản in DDC 
23 ra mắt, Web Dewey đã được nâng cấp 
lên Web Dewey 2.0. Về cơ bản, Web Dewey 
được coi là bản DDC đầy đủ dưới dạng tư 
liệu điện tử. 
Phiên bản Web Dewey 2.0 hiện nay đang 
là công cụ hỗ trợ rất đắc lực cho các cán bộ 
chuyên trách phân loại tài liệu tại các cơ 
quan TT-TV. Web Dewey 2.0 có những tính 
năng nổi bật:
• Về nội dung: 
Chứa toàn bộ các ký hiệu phân loại của 
DDC 23 (trong đó bao gồm cả những phát 
triển mới, những chỉ số mới và các thuật 
ngữ chỉ mục điện tử phụ trợ). Các nội dung 
này liên tục được cập nhật.
• Về giao diện: 
Sử dụng giao diện Web 2.0 thân thiện, dễ 
sử dụng. Đặc biệt, người dùng còn có thể 
tùy biến màn hình hiển thị bằng một nhấp 
chuột duy nhất.
• Về chức năng: 
- Sử dụng nhiều cách thức tìm kiếm: tìm 
lướt (browse), tìm thông thường (search), 
tìm nâng cao (advanced search). Tùy theo 
yêu cầu tìm mà người dùng có thể tìm 
kiếm theo một yếu tố nhất định như: theo 
chỉ số phân loại, đề mục chủ đề, chỉ mục 
quan hệ,hoặc cùng một lúc kết hợp nhiều 
yếu tố thông qua việc sử dụng các toán tử 
Boolean: AND, OR, NOT (Hình 1).
Hình 1. Tìm kiếm kết hợp nhiều yếu tố
- Cho phép ánh xạ các ký hiệu của DDC 
với các đề mục chủ đề của Th ư viện Quốc hội 
Hoa Kỳ LCSH (Library of Congress Subject 
Headings), đề mục chủ đề y học- MeSH 
(Medical Subject Headings), đề mục chủ đề 
BISAC, SEARS,... Người dùng có thể tra cứu 
cách thức sử dụng các đề mục chủ đề tại liên 
kết ký hiệu của DDC. Các đề mục chủ đề này 
được mô tả theo cấu trúc biểu ghi MARC 
(Hình 2). Các dữ liệu được tổ chức theo 
THÔNG TIN VÀ TƯ LIỆU - 4/2016 | 33
TRAO ĐỔI NGHIỆP VỤ
Hình 2. Biểu ghi mô tả theo cấu trúc MARC
Hình 3. Kết nối với TVQH Hoa Kỳ thông qua chức năng Link to OPAC
cấu trúc này sẽ giúp cho việc trao đổi dữ 
liệu giữa các hệ thống được thuận tiện, 
chính xác.
- Có chức năng liên kết tới mục lục tra cứu 
trực tuyến (Link to OPAC). Chức năng này 
giúp cán bộ biên mục có thể tham khảo các 
biểu ghi của Th ư viện Quốc hội Hoa Kỳ có liên 
quan đến chủ đề tài liệu đang xử lý (Hình 3).
Web Dewey được OCLC phát triển và 
liên tục cập nhật, chỉnh sửa các tính năng. 
Điều này đã giúp cho người sử dụng có 
được công cụ mạnh để tối ưu hóa công tác 
phân loại tài liệu. Để sử dụng phiên bản Web 
Dewey, người sử dụng phải mua quyền truy 
cập từ nhà cung cấp OCLC. Chi phí mua 
bản quyền sử dụng tùy thuộc vào số lượng 
người sử dụng được đăng ký. Các cá nhân 
và tổ chức có thể đăng ký dùng thử trong 
vòng 30 ngày theo địa chỉ: https://www.oclc.
org/forms/webdewey-free-trial.en.html
2. PowerCat 
PowerCat là một sản phẩm do Công ty 
phần mềm Hiện đại thiết kế. PowerCat 
ứng dụng công nghệ tìm kiếm đa luồng 
để truy cập và tải về đầy đủ thông tin của 
tài liệu từ nhiều CSDL thư viện trên thế 
giới. Đây là một công cụ hữu ích không 
chỉ cho các cán bộ biên mục mà còn hữu 
ích đối với cả cán bộ bổ sung bởi các tính 
năng nổi bật [6]:
• Tìm kiếm cùng một lúc trên nhiều 
CSDL: Với việc sử dụng công nghệ tìm 
34 | THÔNG TIN VÀ TƯ LIỆU - 4/2016
TRAO ĐỔI NGHIỆP VỤ
Hình 4. Danh mục các CSDL thư viện trong liên kết
Hình 5. Kết quả tìm theo cách thông thường
kiếm đa luồng, PowerCat cho phép tìm 
kiếm nhanh chóng trên danh mục lập sẵn 
của gần 1000 CSDL thư viện trên thế giới 
trong cùng một lệnh tìm kiếm (Hình 4). 
• Sử dụng nhiều phương thức tìm kiếm:
- Tìm thông thường: Cũng giống như 
Web Dewey, PowerCat cho phép người sử 
dụng có thể tìm kiếm theo một yếu tố hoặc 
kết hợp các yếu tố với nhau (tối đa là ba yếu 
tố). Với phương thức tìm kiếm này, người 
sử dụng có thể dễ dàng tìm kiếm và tải về 
các biểu ghi thư mục cần thiết (Hình 5).
- Tìm theo ISBN: Đây là phương thức 
tìm kiếm tiện lợi và hiệu quả. Bởi thông 
thường, khi muốn tìm kiếm thông tin cho 
một danh mục tài liệu, người dùng sẽ phải 
tìm kiếm thông tin của từng tài liệu trong 
CSDL rồi sau đó mới lập thành danh mục. 
PowerCat cho phép tìm kiếm và tải về 
nhanh chóng danh mục các biểu ghi thư 
mục theo danh sách ISBN được đưa vào, 
hay nói cách khác là tìm tài liệu theo danh 
mục ISBN. Phương thức này giúp cán bộ 
biên mục có thể tiết kiệm được nhiều thời 
gian trong quá trình tìm kiếm (Hình 6).
• Dễ dàng hiệu chỉnh biểu ghi theo tiêu 
chuẩn MARC: PowerCat cho phép cán bộ 
xử lý có thể dễ dàng xem và hiệu chỉnh biểu 
ghi tải về theo tiêu chuẩn MARC trước khi 
đưa vào CSDL của thư viện mình (Hình 7). 
• Xuất dữ liệu tùy biến: PowerCat hỗ 
trợ các tiêu chuẩn MARC, tạo thuận lợi 
THÔNG TIN VÀ TƯ LIỆU - 4/2016 | 35
TRAO ĐỔI NGHIỆP VỤ
Hình 6. Kết quả tìm theo danh mục ISBN
Hình 7. Chức năng hiệu chỉnh biểu ghi tải về
cho việc trao đổi dữ liệu giữa các thư viện 
như ISO2709, MARCXML, Các thông 
tin được kết xuất theo đúng định dạng tiêu 
chuẩn quốc tế. Ngoài ra, PowerCat có thể 
xuất ra Excel các thông tin tùy biến theo cấu 
hình, không giới hạn số trường dữ liệu được 
chọn.
• Tra giá tự động từ Amazon: Ngoài các 
tính năng kể trên, PowerCat còn tích hợp 
với dịch vụ của nhà cung cấp tài liệu trực 
tuyến hàng đầu thế giới Amazon cho phép 
tải về các thông tin thương mại theo danh 
mục tài liệu có đánh chỉ số ISBN như: giá 
cả, các thông tin thư mục về tài liệu, thông 
tin nhà cung cấp, Tính năng này đã giúp 
cho không chỉ cán bộ biên mục mà cả cán 
bộ bổ sung có thể dễ dàng tra cứu và lập 
danh mục tài liệu cần thiết. 
• Hỗ trợ biên mục độc lập (biên mục ngoại 
tuyến): PowerCat có thể làm việc như là một 
công cụ biên mục độc lập. Trong trường hợp 
cần thiết, PowerCat có thể làm việc không 
cần kết nối với máy chủ của thư viện.
3. Mercury Z39.50 Client
Mercury Z39.50 Client là một phần 
mềm miễn phí sử dụng công nghệ tìm 
kiếm đa luồng. Do vậy, đối với những thư 
viện không có điều kiện cài đặt các phần 
mềm thương mại đều có thể tự tải và cài 
đặt Mercury Z39.50 Client để sử dụng tại 
thư viện của mình (Địa chỉ tải ứng dụng: 
mzc/download). Mercury Z39.50 Client 
cũng có những tính năng cần thiết để giúp 
người dùng có thể tìm kiếm thông tin một 
cách thuận tiện:
• Tìm kiếm cùng một lúc trên nhiều 
CSDL khác nhau: Cũng giống như 
PowerCat, Mercury Z39.50 Client sử dụng 
công nghệ tìm kiếm đa luồng, cho phép 
36 | THÔNG TIN VÀ TƯ LIỆU - 4/2016
TRAO ĐỔI NGHIỆP VỤ
Hình 8. Các CSDL cài sẵn trong Mercury 
Z39.50 Client
Hình 9. Tìm kiếm theo cách tìm nâng cao
Hình 10. Các định dạng xuất dữ liệu
người dùng có thể tìm kiếm thông tin 
nhanh chóng từ nhiều CSDL thư viện trên 
thế giới trong cùng một lệnh tìm kiếm. 
Phầm mềm này cũng hỗ trợ việc cài đặt 
thêm hoặc xóa bỏ bớt CSDL thư viện trong 
danh mục sẵn có của mình (Hình 8).
• Sử dụng nhiều cách tìm kiếm:
- Tìm đơn giản: Người dùng có thể tìm 
thông tin mình cần thông qua hai yếu tố cơ 
bản là Nhan đề và Tên tác giả. 
- Tìm nâng cao: Mercury Z39.50 Client 
cho phép tìm kiếm thông tin một cách 
chính xác bằng việc sử dụng kết hợp nhiều 
yếu tố với nhau (tối đa bốn yếu tố) như: 
Nhan đề, Tác giả, Chủ đề, thông qua 
toán tử AND, OR và NOT (Hình 9).
- Tìm theo chỉ số ISBN/ISSN: Đối với 
các sách, tạp chí nước ngoài, cán bộ xử lý 
có thể tìm thông tin chính xác về tài liệu 
mình cần thông qua chỉ số ISBN/ISSN. 
Tuy nhiên, khác với PowerCat, Mercury 
Z39.50 Client cho phép mỗi lệnh tìm kiếm 
chỉ thực hiện được theo một chỉ số ISBN/
ISSN nhất định.
• Xuất dữ liệu ra nhiều định dạng: 
Mercury Z39.50 Client cho phép xuất dữ 
liệu của các biểu ghi theo nhiều định dạng 
khác nhau như: Text, XML, MARC, Tùy 
theo yêu cầu, thư viện có thể lựa chọn các 
định dạng phù hợp (Hình 10).
4. Hệ thống tra cứu tự động Đề mục 
chủ đề- LCSH- LCC- DDC
Đây là sản phẩm do nhóm cán bộ thư 
viện và công nghệ thông tin thuộc Th ư viện 
Tạ Quang Bửu- Trường Đại học Bách Khoa 
Hà Nội tiến hành nghiên cứu và xây dựng 
vào năm 2008. Hệ thống này gồm khoảng 
30.000 đề mục cho phép cán bộ xử lý có thể 
tra cứu chéo giữa hai ngôn ngữ tìm tin là 
đề mục chủ đề và ký hiệu phân loại, trong 
THÔNG TIN VÀ TƯ LIỆU - 4/2016 | 37
TRAO ĐỔI NGHIỆP VỤ
Hình 11. Giao diện tìm kiếm của hệ thống tra cứu tự động
đó bao gồm: đề mục chủ đề LCSH và đề 
mục chủ đề dịch sang tiếng việt, ký hiệu 
phân loại LCC và DDC.
Với tính năng tham chiếu chéo, hệ 
thống cho phép cán bộ xử lý có thể tìm 
được thông tin của ba yếu tố còn lại khi 
có trước một thông tin về tài liệu như: ký 
hiệu phân loại LC, ký hiệu phân loại DDC, 
đề mục chủ đề LCSH, đề mục chủ đề bằng 
tiếng Việt. Hay nói một cách khác, cán bộ 
xử lý tài liệu có thể dễ dàng tham chiếu tới 
ba ngôn ngữ còn lại khi có thông tin về tài 
liệu bằng một trong bốn ngôn ngữ trên.
Hệ thống tra cứu tự động Đề mục chủ 
đề- LCSH-LCC-DDC là công cụ tra cứu rất 
hữu ích không chỉ cho Th ư viện Tạ Quang 
Bửu- Trường Đại học Bách Khoa Hà Nội 
mà còn cho rất nhiều thư viện khác có nhu 
cầu tự động hóa trong công tác phân loại 
tài liệu (Hình 11).
Kết luận
Như vậy có thể thấy, hiện nay có khá 
nhiều công cụ hữu hiệu hỗ trợ cho việc tự 
động hóa công tác xử lý thông tin tại các 
thư viện và cơ quan thông tin. Các công cụ 
này không chỉ giúp cho cán bộ xử lý thông 
tin nhanh hơn mà còn đem lại kết quả 
chính xác hơn. Tùy vào đặc điểm và điều 
kiện kinh phí mà mỗi thư viện có thể lựa 
chọn cho mình công cụ hỗ trợ tự động hóa 
phân loại và biên mục phù hợp và hiệu quả.
------------------------------------------
TÀI LIỆU THAM KHẢO
1. Nguyễn Hữu Hùng (2005). Th ông 
tin: Từ lý luận đến thực tiễn, Nxb Văn hóa 
thông tin, Hà Nội.
2. Trần Th ị Quý, Đỗ Văn Hùng (2007). 
Tự động hóa trong hoạt động TT-TV, Nxb 
Đại học Quốc gia Hà Nội, Hà Nội.
3. Nguyễn Văn Th iên (2008). Xây dựng 
hệ thống tra cứu tự động bốn ngôn ngữ LCC-
DDC- LCSH-Đề mục chủ đề, Đề tài nghiên 
cứu khoa học cấp trường, Trường Đại học 
Bách Khoa Hà Nội, Hà Nội.
4. 
projects/mzc
5. 
login.html.
6. 
aspx?mnuid=144
7. 
vn/upload/collection/bri
ef/40299_13122013931272201238.pdf
8. https://www.oclc.org/forms/
webdewey-free-trial.en.html
(Ngày Tòa soạn nhận được bài: 05-4-
2016; Ngày phản biện đánh giá: 02-6-2016; 
Ngày chấp nhận đăng: 02-7-2016).

File đính kèm:

  • pdfmot_so_cong_cu_ho_tro_tu_dong_hoa_phan_loai_va_bien_muc_tai.pdf