Một cách tiếp cận sử dụng mô hình N-Gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản Tiếng Việt
Trong bài báo này, chúng tôi trình bày những kết quả nghiên cứu trong
việc nâng cao độ chính xác của nhận dạng văn bản tiếng Việt. Kết quả của nhận
dạng văn bản từ hình ảnh thường không đạt được độ chính xác tuyệt đối, nhất là đối
với các tài liệu có chất lượng hình ảnh đầu vào thấp. Do đó, việc tự động phát hiện
và sửa lỗi nhận dạng văn bản là cần thiết, giúp giảm công sức hiệu đính của người
dùng. Trong nghiên cứu này, chúng tôi đề xuất một thuật toán phát hiện và sửa lỗi
nhận dạng văn bản tiếng Việt dựa trên mô hình n-gram. Kết quả thử nghiệm cho
thấy việc áp dụng thuật toán này giúp nâng cao độ chính xác của nhận dạng
Một cách tiếp cận sử dụng mô hình N-Gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản Tiếng Việt trang 1
Một cách tiếp cận sử dụng mô hình N-Gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản Tiếng Việt trang 2
Một cách tiếp cận sử dụng mô hình N-Gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản Tiếng Việt trang 3
Một cách tiếp cận sử dụng mô hình N-Gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản Tiếng Việt trang 4
Một cách tiếp cận sử dụng mô hình N-Gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản Tiếng Việt trang 5
Tải về để xem đầy đủ hơn
File đính kèm:
- mot_cach_tiep_can_su_dung_mo_hinh_n_gram_trong_viec_tu_dong.pdf