Google bắt đầu sử dụng công nghệ OCR để lập chỉ mục tài liệu

Bạn đang theo dõi trang tin seo của SVG Việt Nam, truy cập hàng ngày để có những thông tin hữu ích để chinh phục google nhé

Google bắt đầu sử dụng công nghệ OCR để lập chỉ mục tài liệu

rước đây, nếu bạn hy vọng Google sẽ lập chỉ mục một tệp PDF, bạn phải tạo một tệp PDF dựa trên văn bản chứ không phải dựa trên hình ảnh; Googlebot không thể nhận ra nội dung của tài liệu được quét hoặc dựa trên hình ảnh. Đó không còn là trường hợp bất khả kháng nữa với công nghệ OCR

Google bắt đầu sử dụng công nghệ OCR để lập chỉ mục tài liệu

Vậy OCR là gì ?

Google cho biết họ hiện đang sử dụng công nghệ OCR (Optical Character Recognition) để đọc bất kỳ tài liệu được quét nào mà nó tìm thấy ở định dạng PDF:

Công nghệ nhận dạng ký tự quang học (OCR) cho phép chúng ta chuyển đổi một bức tranh (một ngàn từ) thành hàng ngàn từ – những từ có thể được tìm kiếm và lập chỉ mục để các tài liệu có giá trị này dễ tìm thấy hơn.

Thông báo trên của Google bao gồm một vài ví dụ nơi bạn có thể xem kết quả quét OCR đang hoạt động. Trong quá trình tìm kiếm sửa chữa dây nhôm , kết quả đầu tiên là PDF của Ủy ban An toàn Sản phẩm Tiêu dùng được quét rõ ràng dưới dạng hình ảnh. Bây giờ, bạn có thể nhận được văn bản của hình ảnh đó nhờ quét OCR của Google và liên kết “Xem dưới dạng HTML” trên trang kết quả tìm kiếm. Như với bất kỳ việc sử dụng OCR nào, kết quả có thể sẽ không hoàn hảo. Nhưng các ví dụ mà Google cung cấp trông khá chính xác.

Vô số tài liệu mới hiện có sẵn cho người tìm kiếm – tài liệu chưa từng có trước đây. Mặt khác, nếu bạn đã quét và tải lên các tệp PDF dựa trên hình ảnh biết rằng chúng sẽ không bao giờ được tìm thấy bởi những người tìm kiếm – và tôi biết những người có – bạn có thể muốn suy nghĩ lại về chiến lược đó.

>> Xem tiếp: