Hiểu rõ hơn về file robots.txt

Bạn đang theo dõi trang tin seo của SVG Việt Nam, truy cập hàng ngày để có những thông tin hữu ích để chinh phục google nhé

Hiểu rõ hơn về file robots.txt

Giao thức loại trừ rô bốt (REP) không chính xác là một giao thức phức tạp và việc sử dụng giao thức của nó khá hạn chế, và do đó nó thường được cung cấp bởi các SEO. Tuy nhiên, có nhiều điều hơn bạn nghĩ. Robots.txt đã có mặt hơn 14 năm, nhưng có bao nhiêu người trong chúng tôi biết rằng ngoài các chỉ thị không cho phép có chỉ thị noindex mà Googlebot tuân theo? Các trang không được lập chỉ mục không kết thúc trong chỉ mục nhưng các trang không được phép thực hiện và trang sau có thể hiển thị trong kết quả tìm kiếm. Những trang không được phép vẫn tích lũy PageRank? Robots.txt đó có thể chấp nhận một dạng mẫu phù hợp không? Điều đó, vì tính năng cuối cùng đó, bạn có thể chọn không cho phép không chỉ các thư mục mà còn cả các kiểu tệp cụ thể (các phần mở rộng tệp tin chính xác hơn)? Đó là một robot.

Tệp robots.txt cung cấp thông tin quan trọng cho các trình thu thập dữ liệu của công cụ tìm kiếm thu thập thông tin trên web. Trước các bot này (có ai nói từ “robot” đầy đủ không?) Truy cập các trang của một trang web, họ kiểm tra xem tệp robots.txt có tồn tại hay không. Làm như vậy giúp thu thập dữ liệu web hiệu quả hơn, bởi vì tệp robots.txt ngăn bot truy cập vào các trang nhất định không được công cụ tìm kiếm lập chỉ mục.

Hiểu rõ hơn về file robots.txt

Có tệp robots.txt là phương pháp hay nhất. Thậm chí chỉ vì một lý do đơn giản là một số chương trình số liệu sẽ giải thích phản hồi 404 đối với yêu cầu thiếu tệp robots.txt dưới dạng lỗi, điều này có thể dẫn đến báo cáo hiệu suất sai. Nhưng những gì xảy ra trong tệp robots.txt đó? Đó là mấu chốt của nó.

Cả robots.txt và thẻ meta của rô bốt đều dựa vào sự hợp tác từ rô bốt và không có nghĩa là được bảo đảm để hoạt động cho mọi bot. Nếu bạn cần sự bảo vệ mạnh mẽ hơn từ các rô-bốt vô đạo đức và các tác nhân khác, bạn nên sử dụng các phương pháp thay thế như bảo vệ bằng mật khẩu. Quá nhiều lần tôi đã thấy quản trị viên web ngây thơ đặt các URL nhạy cảm như các khu vực quản trị trong robots.txt. Bạn nên tin rằng robots.txt là một trong những cổng gọi đầu tiên của hacker — để xem họ nên đột nhập vào đâu.

Robots.txt hoạt động tốt cho:

Chặn các trình thu thập dữ liệu từ các phần không công khai trên trang web của bạn
Chặn các công cụ tìm kiếm khỏi cố gắng lập chỉ mục tập lệnh, tiện ích hoặc các loại mã khác
Tự động khám phá Sơ đồ trang web XML
Tạo tệp robots.txt thật dễ dàng. Bạn có thể tạo tệp robots.txt trong bất kỳ trình soạn thảo văn bản nào. Tệp phải là tệp văn bản được mã hóa ASCII chứ không phải tệp HTML.

Cú pháp Robots.txt

Tác nhân người dùng: quy tắc sau áp dụng cho (ví dụ: “Googlebot”, v.v.)
Không cho phép: các trang bạn muốn chặn bot truy cập (vì nhiều trang không cho phép khi cần)
Noindex: các trang bạn muốn công cụ tìm kiếm chặn AND không lập chỉ mục (hoặc de-index nếu được lập chỉ mục trước đó). Được Google hỗ trợ không chính thức; không được hỗ trợ bởi Yahoo và Live Search.
Mỗi nhóm User-Agent / Disallow nên được phân tách bằng một dòng trống; tuy nhiên không có dòng trống nào tồn tại trong một nhóm (giữa dòng User-agent và Disallow cuối cùng).
Biểu tượng băm (#) có thể được sử dụng cho các nhận xét trong tệp robots.txt, trong đó mọi thứ sau # trên dòng đó sẽ bị bỏ qua. Có thể được sử dụng cho toàn bộ dòng hoặc cuối dòng.
Thư mục và tên tệp phân biệt chữ hoa chữ thường: “riêng tư”, “Riêng tư” và “TƯ NHÂN” đều khác biệt duy nhất với công cụ tìm kiếm.
Hãy xem một tệp robots.txt ví dụ. Ví dụ bên dưới bao gồm:

Các robot được gọi là “Googlebot” không có gì không được phép và có thể đi bất cứ nơi nào
Toàn bộ trang web được đóng lại cho robot được gọi là “msnbot”;
Tất cả các rô bốt (ngoài Googlebot) không nên truy cập vào thư mục / abc / hoặc thư mục hoặc các tệp được gọi là / nhật ký, như được giải thích với các nhận xét, ví dụ:abc.htm, / logs hoặc logs.php.
User-agent: Googlebot
Disallow:

User-agent: msnbot
Disallow: /

# Block all robots from abc and logs directories
User-agent: *
Disallow: /abc/
Disallow: /logs # for directories and files called logs

Những gì sẽ được liệt kê trên dòng User-Agent? Tác nhân người dùng là tên của rô bốt công cụ tìm kiếm cụ thể. Bạn có thể thiết lập một mục để áp dụng cho một bot cụ thể (bằng cách liệt kê tên) hoặc bạn có thể thiết lập nó để áp dụng cho tất cả các chương trình (bằng cách liệt kê một dấu hoa thị, hoạt động như một ký tự đại diện). Một mục nhập áp dụng cho tất cả các bot trông giống như sau:

User-Agent: *

robot chính bao gồm: Googlebot (Google), Slurp (Yahoo), msnbot (MSN)

Hãy nhớ rằng một khối chỉ định cho user-agent của Googlebot sẽ được tuân theo bởi Googlebot; nhưng Googlebot cũng KHÔNG tuân thủ các chỉ thị cho tác nhân người dùng * (tất cả các bot).

Những gì nên được liệt kê trên dòng Disallow? Không cho phép liệt kê các trang bạn muốn chặn. Bạn có thể liệt kê một URL cụ thể hoặc một mẫu. Mục nhập sẽ bắt đầu bằng dấu gạch chéo (/).

Ví dụ:

Để chặn toàn bộ trang web: Disallow: /
Để chặn một thư mục và mọi thứ trong đó: Disallow: /private_directory/
Để chặn một trang: Disallow: /private_file.html
Để chặn một trang và / hoặc một thư mục có tên riêng tư: Disallow: /private
Nếu bạn phân phối nội dung qua cả http và https, bạn sẽ cần một tệp robots.txt riêng biệt cho từng giao thức này. Ví dụ: để cho phép rô bốt lập chỉ mục tất cả các trang http nhưng không có trang https, bạn sẽ sử dụng các tệp robots.txt như sau, cho giao thức http của bạn:

User-agent: *
Disallow:

Và đối với giao thức https:

User-agent: *
Disallow: /

Bots kiểm tra tệp robots.txt mỗi khi họ truy cập trang web. Các quy tắc trong tệp robots.txt sẽ có hiệu lực ngay lập tức sau khi được tải lên gốc của trang web và bot đến trang web. Tần suất truy cập thường xuyên thay đổi tùy theo tần suất các bot thu thập dữ liệu trang web dựa trên mức độ phổ biến, quyền hạn và mức độ thường xuyên của nội dung được cập nhật. Một số trang web có thể được thu thập thông tin nhiều lần trong ngày trong khi một số trang khác chỉ có thể được thu thập dữ liệu vài lần một tuần. Trung tâm quản trị trang web của Google cung cấp một cách để xem thời điểm Googlebot truy cập lần cuối vào tệp robots.txt.

Tôi khuyên bạn nên sử dụng công cụ phân tích robots.txt trong Trung tâm quản trị trang web của Google để kiểm tra các URL cụ thể để xem liệu tệp robots.txt của bạn có cho phép hay chặn chúng hay không, xem liệu Googlebot có gặp khó khăn khi phân tích cú pháp bất kỳ dòng nào trong tệp robots.txt của bạn hay không vào tệp robots.txt của bạn.

Một số kỹ thuật tiên tiến

Các công cụ tìm kiếm chính đã bắt đầu làm việc cùng nhau để nâng cao chức năng của tệp robots.txt. Như đã nói ở trên, có một số chức năng đã được các công cụ tìm kiếm chính chấp nhận và không nhất thiết phải là tất cả các công cụ chính, cung cấp khả năng kiểm soát tốt hơn đối với thu thập thông tin. Vì chúng có thể bị hạn chế, hãy thận trọng khi sử dụng.

Thu thập thông tin chậm trễ: Một số trang web có thể gặp phải số lượng lưu lượng truy cập cao và muốn làm chậm trình thu thập thông tin của công cụ tìm kiếm để cho phép nhiều tài nguyên máy chủ hơn đáp ứng nhu cầu lưu lượng truy cập thông thường. Độ trễ thu thập dữ liệu là một chỉ thị đặc biệt được Yahoo, Live Search và Ask yêu cầu, chỉ thị cho trình thu thập thông tin về số giây cần chờ giữa các trang thu thập dữ liệu:

User-agent: msnbot
Crawl-delay: 5

Tại thời điểm này, mẫu phù hợp dường như có thể sử dụng được bởi ba chuyên ngành: Google, Yahoo và Live Search. Giá trị của là đáng kể. Trước hết hãy xem xét cơ bản nhất về kết hợp mẫu, sử dụng ký tự đại diện dấu hoa thị. Để chặn quyền truy cập vào tất cả các thư mục con bắt đầu bằng “riêng tư”:

User-agent: Googlebot
Disallow: /private*/

Không giống như mẫu phù hợp hơn được tìm thấy trong các biểu thức thông thường trong Perl và các nơi khác, dấu chấm hỏi không có quyền hạn đặc biệt. Vì vậy, để chặn truy cập vào tất cả các URL bao gồm dấu chấm hỏi (?), Chỉ cần sử dụng dấu hỏi

User-agent: *
Disallow: /*?*

 

Cho phép chỉ thị: Tại thời điểm này, chỉ thị Cho phép xuất hiện chỉ được Google, Yahoo và Hỏi hỗ trợ. Cũng giống như nó âm thanh, nó hoạt động ngược lại với chỉ thị Disallow và cung cấp khả năng đặc biệt gọi ra các thư mục hoặc các trang có thể được thu thập thông tin. Điều này có thể có lợi sau khi các phần lớn hoặc toàn bộ trang web không được phép.

Để chỉ cho phép Googlebot vào thư mục “google”:

User-agent: Googlebot
Disallow: /
Allow: /google/

Chỉ thị Noindex: Như đã đề cập ở trên, chỉ thị này mang lại lợi ích trong việc loại bỏ danh sách ít tiêu đề không có đoạn trích từ kết quả tìm kiếm, nhưng nó bị giới hạn đối với Google. Cú pháp của nó chính xác là không cho phép.

Sơ đồ trang web phải là URL hoàn chỉnh cho Sơ đồ trang web, chẳng hạn như: http://www.example.com/sitemap.xml. Chỉ thị này độc lập với dòng tác nhân người dùng, vì vậy không quan trọng bạn đặt nó trong tệp của mình ở đâu. Tất cả các công cụ tìm kiếm chính đều hỗ trợ giao thức Sơ đồ trang web Tự động Khám phá, bao gồm Google, Yahoo, Tìm kiếm Trực tiếp và Hỏi.

Trong khi khám phá tự động cung cấp một cách để thông báo cho các công cụ tìm kiếm về tệp sitemap.xml, việc xác minh và gửi sơ đồ trang web trực tiếp đến các công cụ tìm kiếm thông qua mỗi bảng điều khiển dành cho quản trị viên web của họ (Trung tâm quản trị trang web của Google, Yahoo Site Explorer, Trung tâm quản trị trang web trực tuyến) .

Tìm hiểu thêm về bot của Google

Google sử dụng nhiều bot khác nhau (tác nhân người dùng). Bot cho tìm kiếm trên web là Googlebot. Các bot khác của Google tuân theo các quy tắc bạn thiết lập cho Googlebot, nhưng bạn cũng có thể thiết lập các quy tắc bổ sung cho các bot cụ thể này. Chặn Googlebot chặn tất cả các bot bắt đầu bằng “Googlebot”.

Dưới đây là danh sách các rô-bốt của Google:

Googlebot: thu thập thông tin các trang từ chỉ mục web và chỉ mục tin tức
Googlebot-Mobile: thu thập thông tin các trang cho chỉ mục di động
Googlebot-Image: thu thập thông tin các trang cho chỉ mục hình ảnh
Mediapartners-Google: thu thập thông tin các trang để xác định nội dung AdSense, chỉ thu thập dữ liệu trang web nếu hiển thị quảng cáo AdSense
Adsbot-Google: thu thập dữ liệu để đo lường chất lượng trang đích của AdWords, chỉ thu thập thông tin các trang web sử dụng Google AdWords để quảng cáo
Bạn có thể chặn hoàn toàn Googlebot bằng cách sử dụng:

User-agent: Googlebot
Disallow: /

Bạn có thể cho phép Googlebot, nhưng chặn quyền truy cập vào tất cả các bot khác:

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Các vấn đề với robots.txt

Để ngăn hoàn toàn một trang được thêm vào chỉ mục của công cụ tìm kiếm ngay cả khi các trang web khác liên kết đến nó, hãy sử dụng thẻ meta rô bốt “noindex” và đảm bảo rằng trang đó không được phép trong robots.txt. Khi trình thu thập thông tin thu thập dữ liệu trang, trình thu thập thông tin sẽ nhận ra thẻ meta “noindex” và thả URL từ chỉ mục.

Xung đột thẻ meta robot và robots.txt

Nếu tệp robots.txt và hướng dẫn thẻ meta rô bốt cho xung đột trang, bot sẽ tuân theo hạn chế nhất. Cụ thể hơn:

Nếu bạn chặn một trang bằng robots.txt, bot sẽ không bao giờ thu thập dữ liệu trang và sẽ không bao giờ đọc bất kỳ thẻ meta rô bốt nào trên trang.
Nếu bạn cho phép một trang có robots.txt nhưng chặn nó được lập chỉ mục bằng thẻ meta rô bốt, Googlebot sẽ truy cập trang, đọc thẻ meta và sau đó không lập chỉ mục trang đó.
Mặc dù tệp robots.txt là để bảo vệ nội dung trên trang web được lập chỉ mục, bao gồm tệp robots.txt bất kể được khuyến nghị như nhiều quy trình rô-bốt tìm kiếm chúng và cung cấp một quy trình chỉ có thể tiến hành các thủ tục của chúng. Các thẻ meta robots.txt và rô-bốt cùng nhau cung cấp cho bạn sự linh hoạt để thể hiện các chính sách truy cập phức tạp tương đối dễ dàng:

Xóa toàn bộ trang web hoặc một phần của trang web.
Tránh lập chỉ mục hình ảnh trong Tìm kiếm hình ảnh của Google và các công cụ hình ảnh khác.
Tránh lập chỉ mục nội dung trùng lặp trên trang web.
Xóa từng trang riêng lẻ trên trang web bằng thẻ Meta robot.
Xóa các bản sao và đoạn trích được lưu trong bộ nhớ cache bằng thẻ Meta robot.
Cả robots.txt và thẻ meta của rô bốt đều dựa vào sự hợp tác từ rô bốt và không được đảm bảo hoạt động cho mọi rô bốt. Nếu bạn cần bảo vệ mạnh mẽ hơn từ các rô bốt và các tác nhân khác, bạn nên sử dụng các phương pháp thay thế như bảo vệ bằng mật khẩu.

>> Xem thêm: