אחד הכלים לניהול יצירת האינדקס של אתרים על ידי מנועי חיפוש הוא קובץ ה- robots.txt. הוא משמש בעיקר כדי למנוע מכל הרובוטים או רק מסוימים להוריד את התוכן של קבוצות דפים מסוימות. זה מאפשר לך להיפטר מ"אשפה "בתוצאות מנועי החיפוש ובמקרים מסוימים לשפר משמעותית את דירוג המשאב. חשוב שיהיה לך את קובץ ה- robots.txt הנכון ליישום מוצלח.
נחוץ
עורך טקסט
הוראות
שלב 1
ערוך רשימה של רובוטים שלגביהם ייקבעו כללי אי-הכללה מיוחדים או ישמש הוראות של תקן robots.txt המורחב, וכן ישמשו הוראות לא סטנדרטיות וספציפיות (הרחבות של מנוע חיפוש ספציפי). הזן לרשימה זו את הערכים של שדות User-Agent של כותרות בקשת HTTP שנשלחו על ידי הרובוטים שנבחרו לשרת האתר. את שמות הרובוטים ניתן למצוא גם בקטעי העזר באתרי מנועי החיפוש.
שלב 2
בחר את קבוצות כתובות ה- URL של משאבי האתר אליהם יש לשלול גישה לכל אחד מהרובוטים ברשימה שהורכבה בשלב הראשון. בצע את אותה פעולה עבור כל הרובוטים האחרים (קבוצה בלתי מוגבלת של בוטים לאינדקס). במילים אחרות, התוצאה צריכה להיות מספר רשימות המכילות קישורים לחלקים באתר, קבוצות דפים או מקורות של תוכן מדיה שאסור להוסיף עליהם אינדקס. כל רשימה חייבת להתאים לרובוט אחר. צריכה להיות גם רשימה של כתובות אתרים אסורות עבור כל הרובוטים האחרים. ערוך רשימות על סמך השוואה של המבנה הלוגי של האתר עם המיקום הפיזי של הנתונים בשרת, וכן על ידי קיבוץ כתובות האתרים של הדפים בהתאם המאפיינים הפונקציונליים שלהם. לדוגמא, ניתן לכלול ברשימות הדחייה את התוכן של קטלוגי שירות כלשהם (מקובצים לפי מיקום) או את כל דפי פרופיל המשתמש (מקובצים לפי מטרה).
שלב 3
בחר את שלטי ה- URL עבור כל אחד מהמשאבים הכלולים ברשימות שהורכבו בשלב השני. בעת עיבוד רשימות אי הכללה עבור רובוטים המשתמשות רק בהוראות רובוטים.טקסט רגילות ורובוטים לא מוגדרים, הדגש את חלקי כתובות האתר הייחודיים באורך המרבי. עבור קבוצות הכתובות הנותרות, תוכל ליצור תבניות בהתאם למפרט של מנועי חיפוש ספציפיים.
שלב 4
צור קובץ robots.txt. הוסף אליו קבוצות הנחיות, שכל אחת מהן תואמת למכלול של כללי איסור לרובוט ספציפי, שרשימתם נערכה בשלב הראשון. לאחר מכן צריכה להופיע קבוצת הוראות לכל הרובוטים האחרים. הפרד קבוצות כללים עם שורה ריקה אחת. כל מערכת כללים חייבת להתחיל בהוראת User-agent שמזהה את הרובוט, ואחריה הנחיה Disallow, האוסרת על אינדקס של קבוצות כתובות אתרים. בצע את השורות שהושגו בשלב השלישי עם הערכים של הוראות Disallow. הפרד את ההוראות ומשמעויותיהם באמצעות נקודתיים. שקול את הדוגמה הבאה: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / קבוצה זו של הוראות מנחה את הרובוט הראשי של מנוע החיפוש Yandex לא להוסיף את כתובת האתר לאינדקס המכילה את המצע / temp / data / images /. זה גם מונע מכל הרובוטים האחרים להוסיף לאינדקס כתובות אתרים המכילות / temp / data /.
שלב 5
תוספי robots.txt עם הוראות רגילות מורחבות או הוראות ספציפיות למנועי חיפוש. דוגמאות להנחיות כאלה הן: מארח, מפת אתר, שיעור בקשה, זמן ביקור, עיכוב סריקה.