یکشنبه ۰۳ مرداد ۱۴۰۰

Sunday, July 25, 2021 GMT +4:30

» نحوه استفاده از فایل robots.txt در سایت

web-seo-robots-txt

از زمان شکل گیری ابزار ارتباطی نوین به نام اینترنت و مشارکت عموم در ایجاد و استفاده از محتوا در بستر شبکه جهانی وب قوانین و قواعدی نیز در جهت تولید و دسترسی اصولی به پایگاه های اینترنتی وضع شد که در بحث بهینه سازی سایت یا سئو (SEO مخفف Search Engine Optimization) عمدتا موتورهای جستجوگر معروفی چون گوگل (Google)، بینگ (Bing)، یاهو (Yahoo) و ابرشرکت ها دخیل بوده اند، بدین ترتیب با هم اندیشی توسعه دهنده گان و مهندسین حوزه وب به تدریج استانداردها و قواعدی برای تعامل مدیران سایت ها با موتورهای جستجو تدوین شد که یکی از این قواعد امکان کنترل رفتار ربات های خزنده (Crawler Bots) موتورهای جستجو به وسلیه ایجاد و تنظیم فایلی به نام robots.txt در ریشه سایت است، بدین وسیله می توان تا حدودی رفتار ربات ها را در نحوه جستجو و ایندکس صفحات وبسایت ها مدیریت کنیم که در ادامه به چگونگی انجام این کار و بایدها و نبایدهای استفاده از این امکان اشاره خواهیم کرد.

فایل robots.txt چیست و چه کاربردی دارد؟


طبق دستورالعمل پروتکل استثناء سازی ربات ها (REP مخفف Robots Exclusion Protocol) فایل robots.txt یک فایل متنی ساده است که می توان آن را با هر ویرایشگری ایجاد و با فرمت txt ذخیره نمود، این فایل در ریشه سایت قرار می گیرد (یعنی به طور مستقیم در فولدر www یا public_html و در بالاترین سطح) به طوری که اگر بعد از آدرس سایت عبارت robots.txt را تایپ کنیم این فایل در دسترس باشد، به طور مثال:
https://webgoo.ir/robots.txt
از فایل robots.txt عمدتا برای تعیین رفتار ربات های خزنده در تعامل با صفحات مختلف سایت (آدرس های URL) به دو صورت مجاز (Allow، حالت پیش فرض) و غیرمجاز (Disallow) استفاده می شود به فرض در مواردی ممکن است نخواهیم صفحاتی از سایتمان توسط ربات های خزنده موتورهای جستجو بررسی و ایندکس شود یا شاید قبلا این کار صورت گرفته و اکنون به هر دلیل می خواهیم این صفحات را از دیتابیس موتور جستجوی مورد نظرمان حذف کنیم، البته استفاده از فایل robots.txt برای حذف آدرس های ایندکس شده از نتایج موتورهای جستجو اولین گام است و برای تکمیل کار و ثبت درخواست حذف باید به ابزار وبمستر سرویس هایی مانند گوگل (Google) در آدرس:
https://www.google.com/webmasters/tools
و بینگ (Bing) در آدرس:
http://www.bing.com/toolbox/webmaster
مراجعه کنیم.
با این تفاسیر استفاده از این فایل از نظر فنی همیشه هم ضروری نیست و همانطور که گفتیم در موارد مسدود کردن دسترسی ربات ها به صفحات خاص (URLهای خاص) کاربرد دارد اما به دلیل اینکه اکثر ربات های جستجوگر (Crawler Bots) همواره فایل robots.txt را از سرور درخواست می کنند بهتر است برای اجتناب از افزایش خطاهای 404 که در بخش Log ها و آمار سایت جلوه خوبی ندارد حتی شده یک فایل خالی با این نام در ریشه سایت خود قرار دهیم.
نکته: استفاده از فایل robots.txt صرفا به مجاز و غیرمجاز کردن آدرس ها برای ربات های موتورهای جستجو محدود نمی شود، در ادامه خواهیم دید که تعیین دوره تاخیر رجوع به صفحات با دستور Crawl-delay و معرفی نقشه XML سایت نیز می تواند از جمله کاربردهای این فایل باشد.

همه ربات ها از دستورات فایل robots.txt پیروی نمی کنند!


در خصوص استفاده از دستورات فایل robots.txt به این نکته باید توجه داشته باشیم که تنها ربات های خزنده برخی سرویس ها و شرکت های معتبر به قوانین پروتکل استثناء سازی ربات ها (REP مخفف Robots Exclusion Protocol) ناقص یا کامل احترام می گذارند و در مقابل برخی هکرها حتی برای ارسال اسپم یا نفوذ به صفحات حساس سایت ها نیز ممکن است از این فایل سوء استفاده کنند، لذا این نکته دارای اهمیت زیادی است که هیچگاه برای محافظت از دایرکتوری های حساس مانند دایرکتوری مدیریت سایت به این فایل تکیه نکنیم و آدرس دایرکتوری های مخفی را در فایل robots.txt قرار ندهیم چون محتوای این فایل به راحتی در معرض دید عموم است و درج اطلاعات ساختار سایت ممکن است موجبات سوء استفاده های احتمالی را فراهم کند، بهترین روش برای جلوگیری از ایندکس نشدن دایرکتوری های حساس این است که هیچ لینک خروجی و در معرض دید و دسترس ربات در صفحات خود نداشته باشیم و از طرف دیگر دسترسی به محتوای این نوع صفحات را با ایجاد سیستم دریافت نام کاربری و کلمه عبور محدود کنیم.
نکته: برخی از ربات ها ممکن است به صورت ناقص از پروتکل REP پشتیبانی کنند و همچنان قوانین خاص خودشان را در پیمایش آدرس های مختلف داشته باشند، نمونه بارز این ربات ها مربوط به سرویس گوگل (Googlebot) است که برخی قوانین فایل robots.txt را نادیده می گیرد.

نحوه تنظیم دستورات فایل robots.txt


دستورات فایل robots.txt معمولا از دو قسمت اصلی به شکل نمونه Syntax زیر تشکیل می شوند:
User-agent: Googlebot
Disallow: /dir/
در این نمونه دستور قسمت User-agent نام خزنده یا ربات و قسمت Disallow آدرس دایرکتوری که دسترسی به آن را مسدود می کنیم را مشخص می کند، عبارت Googlebot نام ربات سرویس گوگل است که این قسمت می تواند با نام ربات های دیگر (به فرض Bingbot) یا کاراکتر * (همه ربات ها) تکمیل شود، به طور مثال اگر در فایل خود کد زیر را قرار دهیم:
User-agent: *
Disallow: /image/
با پیروی از این دستور ربات ها صرف نظر از نامشان دیگر محتوای فولدر image را بررسی نکرده و سرویس جستجوی مربوطه هم در لیست نتایج آدرس های متناظر با این دایرکتوری را نمایش نمی دهد، همان طور که اشاره شد هنگامی که از علامت ستاره (*) برای قسمت User-agent استفاده می کنیم واسط کاربری شامل تمام ربات ها می شود.
نکته: به یاد داشته باشیم که در ابتدای آدرس دایرکتوری ها باید از یک اسلش (/) نیز استفاده و در درج حروف به بزرگ یا کوچک بودن آنها نیز دقت کنیم (به فرض دایرکتوری Image در مقایسه با image از دید ربات ها معمولا دو آدرس متفاوت هستند).

چند مثال از کاربرد دستورات فایل robots.txt


برای آشنایی اولیه و شروع استفاده از فایل robots.txt در ادامه چند نمونه دستور ساده با تنظیمات متفاوت را با هم بررسی می کنیم.
- غیرمجاز (Disallow) کردن یک دایرکتوری خاص برای تمام ربات ها:
User-agent: *
Disallow: /old-posts/
این دستور دسترسی به فولدر فرضی old-posts را برای تمام ربات ها غیرمجاز می کند.
- غیرمجاز (Disallow) کردن یک فایل در دایرکتوری برای تمام ربات ها:
User-agent: *
Disallow: /old-posts/mypic.jpg
نمونه دستور بالا دسترسی به فایل mypic.jpg را که در دایرکتوری old-posts قرار دارد برای تمام ربات ها غیرمجاز می کند.
- غیرمجاز (Disallow) کردن یک فایل در ریشه سایت برای تمام ربات ها:
User-agent: *
Disallow: /expired.html
در این نمونه دستور فایل expired.html که در ریشه سایت قرار دارد برای تمام ربات ها غیرمجاز شده است.
- غیرمجاز (Disallow) کردن یک فولدر برای یک ربات خاص و مجاز (Allow) کردن آن برای سایر ربات ها:
User-agent: Googlebot
Disallow: /nofollow/
در حالت پیش فرض کلیه آدرس هایی که Disallow نباشند Allow هستند و لذا در نظر گرفتن آدرس های مجاز در اینگونه موارد ضرورتی ندارد.
- غیرمجاز (Disallow) بودن تمام صفحات برای تمام ربات ها:
User-agent: *
Disallow: /
در استفاده از این شکل دستورات باید دقت زیادی داشته باشیم چون ممکن است به شکل ناخواسته ای دسترسی ربات ها به کل سایت را مسدود کنیم.
- مجاز (Allow) بودن تمام صفحات برای تمام ربات ها:
User-agent: *
Allow: /
- مجاز (Allow) و غیرمجاز (Disallow) بودن برخی صفحات برای تمام ربات ها:
User-agent: *
Disallow: /some-page-1/
Disallow: /some-page-2/
Allow: /some-page-3/
همان طور که مشخص است برای یک User-agent همزمان می توانیم آدرس های متعددی را مجاز و غیرمجاز کنیم.
در صورت نیاز برای دیدن لیست کامل ربات ها و درج در قسمت User-agent می توانیم به دیتابیس موجود در آدرس زیر مراجعه کنیم:
http://www.robotstxt.org/db
اختصاص دستور برای ربات های خاص معمولا خیلی کاربردی نیست اما جهت آشنایی بیشتر اطلاع از اسامی و جزئیات ربات های سرویس های مختلف خالی از لطف نخواهد بود.
یادآوری مهم: مجاز یا غیرمجاز بودن صرفا برای ربات هایی کاربرد دارد که به قوانین فایل robots.txt احترام بگذارند در غیر اینصورت دستورات این فایل برای ربات های ناشناس بی اثر خواهد بود.

استفاده از الگو (Pattern) در دستورات فایل robots.txt


علاوه بر دستورات ساده بالا برخی ربات ها (از جمله ربات سرویس گوگل) از قوانین پیچیده تری نیز پشتیبانی می کنند، این قوانین بر مبنای الگوی (Pattern) عبارات با قاعده (Regular Expressions) هستند با این تفاوت که در اینجا فقط دو کاراکتر دستوری خاص (* $) قابل استفاده است که در ادامه بررسی می کنیم.
- برای تطبیق "توالی از عبارات" از کاراکتر * استفاده می شود، به طور مثال اگر ما چند دایرکتوری داشته باشیم که با عبارت فرضی book شروع شده و بخواهیم با یک دستور دسترسی ربات را به تمام آنها مسدود کنیم، خواهیم نوشت:
User-agent: Googlebot
Disallow: /book*/
به این ترتیب فولدرهای فرضی booksell، bookread، bookiran و... برای ربات مسدود خواهند شد، لذا نقش علامت * در الگو این است که عبارات بعد از آن در تطبیق نادیده گرفته می شوند (* یعنی هر کاراکتری با صفر تکرار یا بیشتر).
- برای مسدود کردن آدرس های URL داینامیک از کاراکتر * به همراه علامت سوال (?) استفاده می کنیم، به فرض دستور زیر تمام آدرس های داینامیک را برای تمام ربات ها غیر قابل دسترس می کند:
User-agent: *
Disallow: /*?
دقت کنیم کاراکتر علامت سوال (?) مربوط به شروع قسمت داینامیک آدرس ها است، به فرض:
http://example.com/?id=1
و در فایل robots.txt صرفا یک کاراکتر متنی است (نه دستوری)، همان طور که گفتیم تنها دو کاراکتر * و $ نقش دستوری و حالت Regular Expressions دارند.
بر همین مبنا می توانیم برای ساب دایرکتوری ها (دایرکتوری های زیر مجموعه) نیز دسترسی را مسدود کنیم و از این نظر محدودیتی نیست:
User-agent: *
Disallow: /articles/*?
- برای مشخص کردن انتهای یک الگو از علامت $ استفاده می شود، به فرض اگر قصد ما مسدود کردن تمام فایل های با پسوند png برای ربات ها باشد خواهیم نوشت:
User-agent: * 
Disallow: /*.png$
به این ترتیب تمام فایل هایی که به پسوند png ختم شده باشند برای تمام ربات ها مسدود می شوند.
یا اگر بخواهیم آدرس هایی را که به عبارت فرضی private ختم می شوند را برای ربات گوگل مسدود کنیم خواهیم نوشت:
User-agent: Googlebot
Disallow: /*private$
که این دستور نمونه آدرس های فرضی
http://example.com/account/public-private
http://example.com/?domain=private
http://example.com/1234/private
را برای ربات گوگل مسدود خواهد کرد.

ایجاد تاخیر در درخواست ها با دستور Crawl-delay


ایجاد وقفه و تاخیر در روند درخواست آدرس های URL سایت دستور دیگری است که با عبارت Crawl-delay در فایل robots.txt قابل تعریف است، در حالت معمول ربات ها می توانند در فواصل زمانی خیلی کم و هر چند ثانیه یکی از صفحات سایت را درخواست کنند که تعداد بالا و مداوم این درخواست ها ممکن است فشار زیادی به سرور وارد کند، هرچند این حالت خیلی متداول نیست اما در صورت لزوم برای کنترل و کاستن از این فشار قابلیتی تحت عنوان Crawl-delay وجود دارد که می توانیم در فایل robots.txt به صورت نمونه زیر از آن استفاده کنیم:
User-agent: *
Crawl-delay: 15
به این صورت حداقل زمان وقفه بین درخواست های ربات باید 15 ثانیه باشد به عبارتی هر 15 ثانیه صرفا یک درخواست URL از سرور مجاز است.
نکته: گوگل از دستور Crawl-delay پشتیبانی نمی کند، برای تنظیم روند درخواست های ربات این سرویس باید از قابلیت Crawl Rate در قسمت تنظیمات ابزار وبمستر گوگل (Google Webmasters Tools) در آدرس زیر استفاده کنیم:
https://www.google.com/webmasters/tools/settings
در این قسمت با داشتن حساب گوگل و ثبت قبلی سایت می توانیم میزان دفعات مراجعه ربات به صفحات را بین مقدار کم (Low) تا زیاد (High) تنظیم کنیم، البته گوگل توصیه می کند که تنظیمات پیش فرض را تغییر ندهیم مگر اینکه واقعا ربات این سرویس باعث کندی عملکرد سرور سایت شده باشد.

افزودن نقشه XML سایت به فایل robots.txt


قابلیت دیگر فایل robots.txt امکان درج نقشه XML سایت (Sitemap) است که بخصوص مورد علاقه موتورهای جستجو بوده و فاکتور مهمی در بهینه سازی سایت (SEO) محسوب می شود، نقشه XML عموما شامل کل آدرس های URL یکتای سایت در قالب فایلی با پسوند xml است که برای معرفی این فایل به موتورهای جستجو از عبارت Sitemap به شکل نمونه زیر استفاده می کنیم:
User-agent: *
Disallow: /articles/22.html
Disallow: /articles/23.html
Disallow: /articles/?post=159&title=آموزش-برنامه-نویسی-وب

Sitemap: https://webgoo.ir/sitemap.xml
نقشه XML معمولا در ریشه سایت قرار داشته و به پسوند xml ختم می شود اما در حال حاضر الزامی هم برای این حالت نیست و ممکن است در آدرس های دیگری بدون پسوند xml نیز وجود داشته باشد اما مهم است که به نحو صحیح در قسمت Sitemap معرفی و خروجی XML معتبر داشته باشد.

سایر روش های مسدود سازی آدرس ها برای ربات های خزنده


در پایان این مطلب بد نیست اشاره ای به سایر روش های مسدود سازی آدرس های URL برای ربات های خزنده وب داشته باشیم، علاوه بر استفاده از دستورات فایل robots.txt جهت کنترل رفتار خزنده های با اصل و نسب دو روش دیگر نیز برای این کار وجود دارد:
- روش اول استفاده از متاتگ noindex است که در قسمت head سورس کد HTML صفحه قرار می گیرد، به طور مثال:
<meta name="robots" content="noindex">
یا
<meta name="googlebot" content="noindex">
در صورت وجود این متاتگ در سورس HTML صفحه عموم ربات های خزنده پیرو پروتکل REP از دستورات آن تبعیت کرده و آدرس URL را ایندکس نخواهند کرد.
- روش دوم ارسال سربرگ HTTP برای ربات ها در هنگام درخواست آدرس URL صفحه است، انجام این کار در PHP می تواند با استفاده از توابع header و مقادیر X-Robots-Tag: noindex به شکل نمونه زیر باشد:
header("X-Robots-Tag: noindex", true);
یا
header("X-Robots-Tag: noindex, nofollow", true);
در صورت استفاده از nofollow در کنار noindex علاوه بر ایندکس نشدن محتوای صفحه، آدرس های URL ای که از صفحه فعلی به صفحات دیگر ارجاع داده شده نیز دنبال (Follow) نخواهند شد.
نکته: برخی از ربات ها ممکن است به صورت ناقص از پروتکل REP پشتیبانی کنند و همچنان قوانین خاص خودشان را در پیمایش آدرس های مختلف داشته باشند، لذا همیشه این احتمال وجود دارد که صفحات در دسترس سایت ایندکس و آدرس های URL آن دنبال (Follow) شوند.
دسته بندی: مهارتهای وب » بهینه سازی
related مطالب بیشتر:
» مقایسه خطای 404 و کد 301 ریدایرکت (Redirect)
» دوباره نویسی آدرس های وب (URL Rewrite) در htaccess
» چرا برخی سایت ها و وبلاگ ها رتبه الکسای بهتری دارند؟
» حل مشکل محتوای تکراری (Duplicate Content) در سایت
» پیج رنک چیست و چگونه می توان آن را افزایش داد؟
commentنظرات (۸۴ یادداشت برای این مطلب ارسال شده است)
more یادداشت های جدید بر اساس تاریخ ارسال در انتهای یادداشت های موجود نمایش داده می شوند.
نویسنده: محمد
۲۱:۵۸ ۱۳۹۱/۰۶/۱۴
سلام. ممنون از مطلب مفیدتون.
سوالی داشتم آیا نمیشه کاری کرد گوگل این فایل را نخونه؟
سرویس میهن بلاگ خودکار این فایل رو درست کرده و داره بشدت به ما ضربه میزنه نگاه کنید اینجا را:
http://www.full-dl.com/robots.txt
پاسخ: 
سلام
متاسفانه در مورد این مشکل نمی توان کار خاصی انجام داد، کنترل سرور باید در اختیار شما باشد تا بتوانید تنظیمات این فایل را تغییر دهید که در سیستم های وبلاگی اینگونه نیست، اما ظاهرا این فایل نباید مشکل خاصی پیش بیاورد، لینک های فعلی سایت شما ایندکس می شوند و توسط این فایل مسدود نشده اند، تنها آدرس هایی که در سیستم پیش فرض میهن بلاگ کاربردی ندارند، مسدود شده اند.
نویسنده: محمد
۱۲:۳۱ ۱۳۹۱/۰۶/۱۵
با تشکر از شما. بله متوجه شدیم که مشکل از خود فایل نیست بلکه سرویس میهن بلاگ به دلایل نامعلوم اجازه دسترسی به این فایل رو به ربات گوگل چند روزی نداده. نمیدونم یا فایروال یا خود صاحبان سرور !!!!!!!!!!
حالا چون به این فایل اجازه دسترسی نیست، گوگل سایت را از دسترس خارج کرده. !!!!!
پاسخ: 
با بررسی که انجام دادیم، این فایل برای ربات گوگل مسدود نیست و حتی در صورت مسدود بودن هم نمی تواند باعث بروز مشکل شود؛ احتمالا حذف سایت شما از لیست گوگل دلیل دیگری دارد، مهم ترین مورد می تواند وجود لینک های متفاوت ولی با محتوای یکسان باشد، چون مطالب شما هم با آدرس میهن بلاگ و هم بودن آن قابل دسترس است؛ این مطلب شاید در تشریح مشکل کمک کند:
حل مشکل مطالب تکراری (duplicate content) در سایت
نویسنده: محمد
۱۳:۴۳ ۱۳۹۱/۰۶/۱۵
اما این متنی است که گوگل برای ما فرستاده :
http://www.full-dl.com/: Googlebot can't access your site
Over the last 24 hours, Googlebot encountered 13 errors while attempting to access your robots.txt. To ensure that we didn't crawl any pages listed in that file, we postponed our crawl. Your site's overall robots.txt error rate is 100.0%.

Recommended action
If the site error rate is 100%:

Using a web browser, attempt to access http://www.full-dl.com//robots.txt. If you are able to access it from your browser, then your site may be configured to deny access to googlebot. Check the configuration of your firewall and site to ensure that you are not denying access to googlebot.
If your robots.txt is a static page, verify that your web service has proper permissions to access the file.
If your robots.txt is dynamically generated, verify that the scripts that generate the robots.txt are properly configured and have permission to run. Check the logs for your website to see if your scripts are failing, and if so attempt to diagnose the cause of the failure.

If the site error rate is less than 100%:

Using Webmaster Tools, find a day with a high error rate and examine the logs for your web server for that day. Look for errors accessing robots.txt in the logs for that day and fix the causes of those errors.
The most likely explanation is that your site is overloaded. Contact your hosting provider and discuss reconfiguring your web server or adding more resources to your website.
پاسخ: 
این مشکل می تواند چند دلیل داشته باشد، شاید به بلاک شدن IP های گوگل توسط فایروال سرور یا مشکل DNS دامنه مربوط شود، برای بررسی، بهتر است در سرویس وبمستر گوگل وضعیت سلامت سایت را چک کنید یا در بخش Fetch as Google آدرس فایل robots.txt را امتحان کنید.
نکته: یک اسلش (/) اضافه هم در آدرس فایل دیده می شود؟!
اگر این فایل بلاک شده باشد، پیشنهاد می کنیم با پشتیبانی میهن بلاگ موضوع را مطرح کنید.
نویسنده: محمد
۱۶:۳۸ ۱۳۹۱/۰۶/۱۵
متشکرم که با حوصله وقت گذاشتین و پاسخگو بودین.
در وب مستر تولز چک کردم :Unreachable
به پشتیبانی بلاگم ایمیل زدم منتظر پاسخ اونا هستم.
بازم تشکر
پاسخ: 
خواهش می کنیم، امیدواریم که مشکل هر چه زودتر حل شود.
نویسنده: حسین
۰۰:۴۲ ۱۳۹۱/۰۹/۱۰
سلام اگه ما Disallow ها رو نوشتیم بقیه فایل و پوشه ها که در Disallow ننوشته به طور خودکار allow میشن ؟ یا نه اونا رو تک تک باید allow تعریف کنیم براشون؟ ممنون
پاسخ: 
سلام
بله، استفاده از Allow اختیاری است و به صورت پیش فرض هر فایل یا دایرکتوری که Disallow نباشد Allow است، البته الزاما این به معنی پیدا شدن و ایندکس شدن آن دایرکتوری یا فایل نیست، بلکه باید لینکی نیز در وبسایت شما به آن فایل یا دایرکتوری ارجاع داده باشد.
۱۰:۰۸ ۱۳۹۱/۱۰/۱۹
سلام
اگر بخواهيم اجازه دسترسي به همه فايلها را به گوگل بدهيم بايد يك فايل متني خالي با نام robots ايجاد كرده و در سايت قرار دهيم؟
وجود اين فايل بهتر است يا نبود آن؟
پاسخ: 
سلام
بهتر است یک فایل ایجاد کنید و کد زیر را در آن قرار دهید:
User-agent: *
Allow: /
هر چند فایل خالی باشد هم در عمل تفاوتی نیست.
اگر فایل وجود داشته باشد بهتر است، چون ربات های جستجوگر به دفعات، وجود این فایل در سرور را بررسی می کنند و اگر وجود نداشته باشد، خطاهای 404 در log سرور بی مورد ثبت می شوند، ضمن اینکه اگر در ابزارهای وبمستر گوگل یا bing مایکروسافت عضو باشید، به احتمال زیاد، پیام هشدار به این خاطر دریافت خواهید کرد.
نویسنده: Mousa
۱۰:۳۶ ۱۳۹۱/۱۱/۰۸
با سلام و خسته نباشید.
مطلب خیلی خوبی بود. چند وقتی بود که با این فایل robots درگیر بودم. مرسی
نویسنده: رضا
۱۵:۳۱ ۱۳۹۱/۱۲/۰۷
با سلام و خسته نباشید.
مطلب خیلی خوبی بود.
یعنی با استفاده از این کد میتوان ان را از همه جستجوگرها پنهان کرد؟
پاسخ: 
سلام
از جسجوگرهای استاندارد (که از دستورات فایل robot.txt پیروی می کنند) و با رعایت سایر نکاتی که در آموزش عنوان شده.
نویسنده: رضایی
۰۲:۱۸ ۱۳۹۲/۰۱/۲۳
با سلام و خسته نباشید
یک سوال داشتم
من مثلآ سایتم
www.site.com
است و یک سایت دیگه طراحی کردم و تو پوشه test ریختم یعنی وقتی آدرس
www.site.com/test
رو میزنم سایت جدید میاد بالا
حالا میخام که در پوشه test موقتآ صفحات و لینکهای داخل صفحات در گوگل ایندکس نشود در فایل روبوت چه باید بنویسم و محل قرار گیریش در کجای هاست باید باشد. ممنون میشم یه راهنمایی بفرمایید
با تشکر از سایت مفیدتون
رضایی
پاسخ: 
سلام
همان طور که در آموزش توضیح داده شده، کافی است بنویسید:
User-agent: *
Disallow: /test/
، فایل robots.txt را هم در ریشه سایت اصلی قرار دهید، البته تا زمانی که از سایت جدید آدرسی در دسترس ربات ها نباشد (لینکی در صفحات قابل دسترس فعلی به سایت جدید نباشد)، آنها این دایرکتوری را ایندکس نمی کنند.
نویسنده: مهدی
۱۱:۴۴ ۱۳۹۲/۰۱/۲۹
باسلام. ممنون از اطلاعات دقیق شما. سوالی داشتم سایتی که راه اندازی کردم مدتی است با نوشتن این متن
((به دلیل robots.txt این سایت، توضیحی برای این نتیجه وجود ندارد)) متاسفانه سایت بالا نمیاد یا صفحه باز نمیشه ممنون میشم که راه حل این مسئله رو بدونم منتظر جواب هستم
پاسخ: 
سلام
اگر برای راه اندازی سایت از CMS (مانند وردپرس، جوملا و...) استفاده کرده اید، در درجه اول باید به انجمن آن مراجعه کنید، چون این نوع مشکلات ممکن است به موارد دیگری نیز ارتباط داشته باشد، اما با فرض اینکه از وردپرس استفاده می کنید، ابتدا یک پشتیبان از فایل robots.txt فعلی تهیه کنید و سپس محتویات آن را به حالت پیش فرض تغییر دهید، حالت پیش فرض:
Sitemap: http://www.example.com/sitemap.xml

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

# digg mirror
User-agent: duggmirror
Disallow: /

# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
اگر مشکل حل نشد، ممکن است مسئله از مورد دیگری باشد.
نویسنده: مهدی
۱۸:۲۷ ۱۳۹۲/۰۱/۲۹
چگون میتونم پشتیبان تهیه کنم؟عذر میخوام اگه میشه جواب بدین
پاسخ: 
وارد پنل هاست خود شوید و در ریشه سایت، فایل robots.txt فعلی را دانلود کنید (و در یکی از درایوهای کامپوتر خود جهت استفاده های بعدی ذخیره کنید)، سپس فایل جدیدی که ساخته اید را جایگزین آن نمائید.
نویسنده: سامان
۱۱:۰۶ ۱۳۹۲/۰۲/۱۳
سلام
خسته نباشید
یه سوال:
من سایتم رو گوگل سرچ کردم به زور یه دونه میاره ، اونم نوشته "به دلیل robots.txt این سایت، توضیحی برای این نتیجه وجود ندارد – بیشتر بیاموزید."
باید چکار کنم؟
اصلا فایل روبات robots.txt در هاست وجود نداره که درستش کنم! این فایل کجا است؟
ممنون کمکم کنید
پاسخ: 
سلام
فایل robots.txt در ریشه سایت (فولدر www یا public_html) وجود دارد، یعنی برای سایت شما به صورت زیر قابل دسترسی است:
yoursite.ir/robots.txt
با تایپ این آدرس متوجه می شویم که دستور زیر در آن قرار دارد:
User-agent: *
Disallow: /
و این دستور دسترسی ربات خزنده را به تمام دایرکتوری ها ممنوع می کند، برای رفع مشکل، دستور را به شکل زیر تغییر دهید:
User-agent: *
Allow: /
برای کسب اطلاعات بیشتر نیز آموزش را مطالعه کنید.
نویسنده: سامان
۱۸:۴۴ ۱۳۹۲/۰۲/۱۳
سلام دوباره!
خیلی ممنون از قسمت بالا!
ولی اون فایل روبات اصلا نیست من خودم یه دونه ساختم گذاشتم ولی گوگل باز همون یکی اولی رو نشون میده ، فایل منو اصلا خیالش نمیاره
با تشکر
پاسخ: 
سلام
در مورد اینکه فایل نیست، ممکن است به صورت داینامیک ایجاد شود و فایل حقیقی نباشد، به هر صورت خروجی مهم است نه روش ساخت، اما در مورد اینکه گوگل از تنظیمات همان فایل قبلی استفاده می کند، باید مدتی صبر کنید (حداقل سه روز) تا اطلاعات جدید فراخوانی شده و رفتار خزنده بر آن اساس تغییر کند.
نویسنده: behbod
۰۲:۱۲ ۱۳۹۲/۰۲/۲۷
ممنون از مطلب مفیدتون من که خیلی استفاده کردم
فقط یه سوال دارم که اگر جواب بدید ممنون میشم
تفاوت فرمان
User-agent: *
Disallow:
و فرمان
User-agent: *
Allow: /
در چیست؟
پاسخ: 
سلام
همان طور که در آموزش توضیح داده شده، دستور Disallow با واسط کاربری * دسترسی به کل سایت را برای تمام ربات ها غیر مجاز می کند (البته برای ربات هایی که از دستورات فایل robots.txt پیروی می کنند)، اما دستور Allow با واسط کاربری * برعکس، دسترسی به تمام دایرکتوری ها را مجاز می کند.
نویسنده: behbod
۱۹:۴۴ ۱۳۹۲/۰۲/۲۷
ممنون از جواب سریعتون
ولی همونطور که در کد معلومه جلوی دستور Disallow چیزی نیست میخوام بدونم اگر / نباشه بازم دسترسی محدود میشه یا عملکردش مشابه دستور Allow میشه
چون یک سایت رو دیدم در گوگل صفحه اول بود و از این دستور استفاده کرده بود:
User-agent: *
Disallow:
پاسخ: 
بله، با حذف علامت / که به معنی ریشه سایت است، عملکرد Disallow مانند Allow می شود، البته بهتر است از Allow استفاده شود، چون مشخص تر و به هدف از به کاربردن دستور نزدیک تر است.
نکته: در مورد حالت فوق نحوه استفاده از دستورات هیچ تاثیری در رتبه گوگل ندارد.
more لطفا پیش از ارسال یادداشت نکات زیر را مد نظر داشته باشید:
- موارد غیرمرتبط با مباحث آموزش ها را در فرم منوی "تماس با ما" مطرح و پاسخ را از طریق ایمیل دریافت کنید.
- به سوالات کلی، مبهم و مشکلاتی که تلاشی برای رفع آن نکرده باشید پاسخ مختصر داده خواهد شد.
- کدها و اسکریپت های طولانی را ترجیحا در یک صفحه وب آنلاین قرار دهید تا امکان تست و بررسی وجود داشته باشد.
- از درج عناوین تبلیغاتی در فیلدها خودداری کنید، در صورتی که یادداشت تبلیغاتی تشخیص داده شود حذف خواهد شد.
- تمام یادداشت ها بررسی و زمانی جهت پاسخگویی در نظر گرفته می شود، لطفا از طرح سوالات متعدد خودداری کنید.





6 × 7
 refresh

آخرین دیدگاه ها
more برای دسترسی سریع به یادداشت مربوطه می توانید از لینک مطلب در کادر زیر استفاده کنید.
form آی تی
در:
ممنون آینده کاری پی اچ پی خوبه یا جاواسکریپت؟
۱۴۰۰/۰۴/۳۰

form رضا
در:
با عرض سلام و خسته نباشید ایا امکان این قضیه در outlook وجود دارد که ما ادرس فرستنده را از طریق آن بتوانیم پیدا...
۱۴۰۰/۰۴/۳۰

form محمود
در:
سلام مهندس چگونه می شود میزان حرکت اسکرول را تعیین کرد. یعنی با یه حرکت غلطک موس صفحه بعدی در کادر قرار بگیرد....
۱۴۰۰/۰۴/۳۰

form محمد
در:
سلام خیلی خیلی ممنون تشکر
۱۴۰۰/۰۴/۲۷

form محمود
در:
سلام چگونه حاشیه های ناتمام ایجاد کنیم. یعنی تمام دور کادر کامل نباشد و بردر دور کادر ناقص باشد. مثلن بردر سمت راست تا...
۱۴۰۰/۰۴/۲۷

form محمد
در:
سلام ببخشید من با curl میخواستم فایلی رو با api بفرستم ولی جواب نداد اگر امکانش هست تصحیحش کنید:
۱۴۰۰/۰۴/۲۷

form برنامه نویس
در:
سلام و عرض ادب خدمت استاد. یه سوال خدمت شما داشتم. چطور می تونیم از ادیتور مثل ckeditor یا tinymsc به جای textarea...
۱۴۰۰/۰۴/۲۷

form جواد
در:
با سلام من دانشی از برنامه نویسی ندارم ، میشه برنامه ای نوشت که آدرس یک صفحه بعد از لاگین شدن بهش داد و هر...
۱۴۰۰/۰۴/۲۱

form علی
در:
سلام خوبین؟ من میخوام برای وبلاگم سبد خرید بزنم ولی php و ........ بلد نیستم اگه برام درست کنین ممنونتون میشم
۱۴۰۰/۰۴/۱۹

form سینا الف
در:
باسلام! من از این آموزش‌ سایت‌تون هم خیلی استفاده کردم. ضمن تشکر صمیمانه از مدیریت وبگو بابت مطالب مفید و کاربری اش، سوالی درباره...
۱۴۰۰/۰۴/۱۸

form محمود
در:
سلام و تشکر از کمک های قبلی تان. در بخش بالا قسمت «تغییر رنگ پس زمینه با کلیک کاربرم» را خوندم . ولی کد...
۱۴۰۰/۰۴/۱۸

form محمود
در:
با سلام دوباره نمونه کدی که برای افکت پس زمینه چراغ پلیس و صدا قرار دادین خیلی خوب کار میکند و بسیار سپاس ....
۱۴۰۰/۰۴/۱۴

form احمد
در:
سلام خسته نباشید من یه کد نوشتم که قیمت کالا ها و نام کالا ها رو از یه صفحه برام استخراج کنه و بصورت جدول...
۱۴۰۰/۰۴/۱۴

form محمود
در:
سلام و عرض ادب چگونه می شود با کلیک روی یک متن ، کل پس زمینه در یک آن چشمک بزند یعنی رنگ...
۱۴۰۰/۰۴/۱۱

form مجید
در:
سلام. من برنامه ای دارم که بر اساس php و mysql کار میکنه. بهش 100 جمله میدم و جملات رو تصادفی نمایش میده. حالا میخام...
۱۴۰۰/۰۴/۱۰

form Amir
در:
خیلی عالی بود
۱۴۰۰/۰۴/۱۰

form Amir
در:
سلام ببخشید یک کانال تلگرامی است که سیگنال میده و شرطی اینکه در آلپاری و لایت فارسی حساب داشته باشی و تحت ای پی آنها...
۱۴۰۰/۰۴/۱۰

form مجید
در:
خیر ببینی جوون - این اسکرول افقی کلی اعصاب رو بهم ریخته بود .
۱۴۰۰/۰۴/۰۷

form جین مین
در:
با سلام و وقت بخیر من تمام مراحل رو به نظر خودم درست انجام دادم و فایل هم دانلود میشه اما مشکل اصلی اونجاست...
۱۴۰۰/۰۴/۰۶
  در انتظار بررسی: ۰
 پاسخگویی به سوالات ممکن است تا 24 ساعت زمان ببرد.