آموزش برنامه نویسی وب و مهارتهای مرتبط

شنبه ۲۲ شهریور ۱۴۰۴

Saturday, September 13, 2025 GMT +3:30

دسته بندی

دسترسی سریع

نحوه استفاده از فایل robots.txt در سایت

فایل robots.txt چیست و چه کاربردی دارد؟

همه ربات ها از دستورات فایل robots.txt پیروی نمی کنند!

نحوه تنظیم دستورات فایل robots.txt

چند مثال از کاربرد دستورات فایل robots.txt

استفاده از الگو (Pattern) در دستورات فایل robots.txt

ایجاد تاخیر در درخواست ها با دستور Crawl-delay

افزودن نقشه XML سایت به فایل robots.txt

سایر روش های مسدود سازی آدرس ها برای ربات های خزنده

نحوه استفاده از فایل robots.txt در سایت

از زمان شکل گیری ابزار ارتباطی نوین به نام اینترنت و مشارکت عموم در ایجاد و استفاده از محتوا در بستر شبکه جهانی وب قوانین و قواعدی نیز در جهت تولید و دسترسی اصولی به پایگاه های اینترنتی وضع شد که در بحث بهینه سازی سایت یا سئو (SEO مخفف Search Engine Optimization) عمدتا موتورهای جستجوگر معروفی چون گوگل (Google)، بینگ (Bing)، یاهو (Yahoo) و ابرشرکت ها دخیل بوده اند، بدین ترتیب با هم اندیشی توسعه دهنده گان و مهندسین حوزه وب به تدریج استانداردها و قواعدی برای تعامل مدیران سایت ها با موتورهای جستجو تدوین شد که یکی از این قواعد امکان کنترل رفتار ربات های خزنده (Crawler Bots) موتورهای جستجو به وسلیه ایجاد و تنظیم فایلی به نام robots.txt در ریشه سایت است، بدین وسیله می توان تا حدودی رفتار ربات ها را در نحوه جستجو و ایندکس صفحات وبسایت ها مدیریت کنیم که در ادامه به چگونگی انجام این کار و بایدها و نبایدهای استفاده از این امکان اشاره خواهیم کرد.

فایل robots.txt چیست و چه کاربردی دارد؟

طبق دستورالعمل پروتکل استثناء سازی ربات ها (REP مخفف Robots Exclusion Protocol) فایل robots.txt یک فایل متنی ساده است که می توان آن را با هر ویرایشگری ایجاد و با فرمت txt ذخیره نمود، این فایل در ریشه سایت قرار می گیرد (یعنی به طور مستقیم در فولدر www یا public_html و در بالاترین سطح) به طوری که اگر بعد از آدرس سایت عبارت robots.txt را تایپ کنیم این فایل در دسترس باشد، به طور مثال:

https://webgoo.ir/robots.txt

از فایل robots.txt عمدتا برای تعیین رفتار ربات های خزنده در تعامل با صفحات مختلف سایت (آدرس های URL) به دو صورت مجاز (Allow، حالت پیش فرض) و غیرمجاز (Disallow) استفاده می شود به فرض در مواردی ممکن است نخواهیم صفحاتی از سایتمان توسط ربات های خزنده موتورهای جستجو بررسی و ایندکس شود یا شاید قبلا این کار صورت گرفته و اکنون به هر دلیل می خواهیم این صفحات را از دیتابیس موتور جستجوی مورد نظرمان حذف کنیم، البته استفاده از فایل robots.txt برای حذف آدرس های ایندکس شده از نتایج موتورهای جستجو اولین گام است و برای تکمیل کار و ثبت درخواست حذف باید به ابزار وبمستر سرویس هایی مانند گوگل (Google) در آدرس:

https://www.google.com/webmasters/tools

و بینگ (Bing) در آدرس:

http://www.bing.com/toolbox/webmaster

مراجعه کنیم.
با این تفاسیر استفاده از این فایل از نظر فنی همیشه هم ضروری نیست و همانطور که گفتیم در موارد مسدود کردن دسترسی ربات ها به صفحات خاص (URLهای خاص) کاربرد دارد اما به دلیل اینکه اکثر ربات های جستجوگر (Crawler Bots) همواره فایل robots.txt را از سرور درخواست می کنند بهتر است برای اجتناب از افزایش خطاهای 404 که در بخش Log ها و آمار سایت جلوه خوبی ندارد حتی شده یک فایل خالی با این نام در ریشه سایت خود قرار دهیم.
نکته: استفاده از فایل robots.txt صرفا به مجاز و غیرمجاز کردن آدرس ها برای ربات های موتورهای جستجو محدود نمی شود، در ادامه خواهیم دید که تعیین دوره تاخیر رجوع به صفحات با دستور Crawl-delay و معرفی نقشه XML سایت نیز می تواند از جمله کاربردهای این فایل باشد.

همه ربات ها از دستورات فایل robots.txt پیروی نمی کنند!

در خصوص استفاده از دستورات فایل robots.txt به این نکته باید توجه داشته باشیم که تنها ربات های خزنده برخی سرویس ها و شرکت های معتبر به قوانین پروتکل استثناء سازی ربات ها (REP مخفف Robots Exclusion Protocol) ناقص یا کامل احترام می گذارند و در مقابل برخی هکرها حتی برای ارسال اسپم یا نفوذ به صفحات حساس سایت ها نیز ممکن است از این فایل سوء استفاده کنند، لذا این نکته دارای اهمیت زیادی است که هیچگاه برای محافظت از دایرکتوری های حساس مانند دایرکتوری مدیریت سایت به این فایل تکیه نکنیم و آدرس دایرکتوری های مخفی را در فایل robots.txt قرار ندهیم چون محتوای این فایل به راحتی در معرض دید عموم است و درج اطلاعات ساختار سایت ممکن است موجبات سوء استفاده های احتمالی را فراهم کند، بهترین روش برای جلوگیری از ایندکس نشدن دایرکتوری های حساس این است که هیچ لینک خروجی و در معرض دید و دسترس ربات در صفحات خود نداشته باشیم و از طرف دیگر دسترسی به محتوای این نوع صفحات را با ایجاد سیستم دریافت نام کاربری و کلمه عبور محدود کنیم.
نکته: برخی از ربات ها ممکن است به صورت ناقص از پروتکل REP پشتیبانی کنند و همچنان قوانین خاص خودشان را در پیمایش آدرس های مختلف داشته باشند، نمونه بارز این ربات ها مربوط به سرویس گوگل (Googlebot) است که برخی قوانین فایل robots.txt را نادیده می گیرد.

نحوه تنظیم دستورات فایل robots.txt

دستورات فایل robots.txt معمولا از دو قسمت اصلی به شکل نمونه Syntax زیر تشکیل می شوند:

User-agent: Googlebot
Disallow: /dir/

در این نمونه دستور قسمت User-agent نام خزنده یا ربات و قسمت Disallow آدرس دایرکتوری که دسترسی به آن را مسدود می کنیم را مشخص می کند، عبارت Googlebot نام ربات سرویس گوگل است که این قسمت می تواند با نام ربات های دیگر (به فرض Bingbot) یا کاراکتر * (همه ربات ها) تکمیل شود، به طور مثال اگر در فایل خود کد زیر را قرار دهیم:

User-agent: *
Disallow: /image/

با پیروی از این دستور ربات ها صرف نظر از نامشان دیگر محتوای فولدر image را بررسی نکرده و سرویس جستجوی مربوطه هم در لیست نتایج آدرس های متناظر با این دایرکتوری را نمایش نمی دهد، همان طور که اشاره شد هنگامی که از علامت ستاره (*) برای قسمت User-agent استفاده می کنیم واسط کاربری شامل تمام ربات ها می شود.
نکته: به یاد داشته باشیم که در ابتدای آدرس دایرکتوری ها باید از یک اسلش (/) نیز استفاده و در درج حروف به بزرگ یا کوچک بودن آنها نیز دقت کنیم (به فرض دایرکتوری Image در مقایسه با image از دید ربات ها معمولا دو آدرس متفاوت هستند).

چند مثال از کاربرد دستورات فایل robots.txt

برای آشنایی اولیه و شروع استفاده از فایل robots.txt در ادامه چند نمونه دستور ساده با تنظیمات متفاوت را با هم بررسی می کنیم.
- غیرمجاز (Disallow) کردن یک دایرکتوری خاص برای تمام ربات ها:

User-agent: *
Disallow: /old-posts/

این دستور دسترسی به فولدر فرضی old-posts را برای تمام ربات ها غیرمجاز می کند.
- غیرمجاز (Disallow) کردن یک فایل در دایرکتوری برای تمام ربات ها:

User-agent: *
Disallow: /old-posts/mypic.jpg

نمونه دستور بالا دسترسی به فایل mypic.jpg را که در دایرکتوری old-posts قرار دارد برای تمام ربات ها غیرمجاز می کند.
- غیرمجاز (Disallow) کردن یک فایل در ریشه سایت برای تمام ربات ها:

User-agent: *
Disallow: /expired.html

در این نمونه دستور فایل expired.html که در ریشه سایت قرار دارد برای تمام ربات ها غیرمجاز شده است.
- غیرمجاز (Disallow) کردن یک فولدر برای یک ربات خاص و مجاز (Allow) کردن آن برای سایر ربات ها:

User-agent: Googlebot
Disallow: /nofollow/

در حالت پیش فرض کلیه آدرس هایی که Disallow نباشند Allow هستند و لذا در نظر گرفتن آدرس های مجاز در اینگونه موارد ضرورتی ندارد.
- غیرمجاز (Disallow) بودن تمام صفحات برای تمام ربات ها:

User-agent: *
Disallow: /

در استفاده از این شکل دستورات باید دقت زیادی داشته باشیم چون ممکن است به شکل ناخواسته ای دسترسی ربات ها به کل سایت را مسدود کنیم.
- مجاز (Allow) بودن تمام صفحات برای تمام ربات ها:

User-agent: *
Allow: /

- مجاز (Allow) و غیرمجاز (Disallow) بودن برخی صفحات برای تمام ربات ها:

User-agent: *
Disallow: /some-page-1/
Disallow: /some-page-2/
Allow: /some-page-3/

همان طور که مشخص است برای یک User-agent همزمان می توانیم آدرس های متعددی را مجاز و غیرمجاز کنیم.
در صورت نیاز برای دیدن لیست کامل ربات ها و درج در قسمت User-agent می توانیم به دیتابیس موجود در آدرس زیر مراجعه کنیم:

http://www.robotstxt.org/db

اختصاص دستور برای ربات های خاص معمولا خیلی کاربردی نیست اما جهت آشنایی بیشتر اطلاع از اسامی و جزئیات ربات های سرویس های مختلف خالی از لطف نخواهد بود.
یادآوری مهم: مجاز یا غیرمجاز بودن صرفا برای ربات هایی کاربرد دارد که به قوانین فایل robots.txt احترام بگذارند در غیر اینصورت دستورات این فایل برای ربات های ناشناس بی اثر خواهد بود.

استفاده از الگو (Pattern) در دستورات فایل robots.txt

علاوه بر دستورات ساده بالا برخی ربات ها (از جمله ربات سرویس گوگل) از قوانین پیچیده تری نیز پشتیبانی می کنند، این قوانین بر مبنای الگوی (Pattern) عبارات با قاعده (Regular Expressions) هستند با این تفاوت که در اینجا فقط دو کاراکتر دستوری خاص (* $) قابل استفاده است که در ادامه بررسی می کنیم.
- برای تطبیق "توالی از عبارات" از کاراکتر * استفاده می شود، به طور مثال اگر ما چند دایرکتوری داشته باشیم که با عبارت فرضی book شروع شده و بخواهیم با یک دستور دسترسی ربات را به تمام آنها مسدود کنیم، خواهیم نوشت:

User-agent: Googlebot
Disallow: /book*/

به این ترتیب فولدرهای فرضی booksell، bookread، bookiran و... برای ربات مسدود خواهند شد، لذا نقش علامت * در الگو این است که عبارات بعد از آن در تطبیق نادیده گرفته می شوند (* یعنی هر کاراکتری با صفر تکرار یا بیشتر).
- برای مسدود کردن آدرس های URL داینامیک از کاراکتر * به همراه علامت سوال (?) استفاده می کنیم، به فرض دستور زیر تمام آدرس های داینامیک را برای تمام ربات ها غیر قابل دسترس می کند:

User-agent: *
Disallow: /*?

دقت کنیم کاراکتر علامت سوال (?) مربوط به شروع قسمت داینامیک آدرس ها است، به فرض:

http://example.com/?id=1

و در فایل robots.txt صرفا یک کاراکتر متنی است (نه دستوری)، همان طور که گفتیم تنها دو کاراکتر * و $ نقش دستوری و حالت Regular Expressions دارند.
بر همین مبنا می توانیم برای ساب دایرکتوری ها (دایرکتوری های زیر مجموعه) نیز دسترسی را مسدود کنیم و از این نظر محدودیتی نیست:

User-agent: *
Disallow: /articles/*?

- برای مشخص کردن انتهای یک الگو از علامت $ استفاده می شود، به فرض اگر قصد ما مسدود کردن تمام فایل های با پسوند png برای ربات ها باشد خواهیم نوشت:

User-agent: * 
Disallow: /*.png$

به این ترتیب تمام فایل هایی که به پسوند png ختم شده باشند برای تمام ربات ها مسدود می شوند.
یا اگر بخواهیم آدرس هایی را که به عبارت فرضی private ختم می شوند را برای ربات گوگل مسدود کنیم خواهیم نوشت:

User-agent: Googlebot
Disallow: /*private$

که این دستور نمونه آدرس های فرضی

http://example.com/account/public-private
http://example.com/?domain=private
http://example.com/1234/private

را برای ربات گوگل مسدود خواهد کرد.

ایجاد تاخیر در درخواست ها با دستور Crawl-delay

ایجاد وقفه و تاخیر در روند درخواست آدرس های URL سایت دستور دیگری است که با عبارت Crawl-delay در فایل robots.txt قابل تعریف است، در حالت معمول ربات ها می توانند در فواصل زمانی خیلی کم و هر چند ثانیه یکی از صفحات سایت را درخواست کنند که تعداد بالا و مداوم این درخواست ها ممکن است فشار زیادی به سرور وارد کند، هرچند این حالت خیلی متداول نیست اما در صورت لزوم برای کنترل و کاستن از این فشار قابلیتی تحت عنوان Crawl-delay وجود دارد که می توانیم در فایل robots.txt به صورت نمونه زیر از آن استفاده کنیم:

User-agent: *
Crawl-delay: 15

به این صورت حداقل زمان وقفه بین درخواست های ربات باید 15 ثانیه باشد به عبارتی هر 15 ثانیه صرفا یک درخواست URL از سرور مجاز است.
نکته: گوگل از دستور Crawl-delay پشتیبانی نمی کند، برای تنظیم روند درخواست های ربات این سرویس باید از قابلیت Crawl Rate در قسمت تنظیمات ابزار وبمستر گوگل (Google Webmasters Tools) در آدرس زیر استفاده کنیم:

https://www.google.com/webmasters/tools/settings

در این قسمت با داشتن حساب گوگل و ثبت قبلی سایت می توانیم میزان دفعات مراجعه ربات به صفحات را بین مقدار کم (Low) تا زیاد (High) تنظیم کنیم، البته گوگل توصیه می کند که تنظیمات پیش فرض را تغییر ندهیم مگر اینکه واقعا ربات این سرویس باعث کندی عملکرد سرور سایت شده باشد.

افزودن نقشه XML سایت به فایل robots.txt

قابلیت دیگر فایل robots.txt امکان درج نقشه XML سایت (Sitemap) است که بخصوص مورد علاقه موتورهای جستجو بوده و فاکتور مهمی در بهینه سازی سایت (SEO) محسوب می شود، نقشه XML عموما شامل کل آدرس های URL یکتای سایت در قالب فایلی با پسوند xml است که برای معرفی این فایل به موتورهای جستجو از عبارت Sitemap به شکل نمونه زیر استفاده می کنیم:

User-agent: *
Disallow: /articles/22.html
Disallow: /articles/23.html
Disallow: /articles/?post=159&title=آموزش-برنامه-نویسی-وب

Sitemap: https://webgoo.ir/sitemap.xml

نقشه XML معمولا در ریشه سایت قرار داشته و به پسوند xml ختم می شود اما در حال حاضر الزامی هم برای این حالت نیست و ممکن است در آدرس های دیگری بدون پسوند xml نیز وجود داشته باشد اما مهم است که به نحو صحیح در قسمت Sitemap معرفی و خروجی XML معتبر داشته باشد.

سایر روش های مسدود سازی آدرس ها برای ربات های خزنده

در پایان این مطلب بد نیست اشاره ای به سایر روش های مسدود سازی آدرس های URL برای ربات های خزنده وب داشته باشیم، علاوه بر استفاده از دستورات فایل robots.txt جهت کنترل رفتار خزنده های با اصل و نسب دو روش دیگر نیز برای این کار وجود دارد:
- روش اول استفاده از متاتگ noindex است که در قسمت head سورس کد HTML صفحه قرار می گیرد، به طور مثال:

<meta name="robots" content="noindex">

یا

<meta name="googlebot" content="noindex">

در صورت وجود این متاتگ در سورس HTML صفحه عموم ربات های خزنده پیرو پروتکل REP از دستورات آن تبعیت کرده و آدرس URL را ایندکس نخواهند کرد.
- روش دوم ارسال سربرگ HTTP برای ربات ها در هنگام درخواست آدرس URL صفحه است، انجام این کار در PHP می تواند با استفاده از توابع header و مقادیر X-Robots-Tag: noindex به شکل نمونه زیر باشد:

header("X-Robots-Tag: noindex", true);

یا

header("X-Robots-Tag: noindex, nofollow", true);

در صورت استفاده از nofollow در کنار noindex علاوه بر ایندکس نشدن محتوای صفحه، آدرس های URL ای که از صفحه فعلی به صفحات دیگر ارجاع داده شده نیز دنبال (Follow) نخواهند شد.
نکته: برخی از ربات ها ممکن است به صورت ناقص از پروتکل REP پشتیبانی کنند و همچنان قوانین خاص خودشان را در پیمایش آدرس های مختلف داشته باشند، لذا همیشه این احتمال وجود دارد که صفحات در دسترس سایت ایندکس و آدرس های URL آن دنبال (Follow) شوند.

دسته بندی: مهارتهای وب » بهینه سازی

برچسب ها: SEO

قبلی »

« بعدی

مطالب بیشتر:
مشکلات رایج در کدنویسی معتبر و رفع آنها
پیج رنک چیست و چگونه می توان آن را افزایش داد؟
حل مشکل محتوای تکراری (Duplicate Content) در سایت
مقایسه خطای 404 و کد 301 ریدایرکت (Redirect)
رتبه بندی الکسا (Alexa) چیست و چقدر اهمیت دارد؟!

دیدگاه

۸۳ دیدگاه برای این مطلب ارسال شده است.

چینش دیدگاه ها به ترتیب از جدیدترین به قدیمی ترین است.

سهیل

۱۱:۱۱ ۱۳۹۵/۱۰/۱۴

سلام ؛
اگر url سایت ما مثل (site.com/dis/i/10172/20/salam) باشه ، حالا بجای عدد 20 یه عدد دیگه ای بزاریم دوباره همون صفحه و مطلب عدد 20 بالا میاد ... حالا گوگل اومده چن تا مث این صفحه رو ایندکس کرده و مطالب ما کپی دراومده !! تو رباتز [دات] تی ایکس تی باید چه دستوراتی رو وارد کنم که فقط این گونه url ها رو ایندکس نکنه ؟!

اگر درست متوجه سوالتان شده باشیم، انجام این کار با فایل robots.txt میسر نیست! مگر اینکه تک تک آدرس ها را به صورت دستی وارد کنید که جزء برای موارد محدود، راه حل کاربردی نیست! این موارد باید با کدنویسی سمت سرور رفع شوند (در گام اول باید لینک های اضافه تولید نشوند و در گام های بعد می توان از ریدایرکت 301 و link rel canonical استفاده کرد).

مهدی

۱۳:۵۶ ۱۳۹۵/۰۹/۲۱

سلام
من یک سایت نیازمندی دارم صفحه توضیحات هر آگهی لینکی به صورت زیر داره :

http://test.ir/news/18161276.html

که باید ایندکس بشه
در زیر سایر آگهی ها رو داریم که صفحه بندی شده با آدرس مطابق زیر :

http://test.ir/news/18161276/page_1.html

نمیخوام این صفحه بندی ها ایندکس بشه.
آیا کد زیر صحیح است؟
و آیا باعث جلوگیری از ایندکس کد اولی نمی شود؟

Disallow: /news/*/page_*.html$

الگوی دستور تداخلی با لینک های اصلی ندارد، پس نباید مشکلی از این نظر باشد، اما برای اطمینان از اینکه ربات دستورات شما را درک کرده است، بهتر است سایت خود را در ابزار وبسمتر گوگل ثبت و از آنجا سایتتان را مانیتور کنید!

حسین معصومین

۱۴:۰۸ ۱۳۹۵/۰۹/۱۵

سلام
من سایتم تو سرچ اینترنت از وقتی براش فایل روبوت درست کرده بودم این پیغام رو میده

A description for this result is not available because of this site’s robots.txt

الان هم که کلا تو ربوتس همه چی رو باز گذاشتم بازم نرفته چکار کنم

http://mynegin.ir/robots.txt

یه مدتیه اصلا ورودی از گوگل ندارم دیگه
چطوری درست میشه ؟
با جستجوی “دانلود رایگان نرم افزار آژانس تاکسی تلفنی” قبلا لینک اول گوگل بود حالا اصلا نمیاد

http://mynegin.ir

لطفا کمکم کنید

سایت خود را در ابزار وبسمتر گوگل ثبت و چک نمائید، همچنین برای اعمال دستورات جدید باید مدت زمانی از اعمال آخرین تغییرات بگذرد، در هر حال اگر اشکال از دستورات قبلی فایل robots.txt بوده باشد، با تغییر این دستورات، به روال عادی باز خواهد گشت!

حسین معصومین

۱۹:۰۰ ۱۳۹۵/۰۹/۱۳

سلام
من برای سایتم این فایل رو ایجاد کردم ولی متاسفانه برعکس شد و ترافیک سایتم خیلی اومد پایین
تو نتایج جستجو گوگل مینویسه در فایل robots.txt بسته شده ولی اینطور نیست
به نظر تون باید چکارکنم ؟
لطفا کمکم کنید

کاهش ترافیک سایتتان با توجه به دستورات فعلی فایل robots.txt نمی تواند به این موضوع خیلی ارتباط داشته باشد مگر اینکه دستورات دیگری قرار داده باشید، در اینصورت باید مدت زمانی بگذرد تا دستورات جدید اعمال شود!

سجاد

۱۵:۱۵ ۱۳۹۵/۰۹/۰۹

سلام خسته نباشید
ببخشید من فایل robots.txt رو با دستور

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

ایجاد کردم و داخل هاست قرار دادم
الان وقتی از طریق ادرس سایت چکش میکنم یعنی اخر ادرس سایتم robots.txt رو میزارم تمام جزیات txt رو میتونم ببینم ولی از طریق گوگل وب مستر بخش crawl که میخوام چک کنم میگه سایت شما فایل robots.txt رو نداره
چطوری میتونم این مشکل رو حل کنم؟

این مشکل نیاز به تست دارد، ممکن است فایل را در ریشه سایت قرار نداده باشید یا اینکه به دلیلی دسترسی ربات گوگل به سایت شما موقتا یا به صورت همیشگی مسدود شده باشد (فایروال سرور، مشکلات سرورهای داخل کشور و...).

milad

۱۹:۴۸ ۱۳۹۵/۰۶/۲۶

با سلام
لطفا ایراد اینجا کجاست که سئو سایت اینو اعلام میکنه ==>
علائم واختصارات
نشانگر زرد بدین معنی است که یک افزونه غیر استاندارد شناسایی شد؛ نه اینکه همه ربات های جستجوگر ممکن است آن را شناسایی کنند یا آن را در همان راه تفسیر کنند. دستورات Allow و Sitemap بیشتر توسط گوگل و یاهو استفاده می شوند.
نشانگر زرد بدین معنی است که نگارش فایل Robots.txt نادرست است.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-admin/admin-ajax.php
Disallow: /files/
Disallow: /_/
Sitemap: http://www.agahiraygan.net/sitemap.xml.gz
Sitemap: http://www.agahiraygan.net/sitemap.xml

با توجه به کدی که درج کرده اید، اشکالی در فایل Robots.txt سایت مشاهده نمی شود!

سعید حبیبی

۱۴:۲۷ ۱۳۹۵/۰۴/۰۴

با عرض سلام و خسته نباشید
واقعا مطلب خوبی برای وب مستران قرار دادین که میتونه کمک بزرگی برامون انجام بده.
یه سوال داشتم از خدمتتون اینکه من از افزونه edd استفاده میکنم که مطالب دانلودی ایجاد و در مطلب اصلی برای فروش قرار میدم حالا میخوام مطالب دانلودی رو نذارم گوگل ایندکس کنه باید چه کار کنم و اگر به دستور robots.txt نیازه باید چه چیزی بنویسم؟
مطالب دانلودی من در ادرس زیر قرار داره میتونید مشاهده کنید.

hidanesh.ir/downloads

ممنون میشم کمک کنید.

با توجه به توضیحات، کافی است دستور زیر را در فایل robots.txt داشته باشید:

User-agent: *
Disallow: /downloads/

سید حسین

۰۱:۰۰ ۱۳۹۵/۰۱/۰۸

به نام خدا
با سلام.
من دو روز است که وبلاگی در بلاگ اسکای ساخته ام ولی هرچه آدرس وبلاگم رو در گوگل جستجو می کنم پیدا نمیشه. ممنون می شوم علتش رو بهم بگید

نمایش نتایج یک صفحه وب (سایت، وبلاگ و...) از زمان انتشار عمومی در وب تا نمایش در لیست موتورهای جستجو فرآیندی زمانبر است و ممکن است تا چند ماه طول بکشد، می توانید با ثبت وبلاگ در ابزار وبمستر گوگل و تبادل لینک با سایت ها و وبلاگ های دیگر این روند را سرعت ببخشید.

طراحی لوگو

۱۶:۵۹ ۱۳۹۴/۱۲/۰۵

بخش مدیریت کجاست؟

معمولا هر برنامه مدیریت محتوای (CMS) استانداردی قسمتی به عنوان پنل مدیریت دارد که باید برای پی بردن به چند و چون آدرس (دایرکتوری) آن، به راهنمای سیستم مدیریت محتوا مراجعه کنید! به طور مثال:

yoursite.ir/admin/panel

مرتضی

۱۳:۲۷ ۱۳۹۴/۱۱/۱۴

خود وبلاگ تو هست ولی بیشتر صفحات پربازدیدش از نتایج پاک شد. فکر کنم به خاطر عوض کردن قالب بود که گوگل جریمه کرد دوباره قالب و برگشت دادم به حالت اول
فقط چیکار کنم به گوگل اطلاع بدم؟

ربات های گوگل به تناوب صفحات وبلاگ را واکاوی و نتایج را بر اساس آخرین اطلاعات به روز می کنند، لذا عملا نیازی به اطلاع رسانی و... نیست، مهم این است که ایرادات احتمالی صفحات خود را رفع کرده باشید، همچنین به خطاهای دریافتی در پنل ابزار وبمستر توجه کنید.

مرتضی

۱۹:۲۱ ۱۳۹۴/۱۱/۱۲

سلام بخش ربوت و درست کردم اینجوری شد

http://s6.picofile.com/file/8236500650/752547.png

فقط یه مشکل دارم مطلب میزارم نسخه قابل چاپ ایندکس میشه، چرا؟

http://s6.picofile.com/file/8236513268/455555555555555.png

آدرس وبلاگتان در گوگل جستجو شد و مشکلی وجود نداشت؟!

مرتضی

۱۲:۱۱ ۱۳۹۴/۱۱/۱۲

سایتمپ خود وبلاگه اینه، اونو خودش گذاشته

http://telegram-gap.blogsky.com/sitemap

صفحاتم دیگه ایندکس نمیشه، آیا به خاطر اینه؟
تو وبلاگ چجوری میشه این روبوت و ویراییش کرد؟

صرف این خطا نمی تواند دلیل ایندکس نشدن صفحات سایت شما شود، برای ویرایش فایل باید ببینید آیا سرویس وبلاگی امکانی در پنل مدیریت بدین منظور لحاظ کرده یا خیر، برای بررسی دقیق تر متن خطای موجود در ابزار گوگل وبمستر باید درج شود و البته امکان آزمایش خطا و تست نیز فراهم باشد!

مرتضی

۲۲:۲۵ ۱۳۹۴/۱۱/۱۰

سلام
من یه وبلاگ دارم که rss و بجای سایتمپ گذاشتم
تو بخش robots-txt یه ارور داده مشکل چیه - عکسشو فرستادم

http://s6.picofile.com/file/8236200818/seghdfrgh.png

هرچند متن خطای دریافتی مشخص نیست، اما (احتمالا) برای وبلاگ ها باید آدرس URL کامل فایل یا صفحه Sitemap را وارد کنید، البته قاعدتا چنین فایل یا صفحه ای باید واقعا وجود داشته باشد!

omid

۲۰:۰۳ ۱۳۹۴/۰۸/۲۸

آدرس اصلی سایت:

https://www.mynewdownload.in

آدرس دامنه ای فرعی:

http://www.mynewdownload.com

ولی گوگل به اشتباه بعضی از لینک های سایت رو با آدرس https://www.mynewdownload.com ایندکس کرده که با توجه به اینکه پروتکل ssl بر روی این دامنه فعال نیست مرورگر ایراد میگیره و اگه کسی ندونه نمیتونه وارد سایت بشه
میخوام که دستوری رو در فایل robots.txt وارد کنم که از ایندکس شدن این قبیل لینک ها جلوگیری بشه (نمیخوام کل دامنه http://www.mynewdownload.com غیرفعال بشه فقط دامنه هایی که https://www.mynewdownload.com گوگل شناخته) ممنون میشم راهنماییم کنید

در این مورد باید به چند نکته توجه کنید:
- مسدودسازی با فایل robots.txt معمولا بر اساس الگویی ثابت صورت می گیرد، به طور مثال کلیه لینک های مرتبط با یک فولدر مسدود می شوند، لذا درج تک تک لینک های ایندکس شده توسط گوگل، چنانچه الگوی مشخصی وجود نداشته باشد، خیلی متداول نیست.
- اینکه گوگل چرا لینک هایی از سایت شما را به صورت https ایندکس کرده به نظر به این مرتبط می شود که این لینک ها به نوعی واقعا در سایت شما وجود داشته (شاید به صورت ناخواسته در خروجی چاپ شده) و ربات گوگل آنها را پیدا کرده! به عبارتی اگرچه دامنه دو سایت شبه به هم است، اما پسوندها باعث می شوند که این دو، دو سایت کاملا مجزا از هم (از دید ربات ها) باشند و بعید است که گوگل به خودی خود تشخیص دهد که باید لینک های سایت دیگر نیز به صورت https باشد!
- دقت کنید اگر لینک های https واقعا وجود نداشته باشند و خطای 404 بدهند، بعد از مدتی خود به خود از لیست نتایج گوگل حذف می شوند و لذا در اینگونه موارد نیاز به انجام هیچ کار خاصی نیست! فقط باید دقت کنید که اینگونه لینک ها واقعا کد خطای 404 را برای ربات گوگل برگردانند!

omid

۱۲:۲۲ ۱۳۹۴/۰۸/۲۵

با سلام و تشکر از مطلب مفیدتون
ببخشید من هم اکنون مشکلی دارم که با خوندن این مقاله برطرف نشد:
مشکل اینه که من برای یکی از دامنه های سایتم پروتکل ssl تهیه کردم و این دامنه را به شکل کامل هم در webmaster tools ثبت کردم و sitemap هم برای آن تعریف کردم و دامنه های دیگر را نیز به این دامنه ریدایرکت کردم
ولی مشکل اینجاست که برای دامنه های دیگر این هاست که ssl هم ندارم، گوگل این دامنه ها را نیز به شکل https ایندکس کرده و چون پروتکل ssl برای این دامنه ها فعال نیست، کسی نمیتونه وارد سایت بشه.
برای رفع این مشکل که گوگل و موتورهای جستجوگر دیگر آدرس های دیگر سایت را به صورت https ایندکس نکنند باید چه دستوری را وارد کنم؟
با تشکر

دقیقا متوجه منظورتان نشدیم!! یعنی یک سایت اصلی دارید که چند دامنه برای آن وجود دارد؟! لطفا با درج آدرس سایت اصلی و دامنه های فرعی، دقیق تر مشکل را توضیح دهید تا امکان بررسی و راهنمایی وجود داشته باشد!

صفحه 2 از 6

لطفا پیش از ارسال دیدگاه نکات زیر را مد نظر داشته باشید:
- به سوالات کلی، زمانبر، مبهم و مشکلاتی که تلاشی برای رفع آنها نکرده باشید پاسخ مختصر داده شده یا به بخش برنامه نویسی اختصاصی ارجاع داده می شوند.
- کدها و اسکریپت های طولانی را ترجیحا در یک صفحه وب آنلاین یا به صورت حساب موقت و آزمایشی قرار دهید تا امکان بررسی دقیق مشکل و خطایابی میسر باشد.
- تمام دیدگاه های ارسالی خوانده شده و برای هر کاربر مدت زمان لازم جهت پاسخگویی در نظر گرفته می شود، لطفا از طرح سوالات متعدد در بازه زمانی کوتاه خودداری کنید.