サポート » 使い方全般 » robots.txtについて(設定がまずいのか)

  • 解決済 mimisuke

    (@mimisuke)


    citylights.halfmoon.jpというサイトを管理していまして
    citylights.halfmoon.jp/dvdと
    citylights.halfmoon.jp/eigasai3
    というところでwordpressのブログを立ち上げています。
    現在、sitemapを
    XML Sitemap Generator for WordPress 3.2.2
    で作成し、
    All in One SEO Pluginで
    詮索エンジンにも通知しておりますが、インデックス登録されないため
    googleのウェブマスターツールにて確認したところ
    「robots.txt により URL が制限されています」と登録されない理由が書かれていました
    citylights.halfmoon.jp/dvd/robots.txt
    (仮想robots.txtということで自分で作ってはいません)
    を見ると、
    User-agent: *
    Disallow:
    Sitemap: http://citylights.halfmoon.jp/dvd/sitemap.xml.gz
    となっております。
    Disallow:
    だからいけないのでしょうか?
    しかし、wordpress上では、検索エンジンからも見えるようにすると設定しました
    使い方が間違っているでしょうか?

    あと、
    citylights.halfmoon.jp/eigasai3/robots.txt
    とすると、こちらは上記のような表記が出てきません。(
    citylights.halfmoon.jp/のトップに飛んでしまう)
    特に2つのwordpressで設定の違いはしていないつもりなのですが
    入手しているテーマがまずいのでしょうか

    何か手掛かりになることでも良いのでお教えいただきたく
    お願い申しあげます

11件の返信を表示中 - 1 - 11件目 (全11件中)
  • Disallow:
    Disallow:の後に何も書かれていない場合は、拒否するものはありませんよ、という意味です。
    robots.txtの書き方(保存版) | 海外SEO情報ブログ・メルマガ

    citylights.halfmoon.jp/eigasai3/robots.txt の件ですが、
    以下HTTP レスポンスです。

    http://citylights.halfmoon.jp/eigasai3/robots.txt

    GET /eigasai3/robots.txt HTTP/1.1
    Host: citylights.halfmoon.jp
    User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; ja-JP-mac; rv:1.9.2) Gecko/20100115 Firefox/3.6 GTB6
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: ja,en-us;q=0.7,en;q=0.3
    Accept-Encoding: gzip,deflate
    Accept-Charset: Shift_JIS,utf-8;q=0.7,*;q=0.7
    Keep-Alive: 115
    Connection: keep-alive

    HTTP/1.1 200 OK
    Date: Tue, 02 Mar 2010 02:06:40 GMT
    Server: Apache/1.3.42 (Unix) mod_ssl/2.8.31 OpenSSL/0.9.8e
    Keep-Alive: timeout=5, max=20
    Connection: Keep-Alive
    Transfer-Encoding: chunked
    Content-Type: text/html

    robots.txtが Content-Type: text/html になっています。正しい出力は text/plain です。
    サーバの設定を確認するか、.htaccessに間違った設定がされていないか確認した方がいいでしょう。

    追記:インデックスはされているようです。以下site検索の結果。
    (Google ウェブマスター ツールのインデックスの数値は当てになりませんので、あまり信用しない方がいいと思います。)
    site:http://citylights.halfmoon.jp/dvd/

    どうも、rockhopper2000さん

    コメントありがとうございます。
    DISALLOWの意味、わからず、お恥ずかしい次第です。
    勉強になりました。

    >robots.txtが Content-Type: text/html になっています。正しい出力は text/plain です。
    >サーバの設定を確認するか、.htaccessに間違った設定がされていないか確認した方がいいでしょう。
    ありがとうございます。同じレンタルサーバで個人のブログを作っているのですが、これでは問題がなく、設定した記憶もなかったので、ドメイン/ディレクトリの構成が何か悪さをしているのか等
    考えあぐねておりました。

    .htaccessを確認しましたところ
    特にtext/html等の指定をしていないため、サーバの設定と言うことになるのでしょうか
    wordpressで特に設定するところはないということですよね
    サーバの設定を見直してみます。

    ご指摘ありがとうございます

    自分のコメントの補足です

    >追記:インデックスはされているようです。以下site検索の結果。
    >(Google ウェブマスター ツールのインデックスの数値は当てになりませんので、あまり信用しない
    >方がいいと思います。)
    >site:http://citylights.halfmoon.jp/dvd/

    ありがとうございます
    調べ方をマスターしておらず、お手数をおかけしました。

    現状、同様にsite:指定で個人のブログをみると、日本語でタイトルとかが見えるのですが
    この
    site:http://citylights.halfmoon.jp/dvd/
    ではそうならないので、何か問題があるのだと思っています。
    ただ、むしろwordpressで聞くのではなく
    googleのウェブマスターのフォーラムで聞くべき問題のような気がしてきました。

    どうもありがとうございます

    現状、同様にsite:指定で個人のブログをみると、日本語でタイトルとかが見えるのですが

    その状態が普通ですので、確かにおかしいことは事実です。

    解決できるかどうかは分かりませんが、まず必要な情報を提示した方がいいでしょう。

    1-レンタルサーバ会社
    2-WordPressのバージョン
    3-使用プラグインの全て
    4-使用テンプレートの名前(作者のURL、作者は両サイトとも同じですか?)
    5-上記テンプレートをカスタマイズしているか

    あと老婆心ですが、ソースコードを扱うときに全角英数字を何気なく使ってしまっていると予期せぬエラーが起こる場合がありますよ。

    rockhopper2000さん さらにコメントをどうもありがとうございます

    主に先んじて解決したいのが
    http://citylights.halfmoon.jp/eigasai3のほうなので
    そのテーマについて記させていただきます。

    1-レンタルサーバ会社:サクラレンタルサーバ・スタンダード
    2-WordPressのバージョン:2.9.2
    3-使用プラグインの全て
     Akismet/All in One SEO Pack(入れたのは数日前でその前から検索エンジンに登録されないと見える現象は起きていた/Contact Form 7/Counterize II/Dagon Design Sitemap Generator/Executable PHP widget/Google XML Sitemaps/JSeries Notifier/Ktai Entry/Ktai Style/LibXML2 Fix/Maintenance Mode/PS Disable Auto Formatting/SPAM Champuru for WordPress/Subscribe2/Subscribe2 Counter Widget/WordPress Database Backup/WP Multibyte Patch/WP Security Scan、あとWP Super Cacheも使っていましたが、今ははずしてます。
    4-2つのテーマは全く別々です
     dvd:もはや原形を何もとどめないほどオリジナルになってます。
     eigasai3:www.tigertom.comのTigerTom’s SEO Citrus Theme 1.0
     というものです
    5-カスタマイズの有無:有りです
     eigasai3はそれほどいじっていませんが、それでもTop画面はhome.phpを作っていますので
     かなり怪しいですね。
     指摘をしていただき、自分でもここを調べなおさないとと思い当たりました
    ありがとうございます。
    たしかに両方のテーマとも全角文字を使っているところがある気がします
    ご指摘いただいたことを見直してみます。ありがとうございました。

    順番に
    1- 特に問題ないでしょう
    3- プラグインに関して(私自身全てのプラグインは知りませんが)
    ・デフォルトは問題ないでしょう
    Akismet
    WP Multibyte Patch

    ・以下重要です
    Google XML Sitemaps
    All in One SEO Pack

    ・以下運用上必須なら
    Contact Form 7
    WordPress Database Backup(phpMyAdminでバックアップを覚えましょう)

    ・以下必要ありません(独断ですが)
    Counterize II(アクセス解析はグーグルアナリスティクス等を使いましょう)
    Dagon Design Sitemap Generator(これは人間用のサイトマップ自動作成です、手動で行いましょう)
    Executable PHP widget(本当に必要ですか?)
    JSeries Notifier(プラグインの更新は自分で調べましょう)
    Ktai Entry(本当にいつもメール投稿しますか?)
    Ktai Style(携帯で見るユーザーがアクセス解析で増えてから入れましょう)
    LibXML2 Fix(これも携帯投稿関係?)
    Maintenance Mode(メンテナンスは302リダイレクトを使用してmaintenance.php=メンテナンス用に自作を表示させるようにしましょう)
    PS Disable Auto Formatting(必要性を感じません、タグは落ち着いて入力しましょう)
    SPAM Champuru for WordPress(スパム対策用?Akismetでよいのでは?)
    Subscribe2(メルマガはwww.mag2.com/が便利です)
    WP Security Scan(WordPressのバージョンアップでセキュリティは常に変化します、プラグインが追いつくのでしょうか)
    ※WP Super Cache(これが懸案の事項の元凶のような気がします、キャッシュが正しく生成されていないものを、googleが拾っている可能性があるのでは、この状態をgoogleがずっとインデックスし続けている、、、ってこともあるかもしれません。)

    5- 一度上記のプラグインを整理して、テンプレートをシンプルなものに変更した方がよいのではないでしょうか?貴兄のサイトを読ませていただいた感想では、文章主体ですので普通のテンプレートをウイジェットで管理しながら使用した方が良い気がします。

    色々勝手なことを申しましたが、感想です。

    どうも、rockhopper2000さん
    ありがとうございます

    たしかに、おっしゃることばかりですね。
    一度プラグインとテーマを整理してみます。
    アドバイスありがとうございました。

    googleのウェブマスターツールにて確認したところ
    「robots.txt により URL が制限されています」と登録されない理由が書かれていました
    citylights.halfmoon.jp/dvd/robots.txt
    (仮想robots.txtということで自分で作ってはいません)

    さまざまな情報に詳しい方がお答えになっているので横槍になるかもしれませんが、そもそもrobots.txtはサイトトップになければ有効でないと思いましたが、、、
    つまりcitylights.halfmoon.jpのルートに手動で作成した、もしくは何らかのソフトウェアなどが自動生成したrobots.txtが存在しないでしょうか?
    仮にcitylights.halfmoon.jp/dvd/robots.txtが存在しても検索エンジンは無視するような気がします。

    あと、プラグインの中には仮想robots.txtを生成するものがあります。チェックなどではずせるはずです。Google XML Sitemapsあたりにありませんでしたか?

    以上参考意見として捉えてください。

    そもそもrobots.txtはサイトトップになければ有効でない

    読み返してみたらそのことについて書いておりませんでした、失礼。

    整理するとこういうことになると思います。

    http://citylights.halfmoon.jp/robots.txt (手動で設置)
    内容:

    User-agent: *
    Disallow:

    Sitemap: http://citylights.halfmoon.jp/sitemap.xml
    Sitemap: http://citylights.halfmoon.jp/dvd/sitemap.xml
    Sitemap: http://citylights.halfmoon.jp/eigasai3/sitemap.xml

    http://citylights.halfmoon.jp/dvd/robots.txt (手動設置分を削除)
    http://citylights.halfmoon.jp/eigasai3/robots.txt (手動設置分を削除)
    上記サイト2つともGoogle XML Sitemapsのrobots.txt自動設置を解除

    ○sitemap.xml関係
    ウェブマスターツールに
    http://citylights.halfmoon.jp/
    http://citylights.halfmoon.jp/dvd/
    http://citylights.halfmoon.jp/eigasai3/
    を別サイトとして登録

    それぞれsitemap.xmlを以下の場所にGoogle XML Sitemapsで作成して
    http://citylights.halfmoon.jp/dvd/sitemap.xml
    http://citylights.halfmoon.jp/eigasai3/sitemap.xml
    それぞれのサイト用にウェブマスターツールに登録

    http://citylights.halfmoon.jp/sitemap.xml
    に関しては手動もしくは作成サイトなどを利用して作成、登録
    (内容は上記の2サイト分のURLだけでよいと思います)

    余談:レンタルサーバがさくらということですで関係ありませんが、
    以下の記事は一度読んでおいた方がいいでしょう。
    チカッパ・ロリポップの404は302? – 永遠にインデックスされ続ける削除ファイル
    確かに存在しないファイルにアクセスしてみると
    HTTP/1.x 302 Found→ttp://err.chicappa.jp/404.htmlにRedirectします。
    robots.txtがない場合も同様です。

    rockhopper2000さん、shokun0803さん
    コメントありがとうございます。返信が遅れましてすいません

    早速、サイトマップの構成と位置、robots.txtの内容と位置は確認し
    アドバイスいただいた形にしました。

    また、プラグインとテーマを見直し、スーパーキャッシュはuninstallして
    ディレクトリも消しました。

    また、調べていたところ、以前の今の位置に移行する前のブログのインデックスが
    残ってしまっていたのがわかり、旧ドメインで301のリダイレクト指定をhtaccessに記述し
    しました。(ミラーサイトのペナルティの可能性あり)

    これらを見直し、googleの再審査を依頼いたしました。
    結果は数週間かかるとメールが来ましたが、今まで表示されなかった
    ディレクトリのみですが、検索結果が表示されるようになったので
    エントリはできたのではないかと思います。
    ではなぜディレクトリのみで日本語が出てこないかはまだ謎ですが
    ブログランキングには日本語で表示されてますので
    ピングは間違っていないと思います。
    ということで、まず記事をひたすらUPして様子を見るしかなさそうです

    アドバイス感謝します。何か変化がありましたらまた報告します。

    対策の甲斐あって、その後投稿した記事や最近の記事については検索エンジンに
    表示されるようになりました。
    site:指定で2つのブログを見てみますと
    過去の古い記事については、自動では題名等つかないのか
    そのあたりが不明ですが、日本語での表記もされる記事も多く出てきております。

    あまり既にある記事を更新しまくるのも控えたほうがよいかなと思っており
    まだ、日本語で表記されないものはしばらく様子見ですが、
    お聞きしたことで、解決に向かったことを報告させていただきます。

    ありがとうございました。

11件の返信を表示中 - 1 - 11件目 (全11件中)
  • トピック「robots.txtについて(設定がまずいのか)」には新たに返信することはできません。