robots.txtについて(設定がまずいのか)
-
citylights.halfmoon.jpというサイトを管理していまして
citylights.halfmoon.jp/dvdと
citylights.halfmoon.jp/eigasai3
というところでwordpressのブログを立ち上げています。
現在、sitemapを
XML Sitemap Generator for WordPress 3.2.2
で作成し、
All in One SEO Pluginで
詮索エンジンにも通知しておりますが、インデックス登録されないため
googleのウェブマスターツールにて確認したところ
「robots.txt により URL が制限されています」と登録されない理由が書かれていました
citylights.halfmoon.jp/dvd/robots.txt
(仮想robots.txtということで自分で作ってはいません)
を見ると、
User-agent: *
Disallow:
Sitemap: http://citylights.halfmoon.jp/dvd/sitemap.xml.gz
となっております。
Disallow:
だからいけないのでしょうか?
しかし、wordpress上では、検索エンジンからも見えるようにすると設定しました
使い方が間違っているでしょうか?あと、
citylights.halfmoon.jp/eigasai3/robots.txt
とすると、こちらは上記のような表記が出てきません。(
citylights.halfmoon.jp/のトップに飛んでしまう)
特に2つのwordpressで設定の違いはしていないつもりなのですが
入手しているテーマがまずいのでしょうか何か手掛かりになることでも良いのでお教えいただきたく
お願い申しあげます
-
Disallow:
Disallow:の後に何も書かれていない場合は、拒否するものはありませんよ、という意味です。
robots.txtの書き方(保存版) | 海外SEO情報ブログ・メルマガcitylights.halfmoon.jp/eigasai3/robots.txt の件ですが、
以下HTTP レスポンスです。http://citylights.halfmoon.jp/eigasai3/robots.txt
GET /eigasai3/robots.txt HTTP/1.1
Host: citylights.halfmoon.jp
User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; ja-JP-mac; rv:1.9.2) Gecko/20100115 Firefox/3.6 GTB6
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ja,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: Shift_JIS,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-aliveHTTP/1.1 200 OK
Date: Tue, 02 Mar 2010 02:06:40 GMT
Server: Apache/1.3.42 (Unix) mod_ssl/2.8.31 OpenSSL/0.9.8e
Keep-Alive: timeout=5, max=20
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/htmlrobots.txtが Content-Type: text/html になっています。正しい出力は text/plain です。
サーバの設定を確認するか、.htaccessに間違った設定がされていないか確認した方がいいでしょう。追記:インデックスはされているようです。以下site検索の結果。
(Google ウェブマスター ツールのインデックスの数値は当てになりませんので、あまり信用しない方がいいと思います。)
site:http://citylights.halfmoon.jp/dvd/どうも、rockhopper2000さん
コメントありがとうございます。
DISALLOWの意味、わからず、お恥ずかしい次第です。
勉強になりました。>robots.txtが Content-Type: text/html になっています。正しい出力は text/plain です。
>サーバの設定を確認するか、.htaccessに間違った設定がされていないか確認した方がいいでしょう。
ありがとうございます。同じレンタルサーバで個人のブログを作っているのですが、これでは問題がなく、設定した記憶もなかったので、ドメイン/ディレクトリの構成が何か悪さをしているのか等
考えあぐねておりました。.htaccessを確認しましたところ
特にtext/html等の指定をしていないため、サーバの設定と言うことになるのでしょうか
wordpressで特に設定するところはないということですよね
サーバの設定を見直してみます。ご指摘ありがとうございます
自分のコメントの補足です
>追記:インデックスはされているようです。以下site検索の結果。
>(Google ウェブマスター ツールのインデックスの数値は当てになりませんので、あまり信用しない
>方がいいと思います。)
>site:http://citylights.halfmoon.jp/dvd/ありがとうございます
調べ方をマスターしておらず、お手数をおかけしました。現状、同様にsite:指定で個人のブログをみると、日本語でタイトルとかが見えるのですが
この
site:http://citylights.halfmoon.jp/dvd/
ではそうならないので、何か問題があるのだと思っています。
ただ、むしろwordpressで聞くのではなく
googleのウェブマスターのフォーラムで聞くべき問題のような気がしてきました。どうもありがとうございます
現状、同様にsite:指定で個人のブログをみると、日本語でタイトルとかが見えるのですが
その状態が普通ですので、確かにおかしいことは事実です。
解決できるかどうかは分かりませんが、まず必要な情報を提示した方がいいでしょう。
1-レンタルサーバ会社
2-WordPressのバージョン
3-使用プラグインの全て
4-使用テンプレートの名前(作者のURL、作者は両サイトとも同じですか?)
5-上記テンプレートをカスタマイズしているかあと老婆心ですが、ソースコードを扱うときに全角英数字を何気なく使ってしまっていると予期せぬエラーが起こる場合がありますよ。
rockhopper2000さん さらにコメントをどうもありがとうございます
主に先んじて解決したいのが
http://citylights.halfmoon.jp/eigasai3のほうなので
そのテーマについて記させていただきます。1-レンタルサーバ会社:サクラレンタルサーバ・スタンダード
2-WordPressのバージョン:2.9.2
3-使用プラグインの全て
Akismet/All in One SEO Pack(入れたのは数日前でその前から検索エンジンに登録されないと見える現象は起きていた/Contact Form 7/Counterize II/Dagon Design Sitemap Generator/Executable PHP widget/Google XML Sitemaps/JSeries Notifier/Ktai Entry/Ktai Style/LibXML2 Fix/Maintenance Mode/PS Disable Auto Formatting/SPAM Champuru for WordPress/Subscribe2/Subscribe2 Counter Widget/WordPress Database Backup/WP Multibyte Patch/WP Security Scan、あとWP Super Cacheも使っていましたが、今ははずしてます。
4-2つのテーマは全く別々です
dvd:もはや原形を何もとどめないほどオリジナルになってます。
eigasai3:www.tigertom.comのTigerTom’s SEO Citrus Theme 1.0
というものです
5-カスタマイズの有無:有りです
eigasai3はそれほどいじっていませんが、それでもTop画面はhome.phpを作っていますので
かなり怪しいですね。
指摘をしていただき、自分でもここを調べなおさないとと思い当たりました
ありがとうございます。
たしかに両方のテーマとも全角文字を使っているところがある気がします
ご指摘いただいたことを見直してみます。ありがとうございました。順番に
1- 特に問題ないでしょう
3- プラグインに関して(私自身全てのプラグインは知りませんが)
・デフォルトは問題ないでしょう
Akismet
WP Multibyte Patch・以下重要です
Google XML Sitemaps
All in One SEO Pack・以下運用上必須なら
Contact Form 7
WordPress Database Backup(phpMyAdminでバックアップを覚えましょう)・以下必要ありません(独断ですが)
Counterize II(アクセス解析はグーグルアナリスティクス等を使いましょう)
Dagon Design Sitemap Generator(これは人間用のサイトマップ自動作成です、手動で行いましょう)
Executable PHP widget(本当に必要ですか?)
JSeries Notifier(プラグインの更新は自分で調べましょう)
Ktai Entry(本当にいつもメール投稿しますか?)
Ktai Style(携帯で見るユーザーがアクセス解析で増えてから入れましょう)
LibXML2 Fix(これも携帯投稿関係?)
Maintenance Mode(メンテナンスは302リダイレクトを使用してmaintenance.php=メンテナンス用に自作を表示させるようにしましょう)
PS Disable Auto Formatting(必要性を感じません、タグは落ち着いて入力しましょう)
SPAM Champuru for WordPress(スパム対策用?Akismetでよいのでは?)
Subscribe2(メルマガはwww.mag2.com/が便利です)
WP Security Scan(WordPressのバージョンアップでセキュリティは常に変化します、プラグインが追いつくのでしょうか)
※WP Super Cache(これが懸案の事項の元凶のような気がします、キャッシュが正しく生成されていないものを、googleが拾っている可能性があるのでは、この状態をgoogleがずっとインデックスし続けている、、、ってこともあるかもしれません。)5- 一度上記のプラグインを整理して、テンプレートをシンプルなものに変更した方がよいのではないでしょうか?貴兄のサイトを読ませていただいた感想では、文章主体ですので普通のテンプレートをウイジェットで管理しながら使用した方が良い気がします。
色々勝手なことを申しましたが、感想です。
どうも、rockhopper2000さん
ありがとうございますたしかに、おっしゃることばかりですね。
一度プラグインとテーマを整理してみます。
アドバイスありがとうございました。googleのウェブマスターツールにて確認したところ
「robots.txt により URL が制限されています」と登録されない理由が書かれていました
citylights.halfmoon.jp/dvd/robots.txt
(仮想robots.txtということで自分で作ってはいません)さまざまな情報に詳しい方がお答えになっているので横槍になるかもしれませんが、そもそもrobots.txtはサイトトップになければ有効でないと思いましたが、、、
つまりcitylights.halfmoon.jpのルートに手動で作成した、もしくは何らかのソフトウェアなどが自動生成したrobots.txtが存在しないでしょうか?
仮にcitylights.halfmoon.jp/dvd/robots.txtが存在しても検索エンジンは無視するような気がします。あと、プラグインの中には仮想robots.txtを生成するものがあります。チェックなどではずせるはずです。Google XML Sitemapsあたりにありませんでしたか?
以上参考意見として捉えてください。
そもそもrobots.txtはサイトトップになければ有効でない
読み返してみたらそのことについて書いておりませんでした、失礼。
整理するとこういうことになると思います。
http://citylights.halfmoon.jp/robots.txt (手動で設置)
内容:User-agent: *
Disallow:Sitemap: http://citylights.halfmoon.jp/sitemap.xml
Sitemap: http://citylights.halfmoon.jp/dvd/sitemap.xml
Sitemap: http://citylights.halfmoon.jp/eigasai3/sitemap.xmlhttp://citylights.halfmoon.jp/dvd/robots.txt (手動設置分を削除)
http://citylights.halfmoon.jp/eigasai3/robots.txt (手動設置分を削除)
上記サイト2つともGoogle XML Sitemapsのrobots.txt自動設置を解除○sitemap.xml関係
ウェブマスターツールに
http://citylights.halfmoon.jp/
http://citylights.halfmoon.jp/dvd/
http://citylights.halfmoon.jp/eigasai3/
を別サイトとして登録それぞれsitemap.xmlを以下の場所にGoogle XML Sitemapsで作成して
http://citylights.halfmoon.jp/dvd/sitemap.xml
http://citylights.halfmoon.jp/eigasai3/sitemap.xml
それぞれのサイト用にウェブマスターツールに登録http://citylights.halfmoon.jp/sitemap.xml
に関しては手動もしくは作成サイトなどを利用して作成、登録
(内容は上記の2サイト分のURLだけでよいと思います)余談:レンタルサーバがさくらということですで関係ありませんが、
以下の記事は一度読んでおいた方がいいでしょう。
チカッパ・ロリポップの404は302? – 永遠にインデックスされ続ける削除ファイル
確かに存在しないファイルにアクセスしてみると
HTTP/1.x 302 Found→ttp://err.chicappa.jp/404.htmlにRedirectします。
robots.txtがない場合も同様です。rockhopper2000さん、shokun0803さん
コメントありがとうございます。返信が遅れましてすいません早速、サイトマップの構成と位置、robots.txtの内容と位置は確認し
アドバイスいただいた形にしました。また、プラグインとテーマを見直し、スーパーキャッシュはuninstallして
ディレクトリも消しました。また、調べていたところ、以前の今の位置に移行する前のブログのインデックスが
残ってしまっていたのがわかり、旧ドメインで301のリダイレクト指定をhtaccessに記述し
しました。(ミラーサイトのペナルティの可能性あり)これらを見直し、googleの再審査を依頼いたしました。
結果は数週間かかるとメールが来ましたが、今まで表示されなかった
ディレクトリのみですが、検索結果が表示されるようになったので
エントリはできたのではないかと思います。
ではなぜディレクトリのみで日本語が出てこないかはまだ謎ですが
ブログランキングには日本語で表示されてますので
ピングは間違っていないと思います。
ということで、まず記事をひたすらUPして様子を見るしかなさそうですアドバイス感謝します。何か変化がありましたらまた報告します。
対策の甲斐あって、その後投稿した記事や最近の記事については検索エンジンに
表示されるようになりました。
site:指定で2つのブログを見てみますと
過去の古い記事については、自動では題名等つかないのか
そのあたりが不明ですが、日本語での表記もされる記事も多く出てきております。あまり既にある記事を更新しまくるのも控えたほうがよいかなと思っており
まだ、日本語で表記されないものはしばらく様子見ですが、
お聞きしたことで、解決に向かったことを報告させていただきます。ありがとうございました。
- トピック「robots.txtについて(設定がまずいのか)」には新たに返信することはできません。