私はネットショッピングが大好きで、普段からAmazon、楽天、Yahooショッピングなどで買い物しております。 ネットショッピングで買い物するようになって気づいたのですが、サイトが違うと、同じ商品にも関わらず値段が全然違うのですね。(もちろんですが...) 同じ商品の価格を比較してくれる「価格.com」のようなサイトもあるのですが、私が普段買い物するような商品は価格.comに載ってないような商品やサイトもあるため、自分でネットサーフィンしながら、安いサイトで買っています。 その際に、商品が同じであるかどうかは写真だけでは判りません。そこで使っているのが、「JANコード」です。 これは商品ごとに割り当てられた13ケタの数字なので、商品名や写真で同じ商品か分かりにくい場合にも判別することができました。 最近スクレイピングというテクニックの存在を知りました。 もちろん相手のサイトに迷惑がかからないように気を付けないことは承知しております。 岡崎図書館事件の様なことにならないために、スクレイピングするのは一回限りです。 私がやりたいことですが、Lohacoのサイトで商品の一覧から、 (1)商品名(2)値段(3)JANコード(4)URL 以上の4つを抜き出して、エクセルにまとめることは可能でしょうか? また可能の場合は、どのようなプログラミングで出来ますでしょうか。 LOHACOホーム>コスメ・スキンケア・美容>スキンケア・基礎化粧品>化粧水>エイジング化粧水 http://lohaco.jp/g4/55-5501-5501004-55010040002/?resultCount=100&va... 例えば以上のページです。このページにはスキンケア用品が74商品登録してあります。(現時点) 最終的にはExcelのA列に商品名、B列に値段、C列にJANコード、D列にURLを抜き出したいです。 私はこれまでプログラミングを勉強したことがなかったため、かなりハードルが高かったです。 いちを「データを集める技術(佐々木拓郎 著)」と「ExcelVBAでIEを思いのままに操作できるプログラミング術」という本を購入して勉強してみました。 しかしプログラミングの知識が全くないまま進んで行ったために、一か月くらい勉強しましたが、途中で挫折してしまいました。 また、VBAの基本から勉強しないと思い「Excel VBA 本格入門」という本を勉強しましたが、こちらは一通り理解することができました。 既存のスクレイピングツールを色々試したのですが、「Octoparse」というツールがなかなか使いやすかったです。 しかしホームページごとに構成が違ったためか、なかなか思い通りにツールが動かず、上のサイトのJANコードを抜き出すことができませんでした。 回答を頂ければ幸いです。よろしくお願いいたします。 補足もしプログラミングにお詳しい方がいらっしゃいましたら、一つの例として参考にさせて頂きたいので、上記の質問が解決できるプログラミングをご教授頂けると嬉しく思います。 ※言語は問いませんので、幅広い回答をお待ちしております。
↧