電脳セドリ用にデータの収集をしました。
滅茶苦茶しんどかったです。
サイトAから、約5万件。
サイトBから、約1万件。
ご存知、サイトAに出品、サイトBからの購入を想定して行いました。
収集作業
サイトAのAPIの利用準備とAPIの利用方法を探すのが大変でした。
APIを利用する前に、商品の詳細情報を取得するために、
まず約5万件。キーとなるコードを取得します。
今回は、アニメのCDとゲームソフトのキーを収集しました。
サイトに負担を掛けないように、わざと時間をかけてキーを集めます。
サイトAは、スクレイピング対策がされているので、面倒でした。
次にAPIを使って、詳細情報を収集します。
XMLパーサーを使って読み込もうと思ったのですが、なぜかエラーに。
結局HTML用のパーサーを利用することで、解決しました。
サイトBからデータを収集するのですが、
これも、わざと時間をかけて情報を集めました。
時間が掛かるので、プログラムの失敗に気づき再収集するのも大変でした。
収集後
サイトAとサイトBのデータを、データベースに取り込んで比較するわけですが、
データを紐づけるキーが必要となります。
サイトAのAPIでは、なぜかCDの規格品番を取得できなかったので、
JANコードを使って、マッチングしました。
ネットの中古CDショップには、なぜかJANコードの表記がなく、
規格品番表示が、ほとんどでした。
サイトBは、JANコードの記載があって本当に助かりましたね。
サイトAで、出品して1円以上の利益が出る商品は、約400件。
この中から、売れる商品を探す作業が残っています。
たしかに、データベースに情報が入れば、検索時間は一瞬ですが、
プログラムの作成に、時間がかなりかかるんですけど・・・
プログラムが作れるならいいが、人間でこの作業・・・? マジで?
電脳セドリって、本当に儲かるんですかね?
モノレートから今度は、データを引っ張らないと。