電脳セドリ用に、データを取ってきました。

  • このエントリーをはてなブックマークに追加
  • LINEで送る

電脳セドリ用にデータの収集をしました。

滅茶苦茶しんどかったです。

サイトAから、約5万件。

サイトBから、約1万件。

ご存知、サイトAに出品、サイトBからの購入を想定して行いました。

 

収集作業

サイトAのAPIの利用準備とAPIの利用方法を探すのが大変でした。

APIを利用する前に、商品の詳細情報を取得するために、

まず約5万件。キーとなるコードを取得します。

 

今回は、アニメのCDとゲームソフトのキーを収集しました。

サイトに負担を掛けないように、わざと時間をかけてキーを集めます。

サイトAは、スクレイピング対策がされているので、面倒でした。

 

次にAPIを使って、詳細情報を収集します。

XMLパーサーを使って読み込もうと思ったのですが、なぜかエラーに。

結局HTML用のパーサーを利用することで、解決しました。

 

サイトBからデータを収集するのですが、

これも、わざと時間をかけて情報を集めました。

時間が掛かるので、プログラムの失敗に気づき再収集するのも大変でした。

 

収集後

サイトAとサイトBのデータを、データベースに取り込んで比較するわけですが、

データを紐づけるキーが必要となります。

 

サイトAのAPIでは、なぜかCDの規格品番を取得できなかったので、

JANコードを使って、マッチングしました。

 

ネットの中古CDショップには、なぜかJANコードの表記がなく、

規格品番表示が、ほとんどでした。

サイトBは、JANコードの記載があって本当に助かりましたね。

 

 

サイトAで、出品して1円以上の利益が出る商品は、約400件。

この中から、売れる商品を探す作業が残っています。

 

たしかに、データベースに情報が入れば、検索時間は一瞬ですが、

プログラムの作成に、時間がかなりかかるんですけど・・・

 

プログラムが作れるならいいが、人間でこの作業・・・? マジで?

電脳セドリって、本当に儲かるんですかね?

モノレートから今度は、データを引っ張らないと。

  • このエントリーをはてなブックマークに追加
  • LINEで送る

SNSでもご購読できます。

スポンサーリンク

コメントを残す

*

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください