Web自動巡回とスクレイピングの違い

スポンサーリンク

CV関連ビデオとして、「情報の自動収集とCV改訂」を見ました。

近所を巡回する猫

情報収集効率化のツール

Web自動巡回ソフトを活用して翻訳会社の求人情報を手間を省いて自動収集できるという内容でした。前に翻訳者ディレクトリやProzを見た程度で、翻訳会社がどういう専門知識をもった人材が欲しいか具体的に分かっていないので早急に始めたいと思いました。が、PC(MacBookAir 13をBootcampでWindows使用中)が足りず、買い替え機種を検討しているところです。

Web自動巡回とスクレイピングの違い

情報収集ツールとして過去にRSSリーダーは使ったことはありましたが、Web自動巡回ソフトはまだありません。RSSリーダーでないのは、RSSを設定していないサイトも含めての情報収集ということでしょうね。Google Readerがサービスを止めてしまったのでサービスとしてはあまり盛り上がっていないのでしょうか。このサイトにも設置していますが、Feedlyがいまは一番メジャー??Web自動巡回ソフトを検索していると、ソフトの更新日付が古いものが多く、Windows64bitでは動作しないものとか。そのうち、この技術ってもしかしてスクレイピングじゃない?と思い当たりました。

スクレイピング-IT用語辞典e-words

スクレイピングとは、削り、こすり、ひっかき、削屑などの意味を持つ英単語。
入手したひとまとまりのデータを解析し、不要な部分を削ったり、必要な部分だけを取り出したり、一部を置き換えたり、並べ替えたりして、目的に適う形式に整形することをスクレイピングということがある。

特に、WebページやWeb上で公開されているデータについてこのような処理を行うことをWebスクレイピングという。Webスクレイピングにより、Webページとして人間が見やすい形で公開されているデータを、ソフトウェアが自動処理しやすい形式に変換して活用することができるようになる。

Web自動巡回との違いを調べようとしましたが、はっきり述べているものは見つけられませんでした。文脈を読んで感じたのは、広義ではWeb自動巡回もスクレイピングに含まれていそうです。

例えば、Web自動巡回ソフトの中にはAmazonや楽天などを巡回してデータを取得するようなある目的に特化したものがあり、もう設定がしてあって初心者を含めた一般ユーザがいくつかのURLを登録するとすぐに使えるようなイメージ。

一方スクレイピングは、検索候補にRuby、Java、Pythonのようなプログラミング言語が一緒に出てきます。スクレイピングの方がプログラマーがコードを書いて設定を自由にカスタマイズして使うような、素人はついていけない印象を受けます(笑)。

スクレイピングツールでは、Octoparseというのが有名そう?で、このブログのテーマ作者でもあるわいひらさんが詳しい手順を含めたレビュー記事を書かれていました。無料登録でも利用できますが、ヘビーな処理をさせるには有料アカウント必須の模様。

無料で使えるスクレイピングツール「Octoparse」の使い方。コードを書くことなく自由度の高いデータ収集が可能-寝ログ

利用時の注意点

ところで、スクレイピングはサイトに負荷がかかるため、行為そのものを禁止しているサイトもあり、URL登録前に規約等がないか確認する必要がありそう。過去には、図書館サーバへの大量アクセスで利用者が逮捕される(嫌疑不十分で不起訴)という事件もありました。スクレイピングツール側でアクセス頻度を制限する対策をしているものもあるようですが、巡回先のサイトになるべくご迷惑をかけないような運用を心がけたいところです。また、取得した情報をそのまま自サイトで使用すると著作権法に違反する恐れもありますのでこちらも気を付けたいです。

結論&アクションアイテム

色々調べた結果、私にはスクレイピングツールは難しそうなので、PC買い替え後、本運用前にフリーのWeb自動巡回ソフトを試してみようと思います。

<本日の視聴ビデオ>
0965 情報の自動収集とCV改訂
1710 プレゼンテーションスキル

スポンサーリンク