スクレイピングについてすでに多くの記事がありますが

自動的に指定したサイトの内容を読み取ったりする場合のことを指します。

所有する自サイトが多くあり、一つのサイトに更新情報をまとめる場合などにいいかと思います。

※悪用は厳禁です

 

簡単にwordpressでスクレイピングをする方法。

 

 

FeedWordPressというプラグインでスクレイピング

wordpressのプラグインの新規追加からFeedWordPressを追加する

インストール後、プラグインを有効化する

 

初期設定

・記事の更新間隔を設定する

ダッシュボードのメニューからsyndicationのFeeed & Updatesを選択

Update scheduling の項目のUpdates を

automatically check for updates before pages load

に指定
下のUpdate scheduling のwait は更新の間隔を決める。に設定

※初期設定の60以下にするにはcronを使用すれば設定可

 

次に、取得した記事を記事紹介形式で投稿するか、自サイトの記事として投稿するかを選択

Syndicated からPosts & Links を選択

リンクの項目の Permalinks point to から

記事紹介形式の場合は

The copy on the original website

自サイトの記事として投稿する場合は

The local copy on this  website

を選択

 

最後に、取得するサイトURLを追加する

Syndicationあるいはダッシュボードの

New sourceに取得したいサイトURLを入力し、addをクリック

 

これで自動的に指定したサイトの記事を取得し自サイトに記事が自動的に投稿されます。

 


 

ITかあさんが配布するスクレイピングプログラムを使う

PHP Simple HTML DOM Parserを使う方法で

XPathで取得位置を指定します。

プログラムの配布も行われていますがちょっと大変かもしれません。

壁になりそうなのが

・DB操作が必要

・CakePHPを使用している

・取得場所の指定がXPath

 

導入についてざっくりと説明

必要なファイルは以下からダウンロードしてください。

スクレイピングファイル

PHP Simple HTML DOM Parser

 

wordpressを設置しているドメインに

ダウンロードしたparthフォルダを丸ごとアップロード

 

DB設定

simple_htmlを設定

sqlを実行

パーミッションを変更

これで完了です。

 

設置に関して使用しているサーバーごとに若干の違いがあります。

 

※他サイトの情報を取得する場合は十分ご注意ください。

 

要素を指定するだけで記事の投稿ができるWordPessプラグイン

もっと簡単にスクレイピングを行う方法として

CSSのセレクタを指定するように取得場所の指定ができるWordPressのプラグインを作成しました。

このプラグインではデータベースを編集する必要はなく、プラグインを設置するだけで取得から投稿が自動で可能です

場所さえ指定すればすぐにWordPressに記事として投稿されます。

下書きでストックしてタイトルなどの編集後に公開といった方法もできます。

 

デモ動画

 

スクレイピングで記事の自動投稿・更新ができるプラグイン

WordPressで自動更新サイトが作れるプラグイン

詳細はお問い合わせください。

 

 

 

Reader Interactions