Crawlomaticプラグインを使用した単一のポストスクラップ

Last Updated:2024年2月12日| | コメントを残す

Crawlomaticプラグインを使用して単一の投稿をスクラップしたり、複数の投稿をスクラップしたりできます。例えば、 WordPressまた、ティーストーリーブログから特定のポストのみをスクラップすることができ、最新の記事ページやカテゴリページなどのアーカイブからURLを抽出してそのURLをスクラップすることも可能です。

この記事では、単一のURLを登録してそのURLから目的のコンテンツをスクラップする方法について説明します。複数の URL をクロールしてスクレイピングする方法は、Webスクレイピングプラグインでのティーストーリーから WordPressに移転する「を参照してください。ティーストーリーブログのサイトマップを使用して WordPressに移行する方法について説明しています。

Crawlomaticプラグインを使用した単一のポストスクラップ

スクレイピングとクロールの違い

スクレイピングとクロールは同様の用語ですが、いくつかの違いがあります。 Crawlomaticプラグイン開発者は、スクレイピングとクロールを次のように区別して説明しています。

Scraping means that the plugin extracts content from websites and using that content it create posts. And crawling means that the plugin extracts links from websites which can be further scraped.

  • スクレイピングとは、(プラグインを使用して)ウェブサイトからコンテンツを抽出し、抽出したコンテンツを使用してポストを生成することを意味します。
  • クロールは、(プラグインを使用して)スクレイピングできるようにWebサイトからリンクを抽出することを指します。

したがって、この記事で「スクレイピング」は、目的のコンテンツを抽出して新しい記事を作成すると理解することができます。

Crawlomaticプラグインを使用して単一のポストをスクラップする方法

Crawlomaticプラグインを使用すると、シングルポストスクレイピングとマルチポストスクレイピングが可能です。マルチポストスクレイピングは、ブログページやカテゴリページなどからURLを抽出し、各URLからコンテンツをスクレイピングして新しいポストを生成します。

たとえば、記事のブログやユーモアサイトなどからサイトマップや最新の記事ページからURLを抽出して目的のコンテンツを抽出し、新しい記事を作成できます。

単一のURLからコンテンツを抽出する操作は比較的簡単です。ティーストーリーブログ記事 WordPress ブログ記事をテストしてみました。

  • ティーストーリーブログ投稿 WordPressにインポートする場合、 この記事の「インポート後に投稿を編集する」セクションで説明する方法に従ってタグを削除しなければブロックエディタに変換できませんでした。
  • WordPress ブログ記事をスクレイピングする場合、すぐにブロックエディタに変換できました。

ティーストーリーブログ記事 WordPressにインポートする方法について簡単に見てみましょう。

Crawlomatic Multipage Scraper » Web Crawl to Postsに移動し、 Scraper Start (Seed) URL /Keywordsにスクレイピングする投稿のURLを入力します。

設定 ボタンをクリックします。

Crawling Restrictions セクションまでスクロールします。

以下の画面が表示された場合 Do Not Scrape Seed URLのチェックボックスを選択しないでください。

Crawlomaticプラグインを使用した単一のポストスクラップ

スクレイピングするURLを含む最新の記事ページまたはカテゴリページをSeed URLとして指定した場合は、このオプションをチェックする必要があります。ここでは単一の投稿をスクレイピングするので、このオプションは選択しないようにします。

Content Scraping Customizatons セクションでスクレイピングするコンテンツを詳細に指定できます。 Content Query Typeから Visual Selectorを選択します。

スクレイピングする要素を選択する

スクレイピングするコンテンツを選択できる画面が表示されます。

Visual Selectorを使用してスクレイピングする領域を選択する

目的のコンテンツ領域を選択します。これにより、Content Query Stringフィールドに値が自動的に入力されます。

Visual Selectorの代わりにClassなどで指定することも可能です。

CSSクラスでスクレイピングする領域を選択する

その他の設定(ポスト発行、画像ローカル保存、カテゴリ、タグマッピングなど)を行い、OKボタンを押して変更を保存します。

アクションを選択します ボタンを押して Run This Rule Nowを選択するとスクレイピングが始まります。

スクレイピングの実行

投稿をすぐに発行することもできますが、一時的に保存するように設定すると、編集後に投稿を公開(発行)できます。

次の映像(英語)で基本的な使い方を確認できます。

Crawlomaticプラグインの詳細については、プラグインサイトを参照してください。

他人のサイトを許可なくスクレイピングする場合、法的、倫理的な問題を引き起こす可能性があるため、注意が必要です。私のティーストーリーブログ WordPressに移したり、本人が運営するサイトのコンテンツを他のサイトに移した後に修正後に発行しようとするなどの目的で利用すればよいようです。

参照


コメントを残す

コメント