Webスクレイピングプラグインでのティーストーリーから WordPressに移転する

Last Updated: 2024 年 09 月 14 日 2のコメント

寀ーブログで WordPressに移動する方法はいくつかあります。このブログの前の記事で説明したHTMLインポートプラグインを使用して移行する方法を使用すると、一括移動することができます。

この記事では、Webスクレイピングプラグインを使用してティーストーリーから WordPressに移行する方法を見てみましょう。

この方法では、初心者でも比較的簡単にティーストーリーブログを WordPressに移動できます。長所と短所があるので、この方法を使用するかどうかを慎重に選択してください。

以下に紹介するプラグインはURLをマッピングする機能を提供しませんが、少し複雑なプロセスを経てURLをマッピングすることが可能です。

Webスクレイピングプラグインでのティーストーリーから WordPressに移転する

Webスクレイピングプラグインでのティーストーリーから WordPressに移転する

Crawlomaticマルチサイトスクレーパーポスト生成プラグインは、ウェブサイトのクロールとスクレイピングを使用してほぼすべてのウェブサイトのコンテンツをクロール/スクラップして自動的に投稿を生成する自動ブログプラグインです。このプラグインを使用してユーモアサイトなどを自動的にスクラップするように設定する(참조)することができます。

このプラグインを使用してティーストーリーブログ WordPressに移動することも可能です。

先に説明した HTML Import 2プラグインの使い方の場合、プロセスは少しトリッキーですが、バックアップを使用して一括して一度に移行することができます。この方法は一部のWebホスティングでは機能しない可能性がありますが、多くの投稿を迅速に WordPressに移動できるという利点があります。

HTML インポート方式はイメージを Web サーバーにアップロードするため、イメージが多い場合は Web ホスティングサーバーのスペースが大きくなり、訪問者が多いとトラフィックが多くなることがあります。

Crawlomaticプラグインを使用する場合、イメージ WordPressとしてインポートするかどうかを選択するオプションが提供されます。イメージ WordPressにインポートしないと、カカオサーバーからイメージがロードされ、イメージスペースが節約され、トラフィックも削減されます。 (しかし、後でカカオで外部から画像を読み込むのを防ぐために問題が発生する可能性があります。 Naverは外部から画像をロードするのを防いでいますが、ティーストーリーでは許可しています。)

このWebスクレイピングを使用すると、設定が比較的簡単でプラグインの販売者からサポートを受けることができるため、初心者の立場ではHTML Import 2プラグインを使用するよりも簡単になります。ただし、Webスクレイピングの性質上、投稿が多い場合は、すべての投稿をインポートするのに時間がかかることがあります。テストしてみると、早朝にはすばやくコンテンツをインポートできましたが、昼間は少し時間がかかりました。

このプラグインは、記事の数がそれほど多くない場合(たとえば、数百個以下)としようとするようです。記事の数が多い場合は、数日間の夜間タイムゾーンを使用してインポートできます。

Crawlomaticでは、1回のリクエストごとにスクラップする投稿の数を指定でき、リクエストが完了してから次のリクエストが開始されるまでしばらく遅延させることができます。これにより、サーバーからのブロックを回避できます。

今このプラグインを使ってティーストーリーを WordPressに移動する方法について詳しく見てみましょう。

Crawlomaticプラグインを使用する場合の長所と短所

このプラグインを使用しながら感じた長所と短所は次のとおりです。

  1. 初心者でも難しくないようにできるようだ。ティーストーリーから WordPressに移す場合、初期設定だけを正しくすれば難しくない(初期設定は下記参照)。
  2. ティーストーリー・バックアップ・コピーを使用しないが、ティーストーリー・ブログは公開状態でなければならない。非公開の場合、コンテンツをスクレイピングできません。
  3. 発行日、カテゴリ、タグなどをマッピングすることができる。
  4. スラグはマッピングできません。たとえば、example.com/123でURLになっている場合、以前はexample.com/投稿名に変わり、URLが一致しません。 (※ URLマッピング機能は提供されていませんが、カスタムフィールドにURLを保存してからURLマッピングを試すことができます。)
  5. 画像を WordPress 保存または保存しないように設定するオプションが提供されます。 (※画像を保存しなくても後で WordPressから外部画像をダウンロードしてメディアライブラリに保存できます.)
  6. 古い投稿(例:3年以上の投稿)は除外するように設定できます。
  7. 時間が少しかかることがあります。 (テストをしてみると画像を保存するように設定した状態で1000文を移すのに5~6時間内外がかかりそうです。)
  8. 組織のブログだけでなく、ほぼすべてのWebサイトのコンテンツをスクレイピングできます。
  9. セッティングが多い方。 (以下では必要な設定のみ言及しました。)
  10. 売り手の積極的な顧客サポート

スクレイピングとクロールは意味が似ていますが、違いがあります。クロールとスクレイピングの違いについては この記事の「スクレイピングとクロールの違い」を参照してください。

WordPress ブログを設定する

ティーストーリーを使う WordPressに移動すると、設定する項目がたくさんあります。このため WordPress難しいと感じることができます。

まずは基本的な設定をした後にこの記事で紹介するプラグインをインストールしてティーストーリーブログ記事を WordPressに移動することができます。

基本的な WordPress ブログの設定に関する次の記事を参照してください。

参考までに Cafe24の WordPress ブログホスティングは Cafe24でインストールしたプラグイン以外にプラグインを追加インストールできないため Cafe24を利用したい場合 マネージド WordPress ホスティングを選択してください。

Webスクレイピング/クロールはサーバーに負担をかける可能性があります。 Webクロールがサーバー全体に影響を及ぼす場合は、退出対策を行う共有ホスティングもある可能性があります。サーバーの仕様により正常に動作しない場合 クラウドウェイズのようなホスティングを検討することができます。 3日間無料で利用できます。

ティーストーリー WordPressに移行するためのCrawlomatic設定の例

コンテンツスクレイピングの基本設定

ティーストーリー WordPressでWebスクレイピングしている場合は、ティーストーリーブログのサイトマップを利用できます。

Scraper Start (Seed) URL/Keywordsにサイトマップアドレスを入力します。例:

https://example.tistory.com/sitemap.xml

ティーストーリーでは、2020年4月にサイトマップ自動生成機能を追加しました(ティーストーリーのお知らせ 参照)。当初はサイトマップのエントリ数を1000個に制限しましたが、その後3000個に増えました。今は文本数が3000個以上であってもすべてサイトマップに含まれるようです。

その他のオプション設定 ボタンをクリックして、次のように設定します。

  • Do Not Scrape Seed URL: チェック
  • Seed Page Crawling Query Type: サイトマップ
  • Seed Page Crawling Query String:
https:\/\/example\.tistory\.com\/\d+
コンテンツスクレイピングの基本設定 - サイトマップ設定

URLが数字の場合は上記のように設定し、URLが文字の場合は Seed Page Crawling Query String オプションを次のように設定します。

https:\/\/example\.tistory\.com\/entry\/.+

また、コンテンツクエリタイプを次のように設定します。

  • Content Query Type: CLASS
  • Content Query String: contents_style

ポスト発行日のマッピング

発行日を現在の日付に設定するか、ティーストーリーブログ記事の日付として指定できます。また、 WordPressに移転した後、 WordPress プラグインを使用して発行日をランダムに変更することも可能です。

投稿日をそのままマッピングしたい場合は、次のように設定します。

  • Date Query Type: Regex - First Match
  • Date Query String:
#<meta property="article:published_time" content="([^"]*?)"\/>#

生成される投稿の発行状況を指定する

生成された文をすぐに公開したり、一時文で指定して編集した後に公開することが可能です。

生成される投稿の発行状況を指定する

一時文として保存したい場合 Generated Post Statusドラフトとして指定してください。審査過程なく直ちに発行してもよい場合には パブリッシュを選択するようにします。

画像を保存するかどうかを設定する

画像をWebサーバーにインポートして保存したい場合 Copy Images From Content Locally オプションをチェックします。

Copy These File Types Locallyにローカルに保存するファイルの種類を指定できます。プラグイン販売者に問い合わせると現在の画像ファイルだけローカルに保存が可能で、後でMP4ファイルも保存ができるように更新する予定だったのですが、上記のようにセッティングしてテストするのでmp4ファイルもメディアライブラリに保存されますね。

このオプションを選択すると、画像がインポートされます。 WordPressのメディアライブラリに保存されます。このオプションを有効にすると、Webスクレイピング時間が長くなる可能性があります。

"ローカルにコンテンツイメージをコピーする「オプションを選択しないと、イメージはインポートされず、カカオイメージパスにイメージがロードされます。

外部画像を特性画像として設定する

Copy Images From Content Locally オプションを選択しないと、イメージはカカオサーバーからロードされます。この場合、特性画像は指定されない。外部イメージをプロパティイメージとして指定する場合は、次の記事で紹介するプラグインを最初にインストールして設定する必要があります。

カテゴリとタグのマッピング

私のティーストーリーブログでは、ティーストーリーマガジンスキンにブレッドクラムを追加する方法「に紹介するコードを使用してブレッドクラムを追加しました。カテゴリがポストタイトルの上または下(コードを追加した場所に応じて)に表示されます。

ティーストーリーカテゴリーとタグのマッピング

カテゴリー WordPressに簡単に移動できるように、私はカテゴリ部分にクラスを割り当てました。

<span itemprop="name" class="categories">[##_article_rep_category_##]</span>

カテゴリが階層に設定されている場合、つまり親カテゴリとサブカテゴリとして指定された場合、WordPress/トラブルシューティング」のように、「親カテゴリ/サブカテゴリ」と表示されます。

この場合、次のように設定するとカテゴリがマッピングされます。

  • Category Query Type (Optional): CLASS
  • Category Query String (Optional): カテゴリ
  • Category Separator (Optional): /

タグの場合、次のように設定するとタグが追加されます。

  • Tag Query Type: XPath
  • Tag Query String: //*[@rel='tag']

カテゴリやタグが追加されない場合 次の2つのオプションがチェックされていることを確認してください。次のオプションが選択されるまで、カテゴリとタグが追加されます。

  • Add Post Categories From Query Strings (クエリ文字列からポストカテゴリを追加)
  • Add Post Tags From Query Strings (クエリ文字列からポストタグを追加)

日付範囲の設定

このプラグインでは、特定の日付範囲の投稿のみをスクラップする機能は提供されていませんが、古い記事(1年以上の投稿など)は除外する設定を提供します。

メイン設定に移動し、 Skip Posts Older Than a Selected Date オプションをチェックすると、古い投稿の日付を指定できます。

日付範囲の設定

上記のように設定すると、2023年1月1日より前に発行された投稿はスクレイピングされません。

スラグマッピング

このプラグインはスラグマッピングをサポートしていません。 WordPressの固有アドレスを」文の名前「」に設定すると、新しく作成された投稿のスラグ(URL)が記事のタイトルとして指定されます。

スラグマッピング

履歴URLが数値の場合、数値をそのままにするには、HTML Import 2プラグインを使用してインポートする方法を検討してください。

2024年9月更新:スラグマッピング機能は提供されていませんが、投稿URLをカスタムフィールドとして保存してからURLマッピングを試すことができます。これをしたい場合 ここでサービス(有料)を求めることができます。

リクエスト間の遅延時間を追加

どのくらいの投稿を一度にスクレイピング/クロールできるかは、サーバーのパフォーマンスによって異なります。プラグイン開発者は 初期に10~15個程度の文章をスクレイピングしてみて、徐々に増やしていくことを推奨します。

Max Postsで一度に生成できる文の数を指定できます。 スケジュールは予約実行時に使用されます。

作成する投稿の最大数

スクレイピング要求間の遅延時間を追加することも可能です。

  • Delay Between Multiple Requests: ミリ秒に設定(1000ミリ秒= 1秒)

Webスクレイピングテストを進める

まずは1つの文だけスクレイピングするように設定し、セッティングを終えた後 Run This Rule Now(今このルールを実行)を選択します。

投稿が作成されたら、必要に応じてコンテンツがインポートされたことを確認します。うまくいかない部分がある場合は、設定を変更しながらテストを続けます。

テストが完了したら Move All Posts To Trashを実行して作成したすべての投稿をゴミ箱に移動してから削除します。その後、 Max Posts 数を増やしてから、本格的にクロール/スクレイピングを開始できます。

各記事の発行間隔は Delay Between Post Publishing (milliseconds) オプションで設定できるようです。 Max Posts 数を指定してこのオプションを設定すると、各投稿が発行された後に指定された時間遅延された後に次の投稿が発行されるように見えます。

夜明けのタイムゾーンで試してみると、すぐにスクレイピングになります。

スクレイピングにかかる​​時間

時間がかかるたびに少しずつスクレイピングをしてみました。

画像を保存しないと、初期設定後に1000個の文章をスクラップして新しい文章で生成するのに5~6時間かかるようです。サーバー環境やコンテンツのサイズなどによって、実際の時間は異なる場合があります。

私は一度に30個ずつスクレイピングするように設定しました。最初は10個内外でテストしてみて、サーバーが余裕があれば少しずつ上げる方法で進めることができます。

インポート後に投稿を編集する

生成された投稿をクラシックエディタで編集したり、ブロックエディタで編集したりできます。ブロックエータで編集するには、次の手順を実行して、一番上と一番下のタグを削除します。

投稿編集画面で Ctrl + Shift + Alt + Mを押してコードエディタに変換します。

一番上にある タグを削除します。

インポート後に投稿を編集する

そして一番下に移動して タグを削除します。

インポート後に投稿を編集する

再び Ctrl + Shift + Alt + M ショートカットを押してコードエディタを終了します。本文をクリックすると上部に「ブロックに変換「ボタンが表示されます。このボタンをクリックしてブロックに変換できます。

WordPress ブロックに変換する

ブロックエディタのキーボードショートカットを習得すれば、すばやく簡単に書くことができます。

シングルポストスクレイピング

最新の記事ページやカテゴリページなど、アーカイブページからURLを抽出して複数のポストを生成するマルチポストスクレイピング操作に加えて、特定のURLのコンテンツをスクレイピングすることも可能です。

最後に、

以上でCrawlomatic Multisite Scraper Post Generator Plugin for WordPress プラグインを使用してティーストーリーブログを WordPressに移行する方法を見てみました。初心者でも比較的簡単にアクセスできると思います。

WordPressとしてコンテンツをインポートして編集した後に発行したい場合は、特にまともな方法です。

Crawlomaticプラグインの詳細については、プラグイン販売サイトを参照してください。

参照


2のコメント

コメント

  1. よろしくお願いしますが、このプラグインしかありませんね。有料なのが残念ですが、解決の糸口は掴んだようです。

    応答
    • こんにちは、Kokoaさん。費用をかけずにしたい場合は、HTMLインポートプラグインを使用するのも問題ありません。しかし、複雑で、初心者が従うのは簡単ではないかもしれないという欠点があります。

      時間があれば、一つずつ服付して移すことも考えられるでしょう。移動しながら文章を少しずつ修正するのも大丈夫そうです。

      応答