Q: HTMLタグのマッチングと抽出の正規表現

## 正規表現によるHTMLタグマッチング 正規表現は完全なHTMLパーサーとして使用すべきではありませんが、シンプルなタグのマッチング、抽出、サニタイズタスクには便利です。 ### 任意のHTMLタグにマッチ ]+> これは任意のHTMLタグ（開始、終了、自己閉じ）にマッチします： - 、 、 、 ### 特定のタグにマッチ ]*> 特定の要素の開始タグにマッチします。非キャプチャグループ内で選択を使用します。 ### タグ名と属性の抽出 \w+)(? [^>]*)> グループ： - tag：要素名 - attrs：すべての属性（生の文字列） ### 個別の属性の抽出 (? \w+)=(?:"(? [^"]*)"|'(? [^']*)') ダブルクォートとシングルクォートの両方の属性値に対応します。 ### すべてのHTMLタグを除去 str.replace(/ ]+>

Question 1

HTMLタグのマッチングと抽出の正規表現

Accepted Answer

## 正規表現によるHTMLタグマッチング正規表現は完全なHTMLパーサーとして使用すべきではありませんが、シンプルなタグのマッチング、抽出、サニタイズタスクには便利です。 ### 任意のHTMLタグにマッチ <[^>]+> これは任意のHTMLタグ（開始、終了、自己閉じ）にマッチします： -

、

、
、

### 特定のタグにマッチ <(?:p|div|span)[^>]*> 特定の要素の開始タグにマッチします。非キャプチャグループ内で選択を使用します。 ### タグ名と属性の抽出 <(?\w+)(?[^>]*)> グループ： - tag：要素名 - attrs：すべての属性（生の文字列） ### 個別の属性の抽出 (?\w+)=(?:"(?[^"]*)"|'(?[^']*)') ダブルクォートとシングルクォートの両方の属性値に対応します。 ### すべてのHTMLタグを除去 str.replace(/<[^>]+>

Question 2

When is this useful?

Accepted Answer

プレーンテキストプレビューのためにユーザー入力からHTMLタグを除去する必要がある場合、既知のHTML構造から特定の要素を抽出する場合、または不要なタグを除去しながらコンテンツを保持してHTMLをサニタイズする場合。

HTMLタグのマッチングと抽出の正規表現

詳細な説明

正規表現によるHTMLタグマッチング

任意のHTMLタグにマッチ

特定のタグにマッチ

タグ名と属性の抽出

個別の属性の抽出

すべてのHTMLタグを除去

自己閉じタグにマッチ

なぜ正規表現でHTMLを解析すべきでないか

ユースケース

試してみる — Regex Cheat Sheet

関連トピック