ユーザ定義ルールの日本語置換がうまくいかない†
- ページ: BugTrack
- 投稿者: mt
- 優先順位: 重要
- 状態: 完了
- カテゴリー: 本体バグ
- 投稿日: 2022-01-08 (土) 18:45:53
- バージョン: 1.5.3 (UTF-8)
- リリース予定バージョン: 1.5.4
メッセージ†
UTF-8版において、default.ini.php のユーザ定義ルール $line_rules の正規表現にマルチバイト文字を含む文字セット([^あいう]等)を使うと正しく動作しない。
lib/html.php の _convert_line_rule_to_regex関数を次のように変更したら正しく動作した。
function _convert_line_rule_to_regex($a)
{
return '/' . $a . '/u'; // 「u」フラグを追加
}
参照:
- こちら、理屈はわかるのですが、再現させられませんでした。PHPのバージョンとか、OSバージョン等教えていただけないでしょうか?あと再現する具体的な置換ルールとその時のWikiテキストを知りたいです -- umorigu
- default.ini.php の $line_rules に「'あいう' => '<b>AIU</b>'」 を追加して、Wikiテキストを 「あいうえおあいうえお」としたところ、レンダリング結果が 「<b>AIU</b>えお<b>AIU</b>えお」 となりました。環境は Windows XAMPP PHP7.4 です -- umorigu
- 再現しました。「文字セット」なんですね。「'あああ[^あいう]' => '<b>AIU</b>'」 で再現しました。Windows XAMPP PHP7.4 です -- umorigu
- [ 角かっこ ] で囲む正規表現のこの書き方は「文字クラス」と呼ぶようです -- umorigu
- 説明不足で失礼しました。おっしゃるとおり文字セット以外の動作は正常ぽいため(コードの並びによるのでしょうか)、よけいに混乱させられるバグです。既存の報告・対処にもあったように、UTF版の正規表現にはuフラグをつけたほうが良さそうです。なお環境は Ubuntu20 PHP7.4 でした。 -- mt
- ありがとうございます。preg正規表現関数を利用するところすべてに設定してよさそうですが、PukiWiki全体で330か所あり影響が大きすぎるので、今は問題が起きたところのみ u をつけるようにしています -- umorigu
- 対応しました commit:b560142d1d -- umorigu