これでは困るので、この整形用の改行コードを削除したいわけですが、「置換」コマンドで改行コードを全部取ってしまうと、今度は「本来の改行」もなくなってしまい、改行のないベタッとしたとんでもない文書になってしまいます。
手動で作業する場合、
- 1行ごとに改行を取っていく
- 一旦全部の改行を一括削除した後、本来の改行を入れ直す
のどちらかになりそうですが、長い文書だと、とてもそんな悠長なことはやっていられません。
そこで登場するのが「取れたぬ君」です。
整形用の改行と、本来の改行はどうやって区別できるでしょうか?
「本来の改行」を見抜くには、一般に次のようなルールがあてはまります。
改行コードがある次の行が、
- 行頭が全角スペース(字下げしているので、その前の改行は意図的なもの)
- 行頭が半角スペース(同上)
- 行頭がタブコード(同上)
- 行頭が改行コード(改行のみの行なので、意図的な空行)
- 現在行を n 行目とした時、n-1 行目が改行だけの行(同上)
さらには、「見出し」としている行の前も、意図的な改行(本来の改行)のはずです。
見出しは字下げしない場合、特定の見出し文字で書き始めることが多いでしょう。
● ☆ ★ ○付き数字 ただの数字 §などの記号……
これらの文字を「見出し文字」として指定しておけば、その前の行の改行は「本来の改行」と見なします。
また、小説などでは会話部分の始まりである 「 (かぎかっこ)を字下げせずに使いますが、これなども「見出し文字」のひとつとして登録しておけばいいわけです。
取れたぬ君はこうしたルールで改行コードを一括削除しています。巨大な文書ファイルでも、一瞬にして作業を終了させます。
見出し文字は初期設定で指定しなければなりません。必ず初期設定をしてから使い始めてください。
一旦初期設定をすれば、その内容はWindowsのレジストリに書き込まれ、記憶されていますので、次に設定を変更するまで有効です。
ただし、完璧とはいきません。「見落とし」は必ず出てきますので、最終的にはきちんと読み直しをしながら、削除漏れや削除しすぎを手動で修正してくださいね。