diff + grep + perlで相違点(差分)だけを抽出する

csvファイルやtsvファイルでデータ作成をする場合、過去に作ったファイルと新しいファイルとの差分だけを抽出したファイルを作成したいことがあります。
※私の場合、DBに登録するデータをtsvで相手先に2回に分けて送る必要があり、2回目は差分だけのデータを送らなければならないことがありました。

通常のdiffコマンドだけだと出来ないので、grep(egrep)とperlを使って実現してみました。

では、以下のfoo.csvとbar.csvを対象にして差分を抽出してみます。
ファイルの中身は以下になります。(csvファイル)

foo.csv

bar.csv

このfoo.csvとbar.csvを普通にdiffで比較してみると差分を確認します。
foo.csvの相違点には行の先頭に「<」が表示されます。
逆のbar.csvの相違点には行の先頭に「>」が表示されます。

$ diff foo.csv bar.csv
1d0
< "01","りんご"
3c2,3
< "03","すいか"
---
> "03","めろん"
> "04","ぶどう"

上記の「diff foo.csv bar.csvの実行結果」を元に差分だけを抽出したファイルを作成します。
処理の順番としては、

といった流れになります。
処理の順番をつらつらを書きましたが、実際にはdiff + grep + perlをパイプで繋ぎリダイレクトでファイルに出力するので、事実上コマンド一発で行います。

「grep -E」と「egrep」はどちらを使用しても結果は変わりません。
コマンドの見た目的には「egrep」を使用したほうがスッキリするかなとは思います。

diff foo.csv bar.csv | grep -E '^<' | perl -pe 's/^<\s//g' > diff_left.csv

diff foo.csv bar.csv | egrep '^<' | perl -pe 's/^<\s//g' > diff_left.csv

01	りんご
03	すいか

diff foo.csv bar.csv | grep -E '^>' | perl -pe 's/^>\s//g' > diff_right.csv

diff foo.csv bar.csv | egrep '^>' | perl -pe 's/^>\s//g' > diff_right.csv

03	めろん
04	ぶどう

実際にこのコマンドを使用するケースはあまり多く無いと思いますが、覚えておくとラクな場合があると思います。

024.diffコマンドファイルの相違点を抽出する：Linuxコマンド.com
http://xn--linux-op4dtfrgoh.com/01linux/024diff.html

hogehoge foobar Blog Style Beta