it-swarm.cn

一行内的差异

我有一些SQL转储,我正在看它们之间的差异。 diff显然可以向我显示两行之间的差异,但是我很努力地试图找出长逗号分隔值列表中的哪些值实际上是导致行不同的值。

我可以使用什么工具指出某些文件中两行之间的确切字符差异?

120
user394

wdiff ,它的字比较。

在桌面上, meld 可以为您突出显示一行中的差异。

96
alex

另一个使用git-diff的方法:

git diff -U0 --Word-diff --no-index -- foo bar | grep -v ^@@

如果对差异位置不感兴趣,则使用grep -v。

31
Deepak

我已经为此使用vimdiff

这是屏幕截图 (不是我的)显示一两个字符之间的细微差别,非常明显。一个 也是快速教程

24
Mark McKinstry

这是一种“ ..狗咬你的头发”的方法...
diff让您明白了这一点;用它来带你进一步...

这是使用样本线对的输出... 表示TAB

Paris in the     spring 
Paris in the the spring 
             vvvv      ^

A ca t on a hot tin roof.
a cant on a hot  in roof 
║   v           ^       ^

the quikc brown box jupps ober the laze dogs 
The☻qui ckbrown fox jumps over the lazy dogs 
║  ║   ^ ║      ║     ║    ║          ║     ^

这是脚本。您只需要以某种方式找出线对。(在今天之前,我仅使用diff一次(两次?),所以我不知道它的很多选项,并为此选择选项脚本对我来说足够了,有一天:) ..我认为它必须足够简单,但是我要休息一下....

#
# Name: hair-of-the-diff
# Note: This script hasn't been extensively tested, so beware the alpha bug :) 
#   
# Brief: Uses 'diff' to identify the differences between two lines of text
#        $1 is a filename of a file which contains line pairs to be processed
#
#        If $1 is null "", then the sample pairs are processed (see below: Paris in the spring 
#          
# ║ = changed character
# ^ = exists if first line, but not in second 
# v = exists if second line, but not in first

bname="$(basename "$0")"
workd="/tmp/$USER/$bname"; [[ ! -d "$workd" ]] && mkdir -p "$workd"

# Use $1 as the input file-name, else use this Test-data
# Note: this test loop expands \t \n etc ...(my editor auto converts \t to spaces) 
if [[ "$1" == '' ]] ;then
  ifile="$workd/ifile"
{ while IFS= read -r line ;do echo -e "$line" ;done <<EOF
Paris in the spring 
Paris in the the spring
A cat on a hot tin roof.
a cant on a hot in roof
the quikc brown box jupps ober the laze dogs 
The\tquickbrown fox jumps over the lazy dogs
EOF
} >"$ifile"
else
  ifile="$1"
fi
#
[[ -f "$ifile" ]] || { echo "ERROR: Input file NOT found:" ;echo "$ifile" ;exit 1 ; }
#  
# Check for balanced pairs of lines
ilct=$(<"$ifile" wc -l)
((ilct%2==0)) || { echo "ERROR: Uneven number of lines ($ilct) in the input." ;exit 2 ; }
#
ifs="$IFS" ;IFS=$'\n' ;set -f
ix=0 ;left=0 ;right=1
while IFS= read -r line ;do
  pair[ix]="$line" ;((ix++))
  if ((ix%2==0)) ;then
    # Change \x20 to \x02 to simplify parsing diff's output,
    #+   then change \x02 back to \x20 for the final output. 
    # Change \x09 to \x01 to simplify parsing diff's output, 
    #+   then change \x01 into ☻ U+263B (BLACK SMILING FACE) 
    #+   to the keep the final display columns in line. 
    #+   '☻' is hopefully unique and obvious enough (otherwise change it) 
    diff --text -yt -W 19  \
         <(echo "${pair[0]}" |sed -e "s/\x09/\x01/g" -e "s/\x20/\x02/g" -e "s/\(.\)/\1\n/g") \
         <(echo "${pair[1]}" |sed -e "s/\x09/\x01/g" -e "s/\x20/\x02/g" -e "s/\(.\)/\1\n/g") \
     |sed -e "s/\x01/☻/g" -e "s/\x02/ /g" \
     |sed -e "s/^\(.\) *\x3C$/\1 \x3C  /g" \
     |sed -n "s/\(.\) *\(.\) \(.\)$/\1\2\3/p" \
     >"$workd/out"
     # (gedit "$workd/out" &)
     <"$workd/out" sed -e "s/^\(.\)..$/\1/" |tr -d '\n' ;echo
     <"$workd/out" sed -e "s/^..\(.\)$/\1/" |tr -d '\n' ;echo
     <"$workd/out" sed -e "s/^.\(.\).$/\1/" -e "s/|/║/" -e "s/</^/" -e "s/>/v/" |tr -d '\n' ;echo
    echo
    ((ix=0))
  fi
done <"$ifile"
IFS="$ifs" ;set +f
exit
#
6
Peter.O

wdiff 实际上是一种非常古老的逐字比较文件的方法。它的工作方式是重新格式化文件,然后使用diff查找差异并将其再次传递回去。我本人建议添加上下文,以使每个单词都被其他“上下文”单词包围,而不是逐个单词进行比较。这使得diff可以更好地在文件中的普通段落上进行自我同步,尤其是当文件之间的差异很大,只有几个普通字块时。例如,在比较文本以进行窃或重复使用时。

dwdiff 后来从wdiff创建。 但是dwdiff使用该文本重新格式化功能在dwfilter中效果良好。这是一个很大的进步–这意味着您可以重新格式化一个文本以匹配另一个文本,然后使用任何逐行图形化差异显示工具比较它们。例如,将其与“ diffuse”图形差异一起使用。

dwfilter file1 file2 diffuse -w

重新格式化file1转换为file2并将其提供给diffuse进行视觉比较。 file2未修改,因此您可以直接在diffuse中编辑Word差异并将其合并到其中。如果您要编辑file1, 你可以加 -r可以将哪个文件重新格式化。试试看,您会发现它非常强大!

我偏爱图形差异(如上所示)是 diffuse ,因为它感觉更简洁,更有用。它还是一个独立的python=程序,这意味着它很容易安装并分发到其他UNIX系统。

其他图形差异似乎有很多依赖性,但也可以使用(您选择)。这些包括 - kdiff3xxdiff

5
anthony

使用@ Peter.O的 solution 作为基础,我重写了它以进行许多更改。

enter image description here

  • 它仅打印每行一次,并使用颜色向您显示差异。
  • 它不写任何临时文件,而是管道化所有内容。
  • 您可以提供两个文件名,它将比较每个文件中的相应行。 ./hairOfTheDiff.sh file1.txt file2.txt
  • 否则,如果您使用原始格式(一个文件,第二行需要与之前的文件进行比较),则现在可以简单地将其输入,无需读取任何文件。看一下源代码中的demo;这可能会打开花哨的管道,从而也不需要使用paste和多个文件描述符为两个单独的输入提供文件。

没有突出显示意味着角色在两行中,突出显示意味着它在第一行中,红色意味着它在第二行中。

颜色可以通过脚本顶部的变量进行更改,甚至可以通过使用正常字符表示差异来完全放弃颜色。

#!/bin/bash

same='-' #unchanged
up='△' #exists in first line, but not in second 
down='▽' #exists in second line, but not in first
reset=''

reset=$'\e[0m'
same=$reset
up=$reset$'\e[1m\e[7m'
down=$reset$'\e[1m\e[7m\e[31m'

timeout=1


if [[ "$1" != '' ]]
then
    paste -d'\n' "$1" "$2" | "$0"
    exit
fi

function demo {
    "$0" <<EOF
Paris in the spring 
Paris in the the spring
A cat on a hot tin roof.
a cant on a hot in roof
the quikc brown box jupps ober the laze dogs 
The quickbrown fox jumps over the lazy dogs
EOF
}

# Change \x20 to \x02 to simplify parsing diff's output,
#+   then change \x02 back to \x20 for the final output. 
# Change \x09 to \x01 to simplify parsing diff's output, 
#+   then change \x01 into → U+1F143 (Squared Latin Capital Letter T)
function input {
    sed \
        -e "s/\x09/\x01/g" \
        -e "s/\x20/\x02/g" \
        -e "s/\(.\)/\1\n/g"
}
function output {
    sed -n \
        -e "s/\x01/→/g" \
        -e "s/\x02/ /g" \
        -e "s/^\(.\) *\x3C$/\1 \x3C  /g" \
        -e "s/\(.\) *\(.\) \(.\)$/\1\2\3/p"
}

ifs="$IFS"
IFS=$'\n'
demo=true

while IFS= read -t "$timeout" -r a
do
    demo=false
    IFS= read -t "$timeout" -r b
    if [[ $? -ne 0 ]]
    then
        echo 'No corresponding line to compare with' > /dev/stderr
        exit 1
    fi

    diff --text -yt -W 19  \
        <(echo "$a" | input) \
        <(echo "$b" | input) \
    | \
    output | \
    {
        type=''
        buf=''
        while read -r line
        do
            if [[ "${line:1:1}" != "$type" ]]
            then
                if [[ "$type" = '|' ]]
                then
                    type='>'
                    echo -n "$down$buf"
                    buf=''
                fi

                if [[ "${line:1:1}" != "$type" ]]
                then
                    type="${line:1:1}"

                    echo -n "$type" \
                        | sed \
                            -e "s/[<|]/$up/" \
                            -e "s/>/$down/" \
                            -e "s/ /$same/"
                fi
            fi

            case "$type" in
            '|')
                buf="$buf${line:2:1}"
                echo -n "${line:0:1}"
                ;;
            '>')
                echo -n "${line:2:1}"
                ;;
            *)
                echo -n "${line:0:1}"
                ;;
            esac
        done

        if [[ "$type" = '|' ]]
        then
            echo -n "$down$buf"
        fi
    }

    echo -e "$reset"
done

IFS="$ifs"

if $demo
then
    demo
fi
4
Hashbrown

这是一个简单的单线:

diff -y <(cat a.txt | sed -e 's/,/\n/g') <(cat b.txt | sed -e 's/,/\n/g')

想法是使用sed用换行符替换逗号(或您希望使用的任何定界符)。 diff然后负责其余的工作。

3
user82160
  • xxdiff:另一个工具是xxdiff(GUI),它必须首先安装。
  • 电子表格:对于数据库数据,可以轻松制作.csv的电子表格,并插入_(A7==K7) ? "" : "diff"或类似公式,然后复制粘贴。
2
user unknown

如果我正确阅读了您的问题,请使用diff -y这类事情。

它使并排比较的比较容易得多,以找出哪些行引发了差异。

1
rfelsburg

在命令行上,我将确保在比较文件之前添加明智的换行符。您可以使用sed,awk,Perl或其他任何真正以某种系统的方式添加换行符的方法-确保不要添加太多。

但是我发现最好是使用vim,因为它突出了Word的差异。如果差异不大且差异很简单,那么vim很好。

1
asoundmove

我遇到了同样的问题,并使用 PHP Fine Diff 解决了此问题,该工具可让您指定粒度。我知道从技术上讲它不是* nix工具,但我并不是真的想下载一个程序来进行一次字符级差异检查。

1
pillravi

kdiff 正在成为Linux上的标准GUI差异查看器。它类似于 xxdiff ,但我认为kdiff3更好。它做得很好,包括您要求显示“某些文件中两行之间的确切字符差异”。

1
Faheem Mitha