Domanda Mysql hamming distance of esadecimal values


Ho alcuni hash memorizzati in mysql, che vorrei recuperare con il paragone tenendo la distanza.

Gli hash memorizzati sono questi:

qw 1 ffe71b001820a1fd 
qw 2 ffffb81c1c3838a0 
qw 3 fff8381c1c3e3828 
qw 4 fffa181c3c2e3920 
qw 5 fffa981c1c3e2820 
qw 6 ff5f1c38387c1c04 
qw 7 fff1e0c1c38387ef 
qw 8 fffa181c1c3e3820 
qw 9 fffa381c1c3e3828

Normalmente prendo come:

SELECT product_id, HAMMING_DISTANCE(phash, 'phashfromuserinput') ;

Ma in mysql hamming distance è l'operatore bit a bit che posso fare se le stringhe fossero solo numeri:

SELECT pagedata,BIT_COUNT(pagecontent^'$encrypted')searchengine WHERE pagecontent > 2 ; ")

Funziona solo in numero intero (numero) ma il mio requisito è lavorare con numeri e alfabeti, ad esempio:

74898fababfbef46 and 95efabfeba752545

Dalla mia piccola ricerca so che prima devo convertire il campo in binary e quindi usare bitcount usando CAST o CONVERT piace:

SELECT BIT_COUNT( CONV( hash, 2, 10 ) ^ 
0b0000000101100111111100011110000011100000111100011011111110011011 )

o

SELECT BIT_COUNT(CAST(hash AS BINARY)) FROM data;

Questo è ok come convertire i dati in binary e usando bitcount. Ora sorge una domanda varbinary caratteri / hash memorizzati in mysql sono già alfanumerici e se converto il campo in varbinary e bitcount quindi non funzionerà poiché gli hash memorizzati non sono stringhe binarie.

Cosa dovrei fare?

Mi riferivo come esempio di corrispondenza a distanza di hamming php di:

function HammingDistance($bin1, $bin2) {
    $a1 = str_split($bin1);
    $a2 = str_split($bin2);
    $dh = 0;
    for ($i = 0; $i < count($a1); $i++) 
        if($a1[$i] != $a2[$i]) $dh++;
    return $dh;
}

echo HammingDistance('10101010','01010101'); //returns 8

Ma non capisco come abbinarlo a mysql e fetch, perché non riesco ad implementarlo in mysql.


15
2018-06-20 11:29


origine


risposte:


Usando gli ultimi due numeri come esempio:

SELECT BIT_COUNT( CAST(CONV('fffa181c1c3e3820', 16, 10) AS UNSIGNED) ^
                  CAST(CONV('fffa381c1c3e3828', 16, 10) AS UNSIGNED) ) ;
--> 2
  • Gli hash sono esadecimali.
  • La conversione deve finire con BIGINT UNSIGNED.

(Se avessi avuto hash MD5 (128-bit) o ​​SHA1 (160-bit), avremmo dovuto dividerli tramite SUBSTR(), Xo ogni coppia, BIT_COUNT, quindi ha aggiunto i risultati.)

Modifica per utilizzare il nome della colonna:

SELECT BIT_COUNT( CAST(CONV( a.pagecontent , 16, 10) AS UNSIGNED) ^
                  CAST(CONV( b.pagecontent , 16, 10) AS UNSIGNED) ) ;

6
2018-06-23 15:47