Упаковать / распаковать двоичную строку в Perl

Я пытаюсь понять фрагмент кода Perl. Я думаю, что его цель - создать двоичную строку из входного целого числа, но в обратном порядке битов (младший бит слева, старший бит справа). Однако я не понимаю, что делает pack / unpack с входными значениями; это кажется неверным.

Рассмотрим этот тестовый код:

for (my $i = 0; $i < 16; $i++) {

    for (my $j = 0; $j < 16; $j++) {

        $x = $i * 16 + $j;
        $x = unpack("b8", pack("U", $x));
        printf $x;
        print " ";
    }
    print "\n";
}

Это производит:

00000000 10000000 01000000 11000000 00100000 10100000 01100000 11100000 00010000 10010000 01010000 11010000 00110000 10110000 01110000 11110000
00001000 10001000 01001000 11001000 00101000 10101000 01101000 11101000 00011000 10011000 01011000 11011000 00111000 10111000 01111000 11111000
00000100 10000100 01000100 11000100 00100100 10100100 01100100 11100100 00010100 10010100 01010100 11010100 00110100 10110100 01110100 11110100
00001100 10001100 01001100 11001100 00101100 10101100 01101100 11101100 00011100 10011100 01011100 11011100 00111100 10111100 01111100 11111100
00000010 10000010 01000010 11000010 00100010 10100010 01100010 11100010 00010010 10010010 01010010 11010010 00110010 10110010 01110010 11110010
00001010 10001010 01001010 11001010 00101010 10101010 01101010 11101010 00011010 10011010 01011010 11011010 00111010 10111010 01111010 11111010
00000110 10000110 01000110 11000110 00100110 10100110 01100110 11100110 00010110 10010110 01010110 11010110 00110110 10110110 01110110 11110110
00001110 10001110 01001110 11001110 00101110 10101110 01101110 11101110 00011110 10011110 01011110 11011110 00111110 10111110 01111110 11111110
01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011
01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011
01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011
01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011 01000011
11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011
11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011
11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011
11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011 11000011

И так, что здесь происходит? Кажется, что все «высокие значения ASCII» (более 128) неправильно преобразованы, но, несмотря на чтение документации для pack и unpack Я не вижу, что здесь происходит.


person PatB    schedule 09.06.2014    source источник
comment
Это может помочь. perldoc.perl.org/perlpacktut.html   -  person Neil H Watson    schedule 09.06.2014
comment
Какая версия perl? Я только что протестировал это и не смог воспроизвести результаты. Если бы мне пришлось угадывать, это формат U для pack, который возвращает символ Unicode, который может быть или не может быть 1-байтовым. Значения более 127 могут быть закодированы как 2-байтовый символ.   -  person Mr. Llama    schedule 09.06.2014
comment
Да, это выглядит правдоподобно, спасибо!   -  person PatB    schedule 09.06.2014


Ответы (1)


Режим pack U упаковывает его в символ UTF-8, который может или не может быть одним байтом. (Тот факт, что ваш вывод начинается с 110, означает, что результат имеет длину два байта, но это другая история.)

Из документации:

U - A Unicode character number. Encodes to a character in character mode and UTF-8 (or UTF-EBCDIC in EBCDIC platforms) in byte mode.

Вы должны использовать опцию C, чтобы гарантировать, что в результате вы получите только один байт:

C - An unsigned char (octet) value.

Это дает нам:

for ( my $i = 0; $i < 16; $i++ ) {

    for ( my $j = 0; $j < 16; $j++ ) {

        $x = $i * 16 + $j;
        $x = unpack("b8", pack("C", $x));
        printf $x;
        print " ";
    }
    print "\n";
}
person Mr. Llama    schedule 09.06.2014
comment
Примечание: $x = unpack("b8", pack("C", $x)); может быть немного более понятным, если записать его как $x = reverse(sprintf("%08B", $x));. Реверс битового порядка странный. Если бы вы не перевернули ($x = unpack("B8", pack("C", $x));), вы могли бы использовать printf "%08B", $x; - person ikegami; 09.06.2014
comment
Еще раз спасибо. Поскольку я конвертирую это в C, в будущем манипуляции со строками в биты swizzle будут выполняться с помощью реальных операторов битового сдвига, а не с манипуляциями со строками! Мне просто нужно было понять, что он делал. - person PatB; 10.06.2014