Я хотел сделать свои первые шаги с Intel SSE, поэтому я следовал руководству, опубликованному здесь, с той разницей, что вместо разработки для Windows и C++ я делаю это для Linux и C (поэтому я использую не _aligned_malloc
, а posix_memalign
).
Я также реализовал один ресурсоемкий метод без использования расширений SSE. Удивительно, но когда я запускаю программу, обе части кода (тот, что с SSE, и тот, что без него) занимают одинаковое количество времени для запуска, обычно время одного, использующего SSE, немного больше, чем другого.
Это нормально? Возможно ли, что GCC уже оптимизирует SSE (также используя опцию -O0
)? Я тоже пробовал вариант -mfpmath=387
, но никак, все так же.