Эльбрус/оптимизация: различия между версиями

Материал из ALT Linux Wiki
м (→‎-march/-mtune: спасибо Николаю и тем, кто его проконсультировал)
м (→‎Ссылки: dev.mcst.ru!)
 
Строка 35: Строка 35:
* [[эльбрус/портирование]]
* [[эльбрус/портирование]]
* [[:en:Elbrus/optimization]]
* [[:en:Elbrus/optimization]]
* [http://mcst.ru/elbrus_prog Руководство по эффективному программированию на платформе «Эльбрус»]
* [http://dev.mcst.ru/book/index.html Руководство по эффективному программированию на платформе «Эльбрус»] <!-- исходно http://mcst.ru/elbrus_prog -->
** [http://ftp.altlinux.org/pub/people/mike/elbrus/docs/elbrus_prog/html/chapter6.html 6. Повышение производительности]
** [http://ftp.altlinux.org/pub/people/mike/elbrus/docs/elbrus_prog/html/chapter6.html 6. Повышение производительности]
** [http://ftp.altlinux.org/pub/people/mike/elbrus/docs/elbrus_prog/html/chapter8.html 8. Рекомендации по оптимизации программ под архитектуру Эльбрус]
** [http://ftp.altlinux.org/pub/people/mike/elbrus/docs/elbrus_prog/html/chapter8.html 8. Рекомендации по оптимизации программ под архитектуру Эльбрус]

Текущая версия от 12:33, 3 июля 2024

Вопросы, ответы и прочие заметки по части оптимизации кода под "Эльбрус".

FAQ

-march/-mtune

Q: Как оптимизировать сборку под конкретный процессор?

A: lcc 1.23 и выше умеет как -march для указания минимальной версии микроархитектуры -- например, -march=elbrus-v4 -- так и -mtune для оптимизации под конкретный процессор (и только под него, на других не запустится), например, -mtune=elbrus-8c; разница для конкретного процессора может быть как незначительной (наблюдали порядка процента для e8c), так и более заметной (в тех же условиях получили ~8% для e1cp). Избегайте статической компоновки кода, собранного в разных режимах (например, при сборке с EML).

Пример проверки результата:

$ objdump -x бинарник | grep архи
архитектура: elbrus-v4:64, флаги 0x00000112:
Примечание: lcc по умолчанию выставляет -march для целевой версии архитектуры, под которую собран сам компилятор (но не выставляет уровень оптимизации, в отличие от gcc); clang по умолчанию не выставляет и -march, а generic будет e2kv2.
Примечание: Если на стадии линковки компилятор принимает в работу разделяемые библиотеки, собранные для более высокой версии системы команд, чем заданная по -march -- в итоговом бинарнике будет проставлена более высокая вместо заданной.


-O2

Q: Мой код на x86 собирается с -O2, почему он работает так медленно на "Эльбрусе"?

A1: lcc осмысленным образом поддерживает уровни оптимизации вплоть до -O4, при этом в дистрибутивах ОС Альт (и вроде как Эльбрус Линукс) штатно применяется -O3; попробуйте указать этот уровень оптимизации для сборки. Вслепую задавать -O4 не следует, т.к. результаты могут быть противоречивыми и обязательно надо смотреть предметно.

A2: Проверьте, что хотя бы -O2 при сборке на e2k "долетело" до компилятора -- make V=1 VERBOSE=1 в случае cmake либо ps auxww | grep -- -O в общем случае. Попадались сборочные системы, которые вовсе ничего не передавали, что на lcc равнозначно -O0 (в альте сделана обёртка, которая при отсутствии -O* выставляет -O3, но закладываться на такую подстраховку всё же не следует).

if-else-if-else vs switch

Q: Если много условий в elseif, то м.б. переделать на switch case, будет быстрее? (Сергей Еронов)

A: Если switch сможет соптимизироваться, то да. Если нет - то по скорости будет так же. Так что лучше переделать.

Это к ситуации, если идёт цепочка if-else if-...else if-else. Если подразумевалось много условий внутри одного else if, то неважно. (Alex Markin)

Ссылки