Производительность бета-версии на платформе IA64
Мы провели сравнения бета версии Автоматического Распараллеливателя с наиболее эффективным компилятором для платформы IA64 - icc 11.0.074, а также с самым распространненым компилятором gcc версии 4.3.1, который также используется Автоматическим Распараллеливателем. Сравнения производились на 6 задачах из пакета SPEC/CPU2006 и на 6 задачах из пакета NAS Parallel Benchmarks 3.3. Для замеров мы использовали машину:
4 x Intel Itanium2 1.0Ghz with 3Gb memory onboard
Флаги компиляции:
| icc | icc -O2 -ipo -no-prec-div |
| icc + parallel | icc -O2 -parallel -ipo -no-prec-div |
| gcc | gcc -O2 |
| utl | [смотри ниже] |
Замеры на задачах из пакета SPEC/CPU2006
Опции utl, которые использовались для компиляции задач из пакета SPEC/CPU2006:
| 410.bwaves | -Ws,--alias-fortran -Ws,--strict-types |
| 436.cactusADM | -Ws,--alias-fortran -Ws,--strict-types для фортрановской части |
| 437.leslie3d | -Ws,--alias-fortran -Ws,--strict-types |
| 459.GemsFDT | -Ws,--inter-module -Ws,--alias-fortran -Ws,--strict-types |
| 462.libquantum | -Ws,--inter-module -Ws,--pto-wilson |
| 470.lbm | -Ws,--inter-module -Ws,--pto-wilson |
Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.
Замеры на задачах из пакета NAS Parallel Benchmarks
Опции utl, которые использовались для компиляции задач из пакета NAS Parallel Benchmarks:
| BT | -Ws,--strict-types -Ws,--alias-fortran -Ws,--opt-force -Ws,--inter-module -Ws,--inline -Ws,--localize -Ws,--lowerscope |
| CG | -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline |
| EP | -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline -Ws,--lowerscope |
| MG | -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline |
| SP | -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline -Ws,--localize -Ws,--lowerscope -Ws,--inline |
| UA | -Ws,--strict-types -Ws,--alias-fortran -Ws,--inter-module -Ws,--inline |
Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.
* - задачи MG и CG измерялись на входных данных класса B. Это было сделано, чтобы уменьшить погрешность изменения, так как на данных классе A эти задачи работают крайне бысто.
Все остальные задачи измерялись на входных данных класса A.
Результаты рамеров на большой машине
Кроме того, нам удалось осуществить замеры производительности автоматического распараллеливателя на машине Bull NovaScale 5325 со следующими характеристиками:
32 x dual-core Intel Itanium2 1.6Ghz with 256Gb memory onboard
Замеры на задачах из пакета SPEC/CPU2006
Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.
Замеры на задачах из пакета NAS Parallel Benchmarks
Ниже приведены результаты сравнения. Сначала в виде диаграмы, затем в виде таблицы с результатами замеров.
* - задачи MG и CG измерялись на входных данных класса B. Это было сделано, чтобы уменьшить погрешность изменения, так как на данных классе A эти задачи работают крайне бысто.
Все остальные задачи измерялись на входных данных класса A.
ENGLISH