7. Одновременная выдача нескольких команд для выполнения
и динамическое планирование
- Одновременная выдача нескольких команд для выполнения
и динамическое планирование
- Архитектура машин с длинным командным словом
- Обнаружение и устранение зависимостей компилятором
и разворачивание циклов
- Аппаратные средства поддержки большой степени распараллеливания
Архитектура машин с длинным командным словом
Архитектура машин с очень длинным командным словом (VLIW Very -
Long Instruction Word) позволяет сократить объем оборудования, требуемого
для реализации параллельной выдачи нескольких команд, и потенциально
чем большее количество команд выдается параллельно, тем больше эта
экономия. Например, суперскалярная машина, обеспечивающая параллельную
выдачу двух команд, требует параллельного анализа двух кодов операций,
шести полей номеров регистров, а также того, чтобы динамически анализировалась
возможность выдачи одной или двух команд и выполнялось распределение
этих команд по функциональным устройствам. Хотя требования по объему
аппаратуры для параллельной выдачи двух команд остаются достаточно
умеренными, и можно даже увеличить степень распараллеливания до
четырех (что применяется в современных микропроцессорах), дальнейшее
увеличение количества выдаваемых параллельно для выполнения команд
приводит к нарастанию сложности реализации из-за необходимости определения
порядка следования команд и существующих между ними зависимостей.
Архитектура VLIW базируется на множестве независимых функциональных
устройств. Вместо того, чтобы пытаться параллельно выдавать в эти
устройства независимые команды, в таких машинах несколько операций
упаковываются в одну очень длинную команду. При этом ответственность
за выбор параллельно выдаваемых для выполнения операций полностью
ложится на компилятор, а аппаратные средства, необходимые для реализации
суперскалярной обработки, просто отсутствуют.
WLIW-команда может включать, например, две целочисленные операции,
две операции с плавающей точкой, две операции обращения к памяти
и операцию перехода. Такая команда будет иметь набор полей для каждого
функционального устройства, возможно от 16 до 24 бит на устройство,
что приводит к команде длиною от 112 до 168 бит.
Рассмотрим работу цикла инкрементирования элементов вектора на
подобного рода машине в предположении, что одновременно могут выдаваться
две операции обращения к памяти, две операции с плавающей точкой
и одна целочисленная операция либо одна команда перехода. На рис.
6.14 показан код для реализации этого цикла. Цикл был развернут
семь раз, что позволило устранить все возможные приостановки конвейера.
Один проход по циклу осуществляется за 9 тактов и вырабатывает 7
результатов. Таким образом, на вычисление каждого результата расходуется
1.28 такта (в нашем примере для суперскалярной машины на вычисление
каждого результата расходовалось 2.4 такта).
Для машин с VLIW-архитектурой был разработан новый метод планирования
выдачи команд, названный "трассировочным планированием".
При использовании этого метода из последовательности исходной программы
генерируются длинные команды путем просмотра программы за пределами
базовых блоков. Как уже отмечалось, базовый блок - это линейный
участок программы без ветвлений.
С точки зрения архитектурных идей машину с очень длинным командным
словом можно рассматривать как расширение RISC-архитектуры. Как
и в RISC-архитектуре аппаратные ресурсы VLIW-машины предоставлены
компилятору, и ресурсы планируются статически. В машинах с очень
длинным командным словом к этим ресурсам относятся конвейерные функциональные
устройства, шины и банки памяти. Для поддержки высокой пропускной
способности между функциональными устройствами и регистрами необходимо
использовать несколько наборов регистров. Аппаратное разрешение
конфликтов исключается и предпочтение отдается простой логике управления.
В отличие от традиционных машин регистры и шины не резервируются,
а их использование полностью определяется во время компиляции.
Обращение к
памяти 1 |
Обращение к
памяти 2 |
Операция ПТ 1 |
Операция ПТ 2 |
Целочисленная
операция/
переход |
LD F0,0(R1)
LD F10,-16(R1)
LD F18,-32(R1)
LD F26,-48(R1)
SD 0(R1),F4
SD -16(R1),F12
SD -32(R1),F20
SD 0(R1),F28 |
LD F6,-8(R1)
LD F14,-24(R1)
LD F22,-40(R1)
SD -8(R1),F8
SD -24(R1),F16
SD -40(R1),F24
|
ADDD F4,F0,F2
ADDD F12,F10,F2
ADDD F20,F18,F2
ADDD F28,F26,F2
|
ADDD F8,F6,F2
ADDD F16,F14,F2
ADDD F24,F22,F2
|
SUBI R1,R1,#48
BNEZ R1,Loop |
Рис. 6.14.
В машинах типа VLIW, кроме того, этот принцип замены управления
во время выполнения программы планированием во время компиляции
распространен на системы памяти. Для поддержания занятости конвейерных
функциональных устройств должна быть обеспечена высокая пропускная
способность памяти. Одним из современных подходов к увеличению пропускной
способности памяти является использование расслоения памяти. Однако
в системе с расслоенной памятью возникает конфликт банка, если банк
занят предыдущим обращением. В обычных машинах состояние занятости
банков памяти отслеживается аппаратно и проверяется, когда выдается
команда, выполнение которой связано с обращением к памяти. В машине
типа VLIW эта функция передана программным средствам. Возможные
конфликты банков определяет специальный модуль компилятора - модуль
предотвращения конфликтов.
Обнаружение конфликтов не является задачей оптимизации, это скорее
функция контроля корректности выполнения операций. Компилятор должен
быть способен определять, что конфликты невозможны или, в противном
случае, допускать, что может возникнуть наихудшая ситуация. В определенных
ситуациях, например, в том случае, когда производится обращение
к массиву, а индекс вычисляется во время выполнения программы, простого
решения здесь нет. Если компилятор не может определить, что конфликт
не произойдет, операции не могут планироваться для параллельного
выполнения, а это ведет к снижению производительности.
Компилятор с трассировочным планированием определяет участок программы
без обратных дуг (переходов назад), которая становится кандидатом
для составления расписания. Обратные дуги обычно имеются в программах
с циклами. Для увеличения размера тела цикла широко используется
методика раскрутки циклов, что приводит к образованию больших фрагментов
программы, не содержащих обратных дуг. Если дана программа, содержащая
только переходы вперед, компилятор делает эвристическое предсказание
выбора условных ветвей. Путь, имеющий наибольшую вероятность выполнения
(его называют трассой), используется для оптимизации, проводимой
с учетом зависимостей по данным между командами и ограничений аппаратных
ресурсов. Во время планирования генерируется длинное командное слово.
Все операции длинного командного слова выдаются одновременно и выполняются
параллельно.
После обработки первой трассы планируется следующий путь, имеющий
наибольшую вероятность выполнения (предыдущая трасса больше не рассматривается).
Процесс упаковки команд последовательной программы в длинные командные
слова продолжается до тех пор, пока не будет оптимизирована вся
программа.
Ключевым условием достижения эффективной работы VLIW-машины является
корректное предсказание выбора условных ветвей. Отмечено, например,
что прогноз условных ветвей для научных программ часто оказывается
точным. Возвраты назад имеются во всех итерациях цикла, за исключением
последней. Таким образом, "прогноз", который уже дается
самими переходами назад, будет корректен в большинстве случаев.
Другие условные ветви, например ветвь обработки переполнения и проверки
граничных условий (выход за границы массива), также надежно предсказуемы.
|