7. Одновременная выдача нескольких команд для выполнения
и динамическое планирование
- Одновременная выдача нескольких команд для выполнения
и динамическое планирование
- Архитектура машин с длинным командным словом
- Обнаружение и устранение зависимостей компилятором и разворачивание
циклов
- Аппаратные средства поддержки большой степени распараллеливания
Обнаружение и устранение зависимостей компилятором и разворачивание
циклов
В этом разделе мы обсудим методы компиляции, которые позволяют
увеличить степень параллелизма, который можно использовать при выполнении
программы. Мы начнем с изучения методов обнаружения зависимостей
и устранения зависимостей по именам.
Обнаружение и устранение зависимостей
Нахождение зависимостей по данным в программе является важной частью
трех задач: (1) хорошее планирование программного кода, (2) определение
циклов, которые могут содержать параллелизм, и (3) устранение зависимостей
по именам. Сложность анализа зависимостей связана с наличием массивов
(и указателей в языках, подобных языку Си). Поскольку обращения
к скалярным переменным осуществляется явно по имени, они обычно
могут анализироваться достаточно просто. При этом наличие указателей-алиасов
и обращений к параметрам вызывает усложнения, поскольку они могут
быть неизвестны в процессе анализа.
При анализе необходимо найти все зависимости и определить, имеется
ли цикл в этих зависимостях, поскольку это то, что не позволяет
нам выполнять цикл параллельно. Рассмотрим следующий пример:
for (i=1;i<=100;i=i+1) {
A[i] = B[i] + C[i];
D[i] = A[i] + E[i];
}
Поскольку в данном случае зависимость, связанная с А, не приводит
к зависимости между итерациями цикла, можно развернуть цикл для
выявления большей степени параллелизма. Мы не можем прямо поменять
местами два обращения к А. Если цикл имеет зависимости между итерациями,
которые не являются циклическими, можно сначала преобразовать цикл
для устранения этих зависимостей, а затем развернуть цикл для выявления
большей степени параллелизма. Во многих параллельных циклах степень
параллелизма ограничена только количеством разворотов цикла, которое
в свою очередь ограничивается только количеством итераций цикла.
Конечно на практике, чтобы получить выигрыш от этой большей степени
параллелизма, потребуется много функциональных устройств и огромное
количество регистров. Отсутствие зависимости между итерациями цикла
просто сообщает нам, что нам доступна большая степень параллелизма.
Фрагмент вышеприведенного кода иллюстрирует также другую возможность
для улучшения машинного кода. Второе обращение к А не нужно транслировать
в команду загрузки из памяти, поскольку мы знаем, что значение вычислено
и записано предыдущим оператором. Поэтому второе обращение к А может
выполняться с помощью обращения к регистру, в котором значение А
было вычислено. Выполнение этой оптимизации требует знания того,
что два обращения всегда относятся к одному и тому же адресу памяти,
и что к той же самой ячейке между этими двумя обращениями другие
обращения (по записи) отсутствуют. Обычно анализ зависимостей по
данным дает информацию только о том, что одно обращение может зависеть
от другого. Для определения того, что два обращения должны выполняться
точно по одному и тому же адресу, требуется более сложный анализ.
В вышеприведенном примере достаточно простейшей версии такого анализа,
поскольку оба обращения находятся в одном и том же базовом блоке.
Часто зависимости между итерациями цикла появляются в форме рекуррентного
отношения:
for (i=2;i<=100;i=i+1) {
Y[i] = Y[i-1] + Y[i];
}
Определение наличия рекуррентных отношений может оказаться важным
по двум причинам. Некоторые архитектуры (особенно векторные машины)
имеют специальную поддержку для выполнения рекуррентных отношений
и некоторые рекуррентные отношения могут быть источником значительной
степени параллелизма. Например, рассмотрим цикл:
for (i=6;i<=100;i=i+1) {
Y[i] = Y[i-5] + Y[i];
}
На итерации j цикл обращается к элементу j-5. Говорят, что цикл
имеет зависимость с расстоянием 5. Предыдущий цикл имел зависимость
с расстоянием 1. Чем больше расстояние, тем больше степень потенциального
параллелизма, которую можно получить при помощи разворачивания цикла.
Например, если мы разворачиваем первый цикл, имеющий зависимость
с расстоянием 1, последовательные операторы зависят друг от друга;
имеется некоторая степень параллелизма между отдельными командами,
но не очень большая. Если мы разворачиваем цикл, который имеет зависимость
с расстоянием 5, то имеется последовательность пяти команд, которые
не имеют зависимостей, и тем самым обладают значительно большей
степенью параллелизма уровня команд. Хотя многие циклы с зависимостями
между итерациями имеют расстояние зависимостей 1, случаи с большими
расстояниями в действительности возникают, и большее расстояние
между зависимостями может обеспечивать достаточную степень параллелизма
для поддержания машины занятой.
Как вообще компилятор обнаруживает зависимости? Почти все алгоритмы
анализа зависимостей работают с предположением, что обращения к
массивам являются аффинными. В простейшем случае индекс одномерного
массива является аффинным, если он может быть записан в форме: a
( i + b, где a и b константы, а i - переменная индекса цикла. Индекс
многомерного массива является аффинным, если индекс по каждой размерности
является аффинным.
Таким образом, определение факта наличия зависимостей между двумя
обращениями к одному и тому же массиву в цикле сводится к определению
того, что две аффинные функции могут иметь одно и то же значение
для различных индексов между границами цикла. Например, предположим,
что мы выполнили запись в элемент массива со значением индекса a
( i + b, и выполняем загрузку из того же массива со значением индекса
c ( i + d, где i - переменная индекса цикла for, которая меняется
в пределах от m до n. Зависимость существует, если имеют место два
условия:
- Имеются индексы двух итераций, j и k, оба внутри пределов цикла
for. А именно, m ( j, k ( n.
- Цикл выполняет запись в элемент массива, индексируемого при
помощи a ( j + b, и затем выбирает значение из того же самого
элемента массива, когда он индексируется с помощью c ( k + d.
А именно, a ( j + b = c ( k + d.
В общем случае во время компиляции мы не можем определить, имеет
ли место зависимость. Например, значения a, b, c и d могут быть
неизвестными (они могут быть значениями другого массива), а, следовательно,
невозможно сказать, что зависимость существует. В других случаях
проверка зависимостей может оказаться очень дорогой, но в принципе
возможной во время компиляции. Например, обращения могут зависеть
от индексов итераций множества вложенных циклов. Однако многие программы
содержат в основном простые индексы, где a, b, c и d все являются
константами. Для этих случаев возможно придумать недорогие тесты
для обнаружения зависимостей.
Например, простым и достаточным тестом отсутствия зависимостей
является наибольший общий делитель, или тест НОД. Он основан на
том, что если существует зависимость между итерациями цикла, то
НОД(c,a) должен делить (d-b). (Вспомним, что целое x делит другое
целое y, если отсутствует остаток от деления y/x). Тест НОД является
достаточным, чтобы гарантировать, что зависимости отсутствуют. Однако
имеются случаи, когда тест НОД достигает цели, но в реальной программе
зависимость отсутствует. Это может возникнуть, например, поскольку
тест НОД не рассматривает границы цикла.
В общем случае задача определения действительного наличия зависимостей
является NP-полной. Однако на практике многие частые случаи могут
быть точно проанализированы при вполне умеренных затратах. (Тест
является точным, если он точно определяет наличие зависимости. Хотя
общий случай является NP-полным (т.е. точное решение возможно найти
путем полного перебора всех вариантов), имеются точные тесты для
ограниченного числа ситуаций, которые являются намного более дешевыми).
Кроме определения наличия зависимостей, компилятор старается также
классифицировать тип зависимости. Это позволяет компилятору распознать
зависимости по именам и устранить их путем переименования и копирования.
Например, следующий цикл имеет несколько типов зависимостей. Попробуем
найти все истинные зависимости, зависимости по выходу и антизависимости
и устранить зависимости по выходу и антизависимости с помощью переименования.
for (i=1;i<=100;i=i+1) {
Y[i] = X[i] / c; /*S1*/
X[i] = X[i] + c; /*S2*/
Z[i] = Y[i] + c; /*S3*/
Y[i] = c - Y[i]; /*S4*/
}
В этих четырех операторах имеются следующие зависимости:
- Имеются истинные зависимости от S1 к S3 и от S1 к S4 из-за Y[i].
Отсутствует зависимость между итерациями цикла, что позволяет
рассматривать цикл как параллельный. Эти зависимости приведут
к ожиданию операторами S3 и S4 завершения оператора S1.
- Имеется антизависимость от S1 к S2.
- Имеется зависимость по выходу от S1 к S4.
Следующая версия цикла устраняет эти ложные (или псевдо-) зависимости.
for (i=1;i<=100;i=i+1) {
/* Y переименовывается в T для устранения
зависимости по выходу */
T[i] = X[i] / c;
/* X переименовывается в X1 для устранения
антизависимости */
X1[i] = X[i] + c;
Z[i] = T[i] + c;
Y[i] = c - T[i];
}
После цикла переменная X оказалась переименованной в X1. В коде
программы, следующем за циклом, компилятор просто может заменить
имя X на имя X1. В данном случае переименование не требует действительной
операции копирования, а может быть выполнено с помощью заменяющего
имени или соответствующего распределения регистров. Однако в других
случаях переименование может потребовать копирования.
Анализ зависимостей является важнейшей технологией для улучшения
использования параллелизма. На уровне команд она дает информацию,
необходимую для изменения в процессе планирования порядка обращений
к памяти, а также для определения полезности разворачивания цикла.
Для обнаружения параллелизма уровня цикла анализ зависимостей является
базовым инструментом. Эффективная компиляция программ для векторных
машин, а также для мультипроцессоров существенно зависит от этого
анализа. Кроме того, при планировании потока команд полезно определить,
являются ли потенциально зависимыми обращения к памяти. Главный
недостаток анализа зависимостей заключается в том, что он применим
при ограниченном наборе обстоятельств, а именно к обращениям внутри
одного гнезда циклов и использует аффинные функции индексов. Таким
образом, имеется огромное многообразие ситуаций, при которых анализ
зависимостей не может сообщить нам то, что мы хотели бы знать, а
именно:
- когда обращения к объектам выполняются с помощью указателей,
а не индексов массива,
- когда индексация массива осуществляется косвенно через другой
массив, что имеет место при работе с разреженными массивами,
- зависимость может существовать для некоторого значения входов,
но отсутствовать в действительности при выполнении программы,
поскольку входы никогда не принимают определенных значений,
- когда оптимизация зависит не просто от знания возможности наличия
зависимости, но требует точного определения того, от какой операции
записи зависит чтение переменной.
Программная конвейеризация: символическое разворачивание циклов
Мы уже видели, что один из методов компиляции - разворачивание
циклов - полезен для увеличения степени параллелизма на уровне команд
посредством создания более длинных последовательностей линейного
кода. Имеются два других важных метода, которые разработаны для
этих целей: программная конвейеризация и планирование трасс.
Программная конвейеризация - это метод реорганизации циклов
таким образом, что каждая итерация в программно конвейеризованном
коде составляется из команд, выбранных из разных итераций первоначального
цикла. Планировщик по существу чередует команды из разных итераций
цикла так, чтобы отдалить друг от друга зависимые команды, которые
возникают в одной итерации цикла. Программно конвейеризованный цикл
чередует команды из разных итераций без реального разворачивания
цикла (рис. 6.15). Этот метод по существу программно выполняет то,
что алгоритм Томасуло делает с помощью аппаратных средств. Программно
конвейеризованный цикл будет содержать по одной команде, каждая
из которых относится к разным итерациям. Для начального запуска
цикла (пролог цикла) и для завершения цикла (эпилог цикла) требуются
некоторые команды.
Рис. 6.15. Программная конвейеризация
Например, рассмотрим программно конвейеризованную версию нижеприведенного
цикла, который складывает с содержимым регистра F2 все элементы
некоторого массива с начальным адресом, хранящимся в регистре R1.
Loop: LD F0,0(R1)
ADDD F4,F0,F2
SD 0(R1),F4
SUBI R1,R1,#8
BNEZ R1, Loop
Игнорируя пролог и эпилог мы можем переписать цикл следующим образом:
Loop: SD 0(R1),F4 ; записывает в M[i]
ADDD F4,F0,F2 ; складывает с M[i-1]
LD F0,-16(R1); загружает M[i-2]
BNEZ R1, Loop
SUBI R1,R1,#8 ; вычитает в слоте задержки
Если не принимать во внимание пролог и эпилог, этот цикл может
работать со скоростью 5 тактов на один проход. Поскольку команда
загрузки осуществляет выборку на расстоянии двух элементов от счетчика
цикла, цикл должен выполнять на две итерации меньше. При этом перед
началом цикла из содержимого регистра R1 необходимо вычесть 16.
Заметим, что повторное использование регистров (например, F4, F0
и R1) требует использования специальных аппаратных средств, чтобы
обойти конфликты типа WAR и приостановки конвейера. В данном случае
это не должно привести к каким-либо проблемам, поскольку никаких
приостановок по причине зависимостей по данным произойти не должно.
Управление регистрами в программно конвейеризуемых циклах может
быть достаточно сложным. Вышеприведенный пример не слишком тяжелый,
поскольку в регистры выполняется запись в одной итерации, а их чтение
происходит в следующей. В других случаях может потребоваться увеличить
количество итераций между моментом выдачи команды и моментом, когда
используется ее результат. Это происходит, когда в теле цикла имеется
небольшое количество команд, а задержки их выполнения достаточно
большие. В этих случаях требуется комбинация методов программной
конвейеризации и разворачивания цикла.
Программную конвейеризацию можно рассматривать как символическое
разворачивание цикла. Действительно, некоторые алгоритмы программной
конвейеризации используют разворачивание цикла в качестве исходного
материала для расчета (вычисления) выполнения программной конвейеризации.
Главное преимущество программной конвейеризации по отношению к прямому
разворачиванию циклов заключается в том, что первая генерирует в
результате меньший по размеру программный код. Программная конвейеризация
и разворачивание циклов в дополнение к тому, что они дают лучше
спланированный внутренний цикл, сами по себе сокращают разные типы
накладных расходов. Разворачивание циклов сокращает накладные расходы
на организацию цикла, связанные с командами перехода и изменения
значения счетчика циклов. Программная конвейеризация сокращает время,
когда цикл не работает с полной скоростью, что происходит только
однажды в начале и в конце цикла. Если мы разворачиваем цикл, который
выполняет 100 итераций постоянное количество раз, скажем 4 раза,
мы будем иметь накладные расходы 100/4=25 раз - каждый раз, когда
будет инициироваться внутренний развернутый цикл. На рис. 6.16 это
поведение показано графически. Поскольку эти методы направлены на
два различных типа накладных расходов, наилучший результат может
быть получен при использовании обоих методов.
Другим методом, используемым для выделения дополнительного параллелизма,
является трассировочное планирование. Трассировочное планирование
расширяет метод разворачивания циклов методикой для нахождения параллелизма
в программах с условными переходами, не связанными с организацией
циклов. Трассировочное планирование полезно для машин с очень большим
количеством команд, выдаваемых для выполнения в одном такте, где
одного разворачивания циклов может оказаться недостаточно для выявления
необходимой степени параллелизма уровня команд для поддержания машины
в занятом состоянии. Трассировочное планирование является комбинацией
двух отдельных процессов. Первый процесс, который называется выбором
трассы (trace selection), старается найти возможную последовательность
базовых блоков, операции которых будут собираться вместе в меньшее
количество команд; эта последовательность называется трассой. Разворачивание
циклов используется для генерации длинных трасс, поскольку переходы
циклов выполняются с высокой вероятностью. Дополнительно при использовании
статического прогнозирования направления переходов другие условные
переходы (не связанные с организацией цикла) также выбираются как
выполняемые или как невыполняемые, так что результирующая трасса
представляет собой линейную последовательность, полученную в результате
конкатенации (объединения) многих базовых блоков. Когда трасса выбрана,
другой процесс, называемый уплотнением трассы (trace compaction),
старается сжать трассу в небольшое количество широких команд. Процесс
уплотнения трасс пытается перенести операции как можно ближе к началу
последовательности (трассы), упаковывая операции насколько это возможно
в минимальное количество широких команд (или пакетов для выдачи).
Рис. 6.16.
Уплотнение трассы представляет собой процесс глобального планирования
кода. Имеются два разных ограничения, которые возникают и должны
обрабатываться любой схемой глобальной оптимизации кода: зависимости
по данным, которые задают определенный порядок операций, и точки
условного перехода, которые создают места, через которые команды
не могут просто перемещаться. По существу код должен быть уплотненным
в наиболее короткую последовательность, которая сохраняет зависимости
по данным и по управлению. Зависимости по данным преодолеваются
посредством разворачивания циклов и использования анализа зависимостей
для определения того, относятся ли два обращения к одному и тому
же адресу. Зависимости по управлению также сокращаются при разворачивании
циклов. Главным преимуществом методики трассировочного планирования
по сравнению с более простым методом планирования загрузки конвейера
заключается в том, что она обеспечивает схему для снижения эффекта
зависимостей по управлению посредством переноса команд через условные
переходы, не связанные с циклами, используя прогнозируемое поведение
переходов. На рис. 6.17 показаны фрагмент кода, который может рассматриваться
как итерация развернутого цикла, и выбранная трасса.
Рис. 6.17. Фрагмент кода с выбранной трассой
Когда трасса, как показано на рис. 6.17, выбрана, она должна быть
уплотнена так, чтобы заполнить машинный ресурс. Уплотнение трассы
приводит к перемещению операторов присваиваний переменным B и C
вверх по блоку, чтобы разместить их перед точкой решения о направлении
перехода. Любая схема глобального планирования, включая трассировочное
планирование, выполняет такое перемещение команд при наличии набора
ограничений. В трассировочном планировании условные переходы рассматриваются
как безусловные переходы во внутрь или во вне выбранной трассы,
которая предполагалась как наиболее вероятный путь. Когда команды
перемещаются через такие точки входа и выхода трассы, во входной
и выходной точке могут потребоваться дополнительные команды. Главное
предположение состоит в том, что выбранная трасса является наиболее
вероятным событием, в противном случае стоимость дополнительной
работы (дополнительных команд) может оказаться чрезмерной.
Что включает в себя процесс перемещения присваиваний B и C? Вычисление
и присваивание B является зависимым по управлению от условного перехода,
а вычисление C нет. Перемещение этих операторов может быть выполнено
только, если ни один из них не меняет зависимость по управлению
или по данным, или эффект от изменения зависимости не виден и тем
самым не приводит к изменению выполнения программы. Рассмотрим типичную
последовательность генерации кода для диаграммы на рис. 6.16. Ниже
представлена такая последовательность в предположении, что адреса
для A, B и C находятся в регистрах R1, R2 и R3 соответственно:
LW R4,0(R1) ;загрузка A[i]
ADDI R4,R4,... ;добавление к A[i]
SW 0(R1),R4 ;запись в A[i]
...
BNEZ R4,elsepart ;проверка A[i]
... ;часть then
SW 0(R2),... ;запись в B[i]
J join ;прыжок через else
elsepart: ... ;часть else
X ;код для X
...
join: ... ;после if
SW 0(R3),... ;запись в C[i]
Сначала рассмотрим проблему перемещения операции присваивания B
на место перед командой BNEZ. Поскольку B зависит по управлению
от того перехода, перед которым мы ее хотим расположить, и не будет
зависеть от него после перемещения, необходимо гарантировать, что
выполнение оператора не может вызвать появление исключительной ситуации,
поскольку такая исключительная ситуация не могла возникнуть в первоначальной
программе, если бы была выбрана часть else условного оператора.
Перемещение B не должно также воздействовать на поток данных. Чтобы
более ясно определить требования, нам нужна концепция живучести
переменной. Переменная Z живет в операторе, если имеется путь выполнения
от этого оператора до использования переменной Z, на котором нового
присваивания переменной Z не делается. На интуитивном уровне, переменная
живет в операторе, если добавление операции присваивания этой переменной
в операторе может изменить семантику программы.
Возвращаясь к нашему примеру, можно видеть, что имеются два возможных
случая, когда перемещение B может изменить поток данных в этой программе:
- Обращение к B происходит в коде X (часть else) прежде, чем В
будет присвоено новое значение.
- B "живет" в конце оператора if и ей не делается присваивания
в X.
В обоих случаях перемещение операции присваивания переменной B
приведет к тому, что некоторая команда i (либо в X, либо далее в
программе) станет зависимой по данным от этой перемещенной команды,
а не от более ранней операции присваивания B, которая выполняется
перед циклом и от которой i первоначально зависела. Поскольку это
приведет к изменению результата программы, операция присваивания
B не может быть перемещена в случае, если справедливо любое из приведенных
выше условий. Можно представить себе более изощренные схемы: например,
в первом случае перед оператором if можно сделать теневую копию
B и использовать только эту теневую копию в X. Такие схемы в общем
случае не используются, поскольку, во-первых, их сложно реализовать,
и, во-вторых, поскольку они будут замедлять программу, если выбранная
трасса не оптимальна и завершение операций требует выполнения дополнительных
команд.
Для перемещения операции присваивания C на место сразу за первым
условным переходом требуется, чтобы она переместилась выше точки
объединения трассы (входа трассы) с направлением else. Это делает
команды для C зависимыми по управлению от условного перехода и означает,
что они не будут выполняться, если выбран путь else, который не
находится на трассе. Поэтому будут затронуты команды, которые были
зависимыми по данным от присваивания C и которые выполняются после
этого кодового фрагмента. Для обеспечения вычисления корректного
значения для этих команд делается копия команд, которые вычисляют
и присваивают значение C на переходе на трасе, а именно в конце
X на пути else. Мы можем переместить C из ветви then перехода через
условие перехода, если это не воздействует ни на какой поток данных
в условии перехода. Если C перемещается на место перед проверкой
условия if, копия C в части else перехода может быть ликвидирована.
Все рассмотренные методы: разворачивание цикла, планирование трасс
и программная конвейеризация стараются увеличить степень параллелизма
уровня команд, который может использоваться машиной, выдающей для
выполнения более одной команды в каждом такте. Эффективность каждого
из этих методов и их удобство для различных архитектурных подходов
являются наиболее горячими темами, которыми активно занимаются исследователи
и разработчики высокоскоростных процессоров.
|