5. Конвейерная организация
- Что такое конвейерная обработка
- Простейшая организация конвейера и оценка
его производительности
- Структурные конфликты и способы их минимизации
- Конфликты по данным, остановы конвейера и реализация механизма
обходов
- Сокращение потерь на выполнение команд перехода
и минимизация конфликтов по управлению
- Проблемы реализации точного прерывания в
конвейере
- Обработка многотактных операций и механизмы
обходов в длинных конвейерах
Конфликты по данным, остановы конвейера и реализация механизма обходов
Одним из факторов, который оказывает существенное влияние на производительность
конвейерных систем, являются межкомандные логические зависимости.
Такие зависимости в большой степени ограничивают потенциальный параллелизм
смежных операций, обеспечиваемый соответствующими аппаратными средствами
обработки. Степень влияния этих зависимостей определяется как архитектурой
процессора (в основном, структурой управления конвейером команд
и параметрами функциональных устройств), так и характеристиками
программ.
Конфликты по данным возникают в том случае, когда применение конвейерной
обработки может изменить порядок обращений за операндами так, что
этот порядок будет отличаться от порядка, который наблюдается при
последовательном выполнении команд на неконвейерной машине. Рассмотрим
конвейерное выполнение последовательности команд на рисунке 5.7.
ADD |
R1,R2,R3 |
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SUB |
R4,R1,R5 |
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
AND |
R6,R1,R7 |
|
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
|
|
|
|
|
OR |
R8,R1,R9 |
|
|
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
|
|
|
|
XOR |
R10,R1,R11 |
|
|
|
|
IF |
ID |
EX |
MEM |
WB |
Рис. 5.7, а. Последовательность команд в конвейере
и ускоренная пересылка данных
(data forwarding, data bypassing, short circuiting)
ADD |
R1,R2,R3 |
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
R |
|
|
W |
|
|
|
SUB |
R4,R1,R5 |
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
R |
|
|
W |
|
|
AND |
R6,R1,R7 |
|
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
R |
|
|
W |
|
OR |
R8,R1,R9 |
|
|
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
R |
|
|
W |
|
XOR |
R10,R1,R11 |
|
|
|
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
|
|
|
R |
|
|
W |
|
Рис. 5.7, б. Совмещение чтения и записи регистров
в одном такте
В этом примере все команды, следующие за командой ADD, используют
результат ее выполнения. Команда ADD записывает результат в регистр
R1, а команда SUB читает это значение. Если не предпринять никаких
мер для того, чтобы предотвратить этот конфликт, команда SUB прочитает
неправильное значение и попытается его использовать. На самом деле
значение, используемое командой SUB, является даже неопределенным:
хотя логично предположить, что SUB всегда будет использовать значение
R1, которое было присвоено какой-либо командой, предшествовавшей
ADD, это не всегда так. Если произойдет прерывание между командами
ADD и SUB, то команда ADD завершится, и значение R1 в этой точке
будет соответствовать результату ADD. Такое непрогнозируемое поведение
очевидно неприемлемо.
Проблема, поставленная в этом примере, может быть разрешена с помощью
достаточно простой аппаратной техники, которая называется пересылкой
или продвижением данных (data forwarding), обходом (data bypassing),
иногда закороткой (short-circuiting). Эта аппаратура работает следующим
образом. Результат операции АЛУ с его выходного регистра всегда
снова подается назад на входы АЛУ. Если аппаратура обнаруживает,
что предыдущая операция АЛУ записывает результат в регистр, соответствующий
источнику операнда для следующей операции АЛУ, то логические схемы
управления выбирают в качестве входа для АЛУ результат, поступающий
по цепи "обхода" , а не значение, прочитанное из регистрового
файла (рис. 5.8).
Рис. 5.8. АЛУ с цепями обхода и ускоренной пересылки
Эта техника "обходов" может быть обобщена для того, чтобы
включить передачу результата прямо в то функциональное устройство,
которое в нем нуждается: результат с выхода одного устройства "пересылается"
на вход другого, а не с выхода некоторого устройства только на его
вход.
Классификация конфликтов по данным
Конфликт возникает везде, где имеет место зависимость между командами,
и они расположены по отношению друг к другу достаточно близко так,
что совмещение операций, происходящее при конвейеризации, может
привести к изменению порядка обращения к операндам. В нашем примере
был проиллюстрирован конфликт, происходящий с регистровыми операндами,
но для пары команд возможно появление зависимостей при записи или
чтении одной и той же ячейки памяти. Однако, если все обращения
к памяти выполняются в строгом порядке, то появление такого типа
конфликтов предотвращается.
Известны три возможных конфликта по данным в зависимости от порядка
операций чтения и записи. Рассмотрим две команды i и j, при этом
i предшествует j. Возможны следующие конфликты:
- RAW (чтение после записи) - j пытается прочитать операнд-источник
данных прежде, чем i туда запишет. Таким образом, j может некорректно
получить старое значение. Это наиболее общий тип конфликтов, способ
их преодоления с помощью механизма "обходов" рассмотрен
ранее.
- WAR (запись после чтения) - j пытается записать результат в
приемник прежде, чем он считывается оттуда командой i, так что
i может некорректно получить новое значение. Этот тип конфликтов
как правило не возникает в системах с централизованным управлением
потоком команд, обеспечивающих выполнение команд в порядке их
поступления, так как последующая запись всегда выполняется позже,
чем предшествующее считывание. Особенно часто конфликты такого
рода могут возникать в системах, допускающих выполнение команд
не в порядке их расположения в программном коде.
- WAW (запись после записи) - j пытается записать операнд прежде,
чем будет записан результат команды i, т.е. записи заканчиваются
в неверном порядке, оставляя в приемнике значение, записанное
командой i, а не j. Этот тип конфликтов присутствует только в
конвейерах, которые выполняют запись со многих ступеней (или позволяют
команде выполняться даже в случае, когда предыдущая приостановлена).
Конфликты по данным, приводящие к приостановке конвейера
К сожалению не все потенциальные конфликты по данным могут обрабатываться
с помощью механизма "обходов". Рассмотрим следующую последовательность
команд (рис. 5.9):
Команда |
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
|
LW R1,32(R6) |
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
ADD R4,R1,R7 |
|
|
IF |
ID |
stall |
EX |
MEM |
WB |
|
|
SUB R5,R1,R8 |
|
|
|
IF |
stall |
ID |
EX |
MEM |
WB |
|
AND R6,R1,R7 |
|
|
|
|
stall |
IF |
ID |
EX |
MEM |
WB |
Рис. 5.9. Последовательность команд с приостановкой
конвейера
Этот случай отличается от последовательности подряд идущих команд
АЛУ. Команда загрузки (LW) регистра R1 из памяти имеет задержку,
которая не может быть устранена обычной "пересылкой".
Вместо этого нам нужна дополнительная аппаратура, называемая аппаратурой
внутренних блокировок конвейера (pipeline interlook), чтобы обеспечить
корректное выполнение примера. Вообще такого рода аппаратура обнаруживает
конфликты и приостанавливает конвейер до тех пор, пока существует
конфликт. В этом случае эта аппаратура приостанавливает конвейер
начиная с команды, которая хочет использовать данные в то время,
когда предыдущая команда, результат которой является операндом для
нашей, вырабатывает этот результат. Эта аппаратура вызывает приостановку
конвейера или появление "пузыря" точно также, как и в
случае структурных конфликтов.
Методика планирования компилятора для устранения конфликтов
по данным
Многие типы приостановок конвейера могут происходить достаточно
часто. Например, для оператора А = B + С компилятор скорее всего
сгенерирует следующую последовательность команд (рис.5.10):
LW R1,В |
IF |
ID |
EX |
MEM |
WB |
|
|
|
|
LW R2,С |
|
IF |
ID |
EX |
MEM |
WB |
|
|
|
ADD R3,R1,R2 |
|
|
IF |
ID |
stall |
EX |
MEM |
WB |
|
SW A,R3 |
|
|
|
IF |
stall |
ID |
EX |
MEM |
WB |
Рис. 5.10. Конвейерное выполнение оператора А
= В + С
Очевидно, выполнение команды ADD должно быть приостановлено до
тех пор, пока не станет доступным поступающий из памяти операнд
C. Дополнительной задержки выполнения команды SW не произойдет в
случае применения цепей обхода для пересылки результата операции
АЛУ непосредственно в регистр данных памяти для последующей записи.
Для данного простого примера компилятор никак не может улучшить
ситуацию, однако в ряде более общих случаев он может реорганизовать
последовательность команд так, чтобы избежать приостановок конвейера.
Эта техника, называемая планированием загрузки конвейера (pipeline
scheduling) или планированием потока команд (instruction scheduling),
использовалась начиная с 60-х годов и стала особой областью интереса
в 80-х годах, когда конвейерные машины стали более распространенными.
Пусть, например, имеется последовательность операторов: a = b +
c; d = e - f;
Как сгенерировать код, не вызывающий остановок конвейера? Предполагается,
что задержка загрузки из памяти составляет один такт. Ответ очевиден
(рис. 5.11):
Неоптимизированная
последовательность команд |
Оптимизированная
последовательность команд |
LW Rb,b |
LW Rb,b |
LW Rc,c |
LW Rc,c |
ADD Ra,Rb,Rc |
LW Re,e |
SW a,Ra |
ADD Ra,Rb,Rc |
LW Re,e |
LW Rf,f |
LW Rf,f |
SW a,Ra |
SUB Rd,Re,Rf |
SUB Rd,Re,Rf |
SW d,Rd |
SW d,Rd |
Рис. 5.11. Пример устранения конфликтов компилятором
В результате устранены обе блокировки (командой LW Rc,c
команды ADD Ra,Rb,Rc и командой
LW Rf,f команды SUB Rd,Re,Rf).
Имеется зависимость между операцией АЛУ и операцией записи в память,
но структура конвейера допускает пересылку результата с помощью
цепей "обхода". Заметим, что использование разных регистров
для первого и второго операторов было достаточно важным для реализации
такого правильного планирования. В частности, если переменная e
была бы загружена в тот же самый регистр, что b или c, такое планирование
не было бы корректным. В общем случае планирование конвейера может
требовать увеличенного количества регистров. Такое увеличение может
оказаться особенно существенным для машин, которые могут выдавать
на выполнение несколько команд в одном такте.
Многие современные компиляторы используют технику планирования
команд для улучшения производительности конвейера. В простейшем
алгоритме компилятор просто планирует распределение команд в одном
и том же базовом блоке. Базовый блок представляет собой линейный
участок последовательности программного кода, в котором отсутствуют
команды перехода, за исключением начала и конца участка (переходы
внутрь этого участка тоже должны отсутствовать). Планирование такой
последовательности команд осуществляется достаточно просто, поскольку
компилятор знает, что каждая команда в блоке будет выполняться,
если выполняется первая из них, и можно просто построить граф зависимостей
этих команд и упорядочить их так, чтобы минимизировать приостановки
конвейера. Для простых конвейеров стратегия планирования на основе
базовых блоков вполне удовлетворительна. Однако когда конвейеризация
становится более интенсивной и действительные задержки конвейера
растут, требуются более сложные алгоритмы планирования.
К счастью, существуют аппаратные методы, позволяющие изменить порядок
выполнения команд программы так, чтобы минимизировать приостановки
конвейера. Эти методы получили общее название методов динамической
оптимизации (в англоязычной литературе в последнее время часто применяются
также термины "out-of-order execution" - неупорядоченное
выполнение и "out-of-order issue" - неупорядоченная выдача).
Основными средствами динамической оптимизации являются:
- Размещение схемы обнаружения конфликтов в возможно более низкой
точке конвейера команд так, чтобы позволить команде продвигаться
по конвейеру до тех пор, пока ей реально не потребуется операнд,
являющийся также результатом логически более ранней, но еще не
завершившейся команды. Альтернативным подходом является централизованное
обнаружение конфликтов на одной из ранних ступеней конвейера.
- Буферизация команд, ожидающих разрешения конфликта, и выдача
последующих, логически не связанных команд, в "обход"
буфера. В этом случае команды могут выдаваться на выполнение не
в том порядке, в котором они расположены в программе, однако аппаратура
обнаружения и устранения конфликтов между логически связанными
командами обеспечивает получение результатов в соответствии с
заданной программой.
- Соответствующая организация коммутирующих магистралей, обеспечивающая
засылку результата операции непосредственно в буфер, хранящий
логически зависимую команду, задержанную из-за конфликта, или
непосредственно на вход функционального устройства до того, как
этот результат будет записан в регистровый файл или в память (short-circuiting,
data forwarding, data bypassing - методы, которые были рассмотрены
ранее).
Еще одним аппаратным методом минимизации конфликтов по данным является
метод переименования регистров (register renaming). Он получил свое
название от широко применяющегося в компиляторах метода переименования
- метода размещения данных, способствующего сокращению числа зависимостей
и тем самым увеличению производительности при отображении необходимых
исходной программе объектов (например, переменных) на аппаратные
ресурсы (например, ячейки памяти и регистры).
При аппаратной реализации метода переименования регистров выделяются
логические регистры, обращение к которым выполняется с помощью соответствующих
полей команды, и физические регистры, которые размещаются в аппаратном
регистровом файле процессора. Номера логических регистров динамически
отображаются на номера физических регистров посредством таблиц отображения,
которые обновляются после декодирования каждой команды. Каждый новый
результат записывается в новый физический регистр. Однако предыдущее
значение каждого логического регистра сохраняется и может быть восстановлено
в случае, если выполнение команды должно быть прервано из-за возникновения
исключительной ситуации или неправильного предсказания направления
условного перехода.
В процессе выполнения программы генерируется множество временных
регистровых результатов. Эти временные значения записываются в регистровые
файлы вместе с постоянными значениями. Временное значение становится
новым постоянным значением, когда завершается выполнение команды
(фиксируется ее результат). В свою очередь, завершение выполнения
команды происходит, когда все предыдущие команды успешно завершились
в заданном программой порядке.
Программист имеет дело только с логическими регистрами. Реализация
физических регистров от него скрыта. Как уже отмечалось, номера
логических регистров ставятся в соответствие номерам физических
регистров. Отображение реализуется с помощью таблиц отображения,
которые обновляются после декодирования каждой команды. Каждый новый
результат записывается в физический регистр. Однако до тех пор,
пока не завершится выполнение соответствующей команды, значение
в этом физическом регистре рассматривается как временное.
Метод переименования регистров упрощает контроль зависимостей по
данным. В машине, которая может выполнять команды не в порядке их
расположения в программе, номера логических регистров могут стать
двусмысленными, поскольку один и тот же регистр может быть назначен
последовательно для хранения различных значений. Но поскольку номера
физических регистров уникально идентифицируют каждый результат,
все неоднозначности устраняются.
|