6. Конвейерная и суперскалярная обработка
- Параллелизм на уровне выполнения команд,
планирование загрузки конвейера и методика разворачивания циклов
- Устранение зависимостей по данным и механизмы динамического
планирования
- Аппаратное прогнозирование направления переходов
и снижение потерь на организацию переходов
Устранение зависимостей по данным и механизмы динамического планирования
Основная идея динамической оптимизации
Главным ограничением методов конвейерной обработки, которые мы
рассматривали ранее, является выдача для выполнения команд строго
в порядке, предписанном программой: если выполнение какой-либо команды
в конвейере приостанавливалось, следующие за ней команды также приостанавливались.
Таким образом, при наличии зависимости между двумя близко расположенными
в конвейере командами возникала приостановка обработки многих команд.
Но если имеется несколько функциональных устройств, многие из них
могут оказаться незагруженными. Если команда j зависит от длинной
команды i, выполняющейся в конвейере, то все команды, следующие
за командой j должны приостановиться до тех пор, пока команда i
не завершится и не начнет выполняться команда j. Например, рассмотрим
следующую последовательность команд:
DIVD F0,F2,F4
ADDD F10,F0,F8
SUBD F8,F8,F14
Команда SUBD не может выполняться из-за того, что зависимость между
командами DIVD и ADDD привела к приостановке конвейера. Однако команда
SUBD не имеет никаких зависимостей от команд в конвейере. Это ограничение
производительности, которое может быть устранено снятием требования
о выполнении команд в строгом порядке.
В рассмотренном нами конвейере структурные конфликты и конфликты
по данным проверялись во время стадии декодирования команды (ID).
Если команда могла нормально выполняться, она выдавалась с этой
ступени конвейера в следующие. Чтобы позволить начать выполнение
команды SUBD из предыдущего примера, необходимо разделить процесс
выдачи на две части: проверку наличия структурных конфликтов и ожидание
отсутствия конфликта по данным. Когда мы выдаем команду для выполнения,
мы можем осуществлять проверку наличия структурных конфликтов; таким
образом, мы все еще используем упорядоченную выдачу команд. Однако
мы хотим начать выполнение команды как только станут доступными
ее операнды. Таким образом, конвейер будет осуществлять неупорядоченное
выполнение команд, которое означает и неупорядоченное завершение
команд.
Неупорядоченное завершение команд создает основные трудности при
обработке исключительных ситуаций. В рассматриваемых в данном разделе
машинах с динамическим планированием потока команд прерывания будут
неточными, поскольку команды могут завершиться до того, как выполнение
более ранней выданной команды вызовет исключительную ситуацию. Таким
образом, очень трудно повторить запуск после прерывания. Вместо
того, чтобы рассматривать эти проблемы в данном разделе, мы обсудим
возможные решения для реализации точных прерываний позже в контексте
машин, использующих планирование по предположению.
Чтобы реализовать неупорядоченное выполнение команд, мы расщепляем
ступень ID на две ступени:
- Выдача - декодирование команд, проверка структурных конфликтов.
- Чтение операндов - ожидание отсутствия конфликтов по данным
и последующее чтение операндов.
Затем, как и в рассмотренном нами конвейере, следует ступень EX.
Поскольку выполнение команд ПТ может потребовать нескольких тактов
в зависимости от типа операции, мы должны знать, когда команда начинает
выполняться и когда заканчивается. Это позволяет нескольким командам
выполняться в один и тот же момент времени. В дополнение к этим
изменениям структуры конвейера мы изменим и структуру функциональных
устройств, варьируя количество устройств, задержку операций и степень
конвейеризации функциональных устройств так, чтобы лучше использовать
эти методы конвейеризации.
Динамическая оптимизация с централизованной схемой обнаружения
конфликтов
В конвейере с динамическим планированием выполнения команд все
команды проходят через ступень выдачи строго в порядке, предписанном
программой (упоря-доченная выдача). Однако они могут приостанавливаться
и обходить друг друга на второй ступени (ступени чтения операндов)
и тем самым поступать на ступени выполнения неупорядочено. Централизованная
схема обнаружения конфликтов представляет собой метод, допускающий
неупорядоченное выполнение команд при наличии достаточных ресурсов
и отсутствии зависимостей по данным. Впервые подобная схема была
применена в компьютере CDC 6600.
Прежде чем начать обсуждение возможности применения подобных схем,
важно заметить, что конфликты типа WAR, отсутствующие в простых
конвейерах, могут появиться при неупорядоченном выполнении команд.
В ранее приведенном примере регистром результата для команды SUBD
является регистр R8, который одновременно является источником операнда
для команды ADDD. Поэтому здесь между командами ADDD и SUBD имеет
место антизависимость: если конвейер выполнит команду SUBD раньше
команды ADDD, он нарушит эту антизависимость. Этот конфликт WAR
можно обойти, если выполнить два правила: (1) читать регистры только
во время стадии чтения операндов и (2) поставить в очередь операцию
ADDD вместе с копией ее операндов. Чтобы избежать нарушений зависимостей
по выходу конфликты типа WAW (например, это могло произойти, если
бы регистром результата команды SUBD была бы регистр F10) все еще
должны обнаруживаться. Конфликты типа WAW могут быть устранены с
помощью приостановки выдачи команды, регистр результата которой
совпадает с уже используемым в конвейере.
Задачей централизованной схемы обнаружения конфликтов является
поддержание выполнения команд со скоростью одна команда за такт
(при отсутствии структурных конфликтов) посредством как можно более
раннего начала выполнения команд. Таким образом, когда команда в
начале очереди приостанавливается, другие команды могут выдаваться
и выполняться, если они не зависят от уже выполняющейся или приостановленной
команды. Централизованная схема несет полную ответственность за
выдачу и выполнение команд, включая обнаружение конфликтов. Подобное
неупорядоченное выполнение команд требует одновременного нахождения
нескольких команд на стадии выполнения. Этого можно достигнуть двумя
способами: реализацией в процессоре либо множества неконвейерных
функциональных устройств, либо путем конвейеризации всех функциональных
устройств. Обе эти возможности по сути эквивалентны с точки зрения
организации управления. Поэтому предположим, что в машине имеется
несколько неконвейерных функциональных устройств.
Машина CDC 6600 имела 16 отдельных функциональных устройств (4
устройства для операций с плавающей точкой, 5 устройств для организации
обращений к основной памяти и 7 устройств для целочисленных операций).
В нашем случае централизованная схема обнаружения конфликтов имеет
смысл только для устройства плавающей точки. Предположим, что имеются
два умножителя, один сложитель, одно устройство деления и одно целочисленное
устройство для всех операций обращения к памяти, переходов и целочисленных
операций. Хотя устройств в этом примере гораздо меньше, чем в CDC
6600, он достаточно мощный для демонстрации основных принципов работы.
Поскольку как наша машина, так и CDC 6600 являются машинами с операциями
регистр-регистр (операциями загрузки/записи), в обеих машинах методика
практически одинаковая. На рис. 6.3 показана подобная машина.
Рис. 6.3. Централизованная схема управления
Каждая команда проходит через централизованную схему обнаружения
конфликтов, которая определяет зависимости по данным; этот шаг соответствует
стадии выдачи команд и заменяет часть стадии ID в нашем конвейере.
Эти зависимости определяют затем моменты времени, когда команда
может читать свои операнды и начинать выполнение операции. Если
централизованная схема решает, что команда не может немедленно выполняться,
она следит за всеми изменениями в аппаратуре и решает, когда команда
сможет выполняться. Эта же централизованная схема определяет также
когда команда может записать результат в свой регистр результата.
Таким образом, все схемы обнаружения и разрешения конфликтов здесь
выполняются устройством центрального управления.
Каждая команда проходит четыре стадии своего выполнения. (Поскольку
в данный момент мы интересуемся операциями плавающей точки, мы не
рассматриваем стадию обращения к памяти). Рассмотрим эти стадии
сначала неформально, а затем детально рассмотрим как централизованная
схема поддерживает необходимую информацию, которая определяет обработку
при переходе с одной стадии на другую. Следующие четыре стадии заменяют
стадии ID, EX и WB в стандартном конвейере:
- Выдача. Если функциональное устройство, необходимое для
выполнения команды, свободно и никакая другая выполняющаяся команда
не использует тот же самый регистр результата, централизованная
схема выдает команду в функциональное устройство и обновляет свою
внутреннюю структуру данных. Поскольку никакое другое работающее
функциональное устройство не может записать результат в регистр
результата нашей команды, мы гарантируем, что конфликты типа WAW
не могут появляться. Если существует структурный конфликт или
конфликт типа WAW, выдача команды блокируется и никакие следующие
команды не будут выдаваться на выполнение до тех пор, пока эти
конфликты существуют. Эта стадия заменяет часть стадии ID в нашем
конвейере.
- Чтение операндов. Централизованная схема следит за возможностью
выборки источников операндов для соответствующей команды. Операнд-источник
доступен, если отсутствует выполняющаяся команда, которая записывает
результат в этот регистр или если в данный момент времени в регистр,
содержащий операнд, выполняется запись из работающего функционального
устройства. Если операнды-источники доступны, централизованная
схема сообщает функциональному устройству о необходимости чтения
операндов из регистров и начале выполнения операции. Централизованная
схема разрешает конфликты RAW на этой стадии динамически и команды
могут посылаться для выполнения не в порядке, предписанном программой.
Эта стадия, совместно со стадией выдачи, завершает работу стадии
ID простого конвейера.
- Выполнение. Функциональное устройство начинает выполнение
операции после получения операндов. Когда результат готов оно
уведомляет централизованную схему управления о том, что оно завершило
выполнение операции. Эта стадия заменяет стадию EX и занимает
несколько тактов в рассмотренном ранее конвейере.
- Запись результата. Когда централизованная схема управления
узнает о том, что функциональное устройство завершило выполнение
операции, она проверяет существование конфликта типа WAR. Конфликт
типа WAR существует, если имеется последовательность команд, аналогичная
представленной в нашем примере с командами ADDF и SUBF. В том
примере мы имели следующую последовательность команд:
DIVF F0,F2,F4
ADDF F10,F0,F8
SUBF F8,F8,F14
Команда ADDF имеет операнд-источник F8, который является тем же
самым регистром, что и регистр результата команды SUBF. Но в действительности
команда ADDF зависит от предыдущей команды. Централизованная схема
управления будет блокировать выдачу команды SUBF до тех пор, пока
команда ADDF не прочитает свои операнды. Тогда в общем случае завершающейся
команде не разрешается записывать свои результаты если:
- имеется команда, которая не прочитала свои операнды,
- один из операндов является регистром результата завершающейся
команды.
Если этот конфликт типа WAR не существует, централизованная схема
управления сообщает функциональному устройству о необходимости записи
результата в регистр назначения. Эта стадия заменяет стадию WB в
простом конвейере.
Основываясь на своей собственной структуре данных, централизованная
схема управления управляет продвижением команды с одной ступени
на другую взаимодействуя с функциональными устройствами. Но имеется
небольшое усложнение: в регистровом файле имеется только ограниченное
число магистралей для операндов-источников и магистралей для записи
результата. Централизованная схема управления должна гарантировать,
что количество функциональных устройств, которым разрешено продолжать
работу на ступенях 2 и 4 не превышает числа доступных шин. Мы не
будем вдаваться в дальнейшие подробности и упомянем лишь, что CDC
6600 решала эту проблему путем объединения 16 функциональных устройств
друг с другом в четыре группы и поддержки для каждой группы устройств
набора шин, называемых магистралями данных (data trunks). Только
одно устройство в группе могло читать операнды или записывать свой
результат в течение одного такта.
Общая структура регистров состояния устройства централизованного
управления показана на рисунке 6.4. Она состоит из 3-х частей:
- Состояние команды - показывает каждый из четырех этапов выполнения
команды.
- Состояние функциональных устройств - имеются 9 полей, описывающих
состояние каждого функционального устройства:
Занятость - показывает, занято устройство или свободно Op - выполняемая
в устройстве операция Fi - регистр результата Fj,
Fk - регистры-источники операндов Qj, Qk
- функциональные устройства, вырабатывающие результат для записи
в регистры Fj, Fk Rj, Rk
- признаки готовности операндов в регистрах Fj, Fk
- Состояние регистров результата - показывает функциональное устройство,
которое будет записывать в каждый из регистров. Это поле устанавливается
в ноль, если отсутствуют команды, записывающие результат в данный
регистр.
Интересным вопросом является стоимость и преимущества централизованного
управления. Разработчики CDC 6600 оценивают улучшение производительности
для программ на Фортране в 1.7 раза, а для вручную запрограммированных
на языке ассемблера программ в 2.5 раза. Однако эти оценки делались
в то время, когда отсутствовали программные средства планирования
загрузки конвейера, полупроводниковая основная память и кэш-память
(с малым временем доступа). Централизованная схема управления CDC
6600 имела примерно столько же логических схем, что и одно из функциональных
устройств, что на удивление мало. Основная стоимость определялась
большим количеством шин (магистралей) - примерно в четыре раза больше
по сравнению с машиной, которая выполняла бы команды в строгом порядке,
заданном программой.
Централизованная схема управления не обрабатывает несколько ситуаций.
Например, когда команда записывает свой результат, зависимая команда
в конвейере должна дожидаться разрешения обращения к регистровому
файлу, поскольку все результаты всегда записываются в регистровый
файл и никогда не используется методика "ускоренной пересылки".
Это увеличивает задержку и ограничивает возможность инициирования
нескольких команд, ожидающих результата. Что касается CDC 6600,
то конфликты типа WAW являются очень редкими, так что приостановки,
которые они вызывают, возможно не являются существенными. Однако
в следующем разделе мы увидим, что динамическое планирование дает
возможность совмещенного выполнения нескольких итераций цикла. Чтобы
это делать эффективно, требуется схема обработки конфликтов типа
WAW, которые вероятно увеличиваются по частоте при совмещении выполнения
нескольких итераций.
Состояние команд |
Команда |
Выдача |
Чтение
операндов |
Завершение выполнения |
Запись
результата |
LD |
F6,34(R2) |
( |
( |
( |
( |
LD |
F2,45(R3) |
( |
( |
( |
|
MULTD |
F0,F2,F4 |
( |
|
|
|
SUBD |
F8,F6,F2 |
( |
|
|
|
DIVD |
F10,F0,F6 |
( |
|
|
|
ADD |
F6,F8,F2 |
|
|
|
|
|
|
|
|
|
|
Состояние функциональных устройств
|
Имя |
Занятость |
Op |
Fi |
Fj |
Fk |
Qj |
Qk |
Rj |
Rk |
Integer |
Да |
Load |
F2 |
R3 |
|
|
|
|
|
Mult1 |
Да |
Mult |
F0 |
F2 |
F4 |
|
|
Нет |
Да |
Mult2 |
Нет |
|
|
|
|
|
|
|
|
Add |
Да |
Sub |
F8 |
F6 |
F2 |
|
Integer |
Да |
Нет |
Divide |
Да |
Div |
F10 |
F0 |
F6 |
Mult1 |
|
Нет |
Да |
|
|
|
|
|
|
|
|
|
|
Состояние регистра результата
|
|
F0 |
F2 |
F4 |
F6 |
F8 |
F10 |
F12 |
. . . |
F30 |
FU |
Mult1 |
Integer |
|
|
Add |
Divide |
|
|
|
Рис. 6.4. Регистры состояния централизованной
схемы управления
Другой подход к динамическому планированию - алгоритм Томасуло
Другой подход к параллельному выполнению команд при наличии конфликтов
был использован в устройстве плавающей точки в машине IBM 360/91.
Эта схема приписывается Р. Томасуло и названа его именем. Разработка
IBM 360/91 была завершена спустя три года после выпуска CDC 6600,
прежде чем кэш-память появилась в коммерческих машинах. Задачей
IBM было достижение высокой производительности на операциях с плавающей
точкой, используя набор команд и компиляторы, разработанные для
всего семейства 360, а не только для приложений с интенсивным использованием
плавающей точки. Архитектура 360 предусматривала только четыре регистра
плавающей точки двойной точности, что ограничивало эффективность
планирования кода компилятором. Этот факт был другой мотивацией
подхода Томасуло. Наконец, машина IBM 360/91 имела большое время
обращения к памяти и большие задержки выполнения операций плавающей
точки, преодолеть которые и был призван разработанный Томасуло алгоритм.
В конце раздела мы увидим, что алгоритм Томасуло может также поддерживать
совмещенное выполнение нескольких итераций цикла.
Мы поясним этот алгоритма на примере устройства ПТ. Основное различие
между нашим конвейером ПТ и конвейером машины IBM/360 заключается
в наличии в последней машине команд типа регистр-память. Поскольку
алгоритм Томасуло использует функциональное устройство загрузки,
не требуется значительных изменений, чтобы добавить режимы адресации
регистр-память; основное добавление - другая шина. IBM 360/91 имела
также конвейерные функциональные устройства, а не несколько функциональных
устройств. Единственное отличие между ними заключается в том, что
конвейерное функциональное устройство может начинать выполнение
только одной операции в каждом такте. Поскольку реально отсутствуют
фундаментальные отличия, мы описываем алгоритм, как если бы имели
место несколько функциональных устройств. IBM 360/91 могла выполнять
одновременно три операции сложения ПТ и две операции умножения ПТ.
Кроме того, в процессе выполнения могли находиться до 6 операций
загрузки ПТ, или обращений к памяти, и до трех операций записи ПТ.
Для реализации этих функций использовались буфера данных загрузки
и буфера данных записи. Хотя мы не будем обсуждать устройства загрузки
и записи, необходимо добавить буфера для операндов.
Схема Томасуло имеет много общего со схемой централизованного управления
CDC 6600, однако имеются и существенные отличия. Во-первых, обнаружение
конфликтов и управление выполнением являются распределенными - станции
резервирования (reservation stations) в каждом функциональном устройстве
определяют, когда команда может начать выполняться в данном функциональном
устройстве. В CDC 6600 эта функция централизована. Во-вторых, результаты
операций посылаются прямо в функциональные устройства, а не проходят
через регистры. В IBM 360/91 имеется общая шина результатов операций
(которая называется общей шиной данных (common data bus - CDB)),
которая позволяет производить одновременную загрузку всех устройств,
ожидающих операнда. CDC 6600 записывает результаты в регистры, за
которые ожидающие функциональные устройства могут соперничать. Кроме
того, CDC 6600 имеет несколько шин завершения операций (две в устройстве
ПТ), а IBM 360/91 - только одну.
На рис. 6.5 представлена основная структура устройства ПТ на базе
алгоритма Томасуло. Никаких таблиц управления выполнением не показано.
Станции резервирования хранят команды, которые выданы и ожидают
выполнения в соответствующем функциональном устройстве, а также
информацию, требующуюся для управления командой, когда ее выполнение
началось в функциональном устройстве. Буфера загрузки и записи хранят
данные поступающие из памяти и записываемые в память. Регистры ПТ
соединены с функциональными устройствами парой шин и одной шиной
с буферами записи. Все результаты из функциональных устройств и
из памяти посылаются на общую шину данных, которая связана со входами
всех устройств за исключением буфера загрузки. Все буфера и станции
резервирования имеют поля тегов, используемых для управления конфликтами.
Прежде чем описывать детали станций резервирования и алгоритм,
рассмотрим все стадии выполнения команды. В отличие от централизованной
схемы управления, имеется всего три стадии:
- Выдача - Берет команду из очереди команд ПТ. Если операция является
операцией ПТ, выдает ее при наличии свободной станции резервирования
и посылает операнды на станцию резервирования, если они находятся
в регистрах. Если операция является операцией загрузки или записи,
она может выдаваться при наличии свободного буфера. При отсутствии
свободной станции резервирования или свободного буфера возникает
структурный конфликт и команда приостанавливается до тех пор,
пока не освободится станция резервирования или буфер.
- Выполнение - Если один или более операндов команды не доступны
по каким либо причинам, контролируется состояние CDB и ожидается
завершение вычисления значений нужного регистра. На этой стадии
выполняется контроль конфликтов типа RAW. Когда оба операнда доступны,
выполняется операция.
- Запись результата - Когда становится доступным результат, он
записывается на CDB и оттуда в регистры и любое функциональное
устройство, ожидающее этот результат.
Хотя эти шаги в основном похожи на аналогичные шаги в централизованной
схеме управления, имеются три важных отличия. Во-первых, отсутствует
контроль конфликтов типа WAW и WAR - они устраняются как побочный
эффект алгоритма. Во-вторых, для трансляции результатов используется
CDB, а не схема ожидания готовности регистров. В-третьих, устройства
загрузки и записи рассматриваются как основные функциональные устройства.
Структуры данных, используемые для обнаружения и устранения конфликтов,
связаны со станциями резервирования, регистровым файлом и буферами
загрузки и записи. Хотя с разными объектами связана разная информация,
все устройства, за исключением буферов загрузки, содержат в каждой
строке поле тега. Это поле тега представляет собой четырехбитовое
значение, которое обозначает одну из пяти станций резервирования
или один из шести буферов загрузки. Поле тега используется для описания
того, какое функциональное устройства будет поставлять результат,
нужный в качестве источника операнда. Неиспользуемые значения, такие
как ноль, показывают что операнд уже доступен. Важно помнить, что
теги в схеме Томасуло ссылаются на буфера или устройства, которые
будут поставлять результат; когда команда выдается в станцию резервирования
номера регистров исключаются из рассмотрения.
Рис. 6.5. Структура устройства ПТ на основе алгоритма
Томасуло
Каждая станция резервирования содержит шесть полей:
- Op - Операция, которая должна выполняться над источниками
операндов S1 и S2;
- Qj,Qk - станции резервирования, которые
будут вырабатывать соответствующий операнд-источник; нулевое значение
показывает, что операнд-источник уже доступен в Vj
или Vk, или не является обязательным. IBM 360/91 называет
их SINKunit и SOURCEunit.
- Vj,Vk - значение операндов-источников.
Они называются SINK и SOURCE в IBM 360/91. Заметим, что для каждого
операнда являются действительными только одно из полей либо поле
V, либо поле Q.
- Занято - Показывает, что данная станция резервирования и ее
соответствующее функциональное устройство заняты.
Регистровый файл и буфер записи имеют поле Qi:
- Qi - номер функционального устройства, которое будет
вырабатывать значение, которое надо записать в регистр или память.
Если значение Qi равно нулю, то это означает, что ни
одна текущая активная команда не вычисляет результат для данного
регистра или буфера. Для регистра это означает, что значение определяется
содержимым регистра.
В каждом из буферов загрузки и записи требуется поле занятости,
показывающее когда соответствующий буфер становится доступным благодаря
завершению загрузки или записи, назначенных на этот буфер. Буфер
записи имеет также поле V для хранения значения, которое должно
быть записано в память.
Прежде, чем мы исследуем алгоритм в деталях, давайте посмотрим
как выглядят системные таблицы для следующей последовательности
команд:
1. LF F6,34(R2)
2. LF F2,45(R3)
3. MULTD F0,F2,F4
4. SUBD F8,F6,F2
5. DIVD F10,F0,F6
6. ADDD F6,F8,F2
Рис. 6.6 описывает станции резервирования, буфера загрузки и записи
и регистровые теги. К именам add, mult и load добавлены номера,
стоящие за тегами для этой станции резервирования - Add1 является
тегом для результата из первого устройства сложения. Состояние каждой
операции, которая выдана для выполнения, хранится в станции резервирования.
Состояние команд |
Команда |
Выдача |
Выполнение |
Запись результата |
LD |
F6,34(R2) |
( |
( |
(+ |
LD |
F2,45(R3) |
( |
( |
|
MULTD |
F0,F2,F4 |
( |
|
|
SUBD |
F8,F6,F2 |
( |
|
|
DIVD |
F10,F0,F6 |
( |
|
|
ADDD |
F6,F8,F2 |
( |
|
|
|
|
|
|
|
Станции резервирования
|
Имя |
Занятость |
Op |
Vj |
Vk |
Qj |
Qk |
Add1 |
Да |
SUB |
Mem[34+Regs[R2]] |
|
|
Load2 |
Add2 |
Да |
ADD |
|
|
Add1 |
Load2 |
Add3 |
Нет |
|
|
|
|
|
Mult1 |
Да |
MULT |
|
Regs[F4] |
Load2 |
|
Mult2 |
Да |
DIV |
|
Mem[34+Regs[R2]] |
Mult1 |
|
|
|
|
|
|
|
|
Состояние регистров |
Поле |
F0 |
F2 |
F4 |
F6 |
F8 |
F10 |
F12 |
. . . |
F30 |
Qi |
Mult1 |
Load2 |
|
Add2 |
Add1 |
Mult2 |
|
|
|
Рис. 6.6. Теги станций резервирования и регистров
Имеются два важных отличия от централизованной схемы управления,
которые заметны в этих таблицах. Во-первых, значение операнда хранится
в станции резервирования в одном из полей V как только оно становится
доступным; оно не считывается из регистрового файла во время выдачи
команды. Во-вторых, команда ADDD выдана для выполнения. Ее выдача
была заблокирована в централизованной схеме управления из-за наличия
структурного конфликта.
Большие преимущества схемы Томасуло заключаются в (1) распределении
логики обнаружения конфликтов, и (2) устранение приостановок, связанных
с конфликтами типа WAW и WAR. Первое преимущество возникает из-за
наличия распределенных станций резервирования и использования CDB.
Если несколько команд ожидают один и тот же результат и каждая команда
уже имеет свой другой операнд, то команды могут выдаваться одновременно
посредством трансляции по CDB. В централизованной схеме управления
ожидающие команды должны читать свои операнды из регистров когда
станут доступными регистровые шины.
Конфликты типа WAW и WAR устраняются путем переименования регистров
используя станции резервирования. Например, в нашей кодовой последовательности
на рис. 6.6 мы выдали на выполнение как команду DIVD, так и команду
ADDD, даже хотя имелся конфликт типа WAR по регистру F6. Конфликт
устраняется одним из двух способов. Если команда, поставляющая значение
для команды DIVD, завершилась, тогда Vk будет хранить
результат, позволяя DIVD выполняться независимо от команды ADDD.
С другой стороны, если выполнение команды LF не завершилось, то
Qk будет указывать на LOAD1 и команда DIVD будет независимой
от ADDD. Таким образом, в любом случае команда ADDD может быть выдана
и начать выполняться. Любое использование результата команды MULTD
будет указывать на станцию резервирования, позволяя ADDD завершить
и записать свое значение в регистры без воздействия DIVD. Вскоре
мы увидим пример устранения конфликта типа WAW.
Чтобы понять полную мощность устранения конфликтов типа WAW и WAR
посредством динамического переименования регистров мы должны рассмотреть
цикл. Рассмотрим следующую простую последовательность команд для
умножения элементов вектора на скалярную величину, находящуюся в
регистре F2:
Loop: LD F0,0(R1)
MULTD F4,F0,F2
SD 0(R1),F4
SUBI R1,R1,#8
BNEZ R1,Loop ; условный переход при R1 /=0
Со стратегией выполняемого перехода использование станций резервирования
позволит сразу же продолжить выполнение нескольких итераций этого
цикла. Это преимущество дается без статического разворачивания цикла
программными средствами: в действительности цикл разворачивается
динамически аппаратурой. В архитектуре 360 наличие всего 4 регистров
ПТ сильно ограничивало бы использование статического разворачивания
цикла. (Вскоре мы увидим, что при статическом разворачивании и планировании
выполнения цикла для обхода взаимных блокировок требуется значительно
большее число регистров). Алгоритм Томасуло поддерживает выполнение
с перекрытием нескольких копий одного и того же цикла при наличии
лишь небольшого числа регистров, используемых программой.
Давайте предположим, что мы выдали для выполнения все команды двух
последовательных итераций цикла, но еще не завершилось выполнение
ни одной операции загрузки/записи в память. Станции резервирования,
таблицы состояния регистров и буфера загрузки/записи в этой точке
показаны на рис. 6.7. (Здесь операции целочисленного АЛУ
игнорируются и предполагается, что условный переход был спрогнозирован
как выполняемый). Когда система достигла такого состояния могут
поддерживаться две копии цикла с CPI близким к единице при условии,
что операции умножения могут завершиться за четыре такта. Если мы
игнорируем накладные расходы цикла, которые не снижены в этой схеме,
достигнутый уровень производительности будет соответствовать тому,
который мы могли бы достигнуть посредством статического разворачивания
и планирования цикла компилятором при условии наличия достаточного
числа регистров.
В этом примере показан дополнительный элемент, который является
важным для того, чтобы алгоритм Томасуло работал. Команда загрузки
из второй итерации цикла может легко закончиться раньше команды
записи из первой итерации, хотя нормальный последовательный порядок
отличается. Загрузка и запись могут надежно (безопасно) выполняться
в различном порядке при условии, что загрузка и запись обращаются
к разным адресам. Это контролируется путем проверки адресов в буфере
записи каждый раз при выдаче команды загрузки. Если адрес команды
загрузки соответствует одному из адресов в буфере записи мы должны
остановиться и подождать до тех пор, пока буфер записи не получит
требуемое значение; затем мы можем к нему обращаться или выбирать
значение из памяти. Это динамическое сравнение адресов является
альтернативой технике, которая может использоваться компилятором
при перестановке команд загрузки и записи.
Состояние команд |
Команда |
Номер
итерации |
Выдача |
Выполнение |
Запись
результата |
LD |
F0,0(R1) |
1 |
( |
( |
|
MULTD |
F4,F0,F2 |
1 |
( |
|
|
SD |
0(R1),F4 |
1 |
( |
|
|
LD |
F0,0(R1) |
2 |
( |
( |
|
MULTD |
F4,F0,F2 |
2 |
( |
|
|
SD |
0(R1),F4 |
2 |
( |
|
|
|
|
|
|
|
Станции резервирования
|
Имя |
Занятость |
Fm |
Vj |
Vk |
Qj |
Qk |
Add1 |
Нет |
|
Mem[34+Regs[R2]] |
|
|
|
Add2 |
Нет |
|
|
|
|
|
Add3 |
Нет |
|
|
|
|
|
Mult1 |
Да |
MULT |
|
Regs[F2] |
Load1 |
|
Mult2 |
Да |
MULT |
|
Regs[F2] |
Load2 |
|
|
|
|
|
|
|
|
Состояние регистров |
Поле |
F0 |
F2 |
F4 |
F6 |
F8 |
F10 |
F12 |
. . . |
F30 |
Qi |
Load2 |
|
Mult2 |
|
|
|
|
|
|
|
|
|
|
Буфера загрузки |
|
|
Буфера записи |
Поле |
Load1 |
Load2 |
Load3 |
|
|
Поле |
Store1 |
Store2 |
Store3 |
Адрес |
Regs[R1] |
Regs[R1]-8 |
|
|
|
Qi |
Mult1 |
Mult2 |
|
Заня-тость |
Да |
Да |
Нет |
|
|
Заня-тость |
Да |
Да |
Нет |
|
|
|
|
|
|
Адрес |
Regs[R1] |
Regs[R1]-8 |
|
Рис. 6.7. Состояние станций резервирования, регистров
и буферов загрузки/записи
Эта динамическая схема может достигать очень высокой производительности
при условии того, что стоимость переходов может поддерживаться небольшой.
Этот вопрос мы будем рассматривать в следующем разделе. Главный
недостаток этого подхода заключается в сложности схемы Томасуло,
которая требует для своей реализации очень большого объема аппаратуры.
Особенно это касается большого числа устройств ассоциативной памяти,
которая должна работать с высокой скоростью, а также сложной логики
управления. Наконец, увеличение производительности ограничивается
наличием одной шины завершения (CDB). Хотя дополнительные шины CDB
могут быть добавлены, каждая CDB должна взаимодействовать со всей
аппаратурой конвейера, включая станции резервирования. В частности,
аппаратуру ассоциативного сравнения необходимо дублировать на каждой
станции для каждой CDB.
В схеме Томасуло комбинируются две различных методики: методика
переименования регистров буферизация операндов-источников из регистрового
файла. Буферизация источников операндов разрешает конфликты типа
WAR, которые возникают когда операнды доступны в регистрах. Как
мы увидим позже, возможно также устранять конфликты типа WAR посредством
переименования регистра вместе с буферизацией результата до тех
пор, пока остаются обращения к старой версии регистра; этот подход
будет использоваться, когда мы будем обсуждать аппаратное выполнение
по предположению.
Схема Томасуло является привлекательной, если разработчик вынужден
делать конвейерную архитектуру, для которой трудно выполнить планирование
кода или реализовать большое хранилище регистров. С другой стороны,
преимущество подхода Томасуло возможно ощущается меньше, чем увеличение
стоимости реализации, по сравнению с методами планирования загрузки
конвейера средствами компилятора в машинах, ориентированных на выдачу
для выполнения только одной команды в такте. Однако по мере того,
как машины становятся все более агрессивными в своих возможностях
выдачи команд и разработчики сталкиваются с вопросами производительности
кода, который трудно планировать (большинство кодов для нечисловых
расчетов), методика типа переименования регистров и динамического
планирования будет становиться все более важной. Позже в этой главе
мы увидим, что эти методы являются одним из важных компонентов большинства
схем для реализации аппаратного выполнения по предположению.
Ключевыми компонентами увеличения параллелизма уровня команд в
алгоритме Томасуло являются динамическое планирование, переименование
регистров и динамическое устранение неоднозначности обращений к
памяти. Трудно оценить значение каждого из этих свойств по отдельности.
Динамической аппаратной технике планирования загрузки конвейера
при наличии зависимостей по данным соответствует и динамическая
техника для эффективной обработки переходов. Эта техника используется
для двух целей: для прогнозирования того, будет ли переход выполняемым,
и для возможно более раннего нахождения целевой команды перехода.
Эта техника называется аппаратным прогнозированием переходов.
|