НАУЧНЫЕ РАБОТЫ

Современные микропроцессоры

Для компаний Intel и Hewlett-Packard не существовало "проблемы 2000

года" - для них это был год новых возможностей. В конце 1999 года Intel

представила Merced - первый процессор, построенный с использованием

архитектуры нового поколения, совместно разработанной двумя компаниями.

Хотя эта 64-разрядная архитектура основана на многолетних исследованиях

Intel, HP, других компаний и университетов, она радикально отличается от

всего, что было представлено на рынке до нее.

Эта архитектура, известная под названием Intel Architecture-64 (IA-

64), полностью "порвала с прошлым". IA-64 не является как 64-разрядным

расширением 32-разрядной архитектуры х86 компании Intel, так и переработкой

64-разрядной архитектуры PA-RISC компании HP. IA-64 представляет собой

нечто абсолютно новое - передовую архитектуру, использующую длинные слова

команд (long instruction words -- LIW), предикаты команд (instruction

predication), устранение ветвлений (branch elimination), предварительную

загрузку данных (speculative loading) и другие ухищрения для того, чтобы

"извлечь больше параллелизма" из кода программ.

По поводу совместимости, стоит заметить, что но в Merced на самом

деле существует два режима декодирования команд VLIW и старый CISC. Т.е.

программы переключаются в необходимый режим исполнения. В архитектуре х86

были добавлен ряд команд для перехода в новый режим, а также для передачи

данных. В IA-64 такие команды есть изначально. Перед тем, как углубиться в

технические детали, попробуем понять, почему Intel и HP рискнули пойти на

столь кардинальные перемены. Причина сводится к следующему: они считают,

что как CISC, так и RISC-архитектуры исчерпали себя.

Небольшой экскурс в прошлое. Архитектура х86 компании Intel - CISC

архитектура, появившаяся в 1978 году. В те времена процессоры представляли

собой скалярные устройства (то есть могли в каждый момент времени выполнять

только одну команду), при этом конвейеров практически не было. Процессоры

содержали десятки тысяч транзисторов.

PA-RISC компании HP была разработана в 1986 году, когда технология

суперскалярных (с возможностью выполнения нескольких команд одновременно)

конвейеров только начала развиваться. Процессоры содержали сотни тысяч

транзисторов. В конце 90-х наиболее совершенные процессоры содержали

миллионы транзисторов. К моменту начала выпуска Merced компания Intel

перешла на 0.18-микронную технологию вместо нынешней 0.25-микронной. Уже

первые чипы архитектуры IA-64 содержали десятки миллионов транзисторов.

Проблему ещё осложняет тот факт, что микросхемы памяти не успевают за

тактовой частотой процессоров. Когда Intel разработала архитектуру х86,

процессор мог извлекать данные из памяти с такой же скоростью, с какой он

их обрабатывал. Сегодня процессор тратит сотни тактов на ожидание загрузки

данных из памяти, даже несмотря на наличие большой и быстрой кэш-памяти.

Команды в формате IA-64 упакованы по три в 128-битный пакет для быстрейшей

обработки. Обычно это называют "LIW encoding". (Русский аналог подобрать

сложно. Наиболее адекватно, на мой взгляд, перевести как "кодирование в

длинные слова команд".) Однако компания Intel избегает такого названия,

заявляя, что с ним связаны "негативные ассоциации" (negative connotation).

По той же причине Intel не любит называть сами команды RISC-подобными (RISC-

like), даже несмотря на то, что они имеют фиксированную длину и

предположительно оптимизированы для исполнения за один такт в ядре, не

нуждающемся в микрокоде. Intel предпочитает называть свою новую LIW-

технологию Explicitly Parallel Instruction Computing или EPIC (Вычисления с

Явной Параллельностью Инструкций, где "явной" означае явно указанной при

трансляции). В любом случае формат команд IA-64 не имеет ничего общего с

х86. Команды х86 могут иметь длину от 8 до 108 бит, и процессор должен

последовательно декодировать каждую команду после определения её границ.

Каждый 128-битный пакет содержит шаблон (template) длиной в несколько бит,

помещаемый в него компилятором, который указывает процессору, какие из

команд могут выполняться параллельно. Теперь процессору не нужно будет

анализировать поток команд в процессе выполнения для выявления "скрытого

параллелизма". Вместо этого наличие параллелизма определяет компилятор и

помещает информацию в код программы. Каждая команда (как для целочисленных

вычислений, так и для вычислений с плавающей точкой) содержит три 7-битных

поля регистра общего назначения (РОН). Из этого следует, что процессоры

архитектуры IA-64 содержат 128 целочисленных РОН и 128 регистров для

вычислений с плавающей точкой. Все они доступны программисту и являются

регистрами с произвольным доступом (programmer-visible random-access

registers). По сравнению с процессорами х86, у которых всего восемь

целочисленных РОН и стек глубины 8 для вычислений с плавающей точкой, IA-64

намного "шире" и, соответственно, будет намного реже простаивать из-за

"нехватки регистров".

Компиляторы для IA-64 будут использовать технологию "отмеченных команд"

(predication) для устранения потерь производительности из-за неправильно

предсказанных переходов и необходимости пропуска участков кода после

ветвлений. Когда процессор встречает "отмеченное" ветвление в процессе

выполнения программы, он начинает одновременно выполнять все ветви. После

того, как будет определена "истинная" ветвь, процессор сохраняет

необходимые результаты и сбрасывает остальные.

Компиляторы для IA-64 будут также просматривать исходный код с целью поиска

команд, использующих данные из памяти. Найдя такую команду, они будут

добавлять пару команд - команду предварительной загрузки (speculative

loading) и проверки загрузки (speculative check). Во время выполнения

программы первая из команд загружает данные в память до того, как они

понадобятся программе. Вторая команда проверяет, успешно ли произошла

загрузка, перед тем, как разрешить программе использовать эти данные.

Предварительная загрузка позволяет уменьшить потери производительности из-

за задержек при доступе к памяти, а также повысить параллелизм.

3. Особенности архитектуры Alpha компании DEC

В настоящее время семейство микропроцессоров с архитектурой Alpha

представлено несколькими кристаллами, имеющими различные диапазоны

производительности, работающие с разной тактовой частотой и рассеивающие

разную мощность. Первым на рынке появился 64-разрядный микропроцессор Alpha

(DECchip 21064) . Он представляет собой RISC-процессор в однокристальном

исполнении, в состав которого входят устройства целочисленной и плавающей

арифметики, а также кэш-память емкостью 16 Кб. Кристалл проектировался с

учетом реализации передовых методов увеличения производительности, включая

конвейерную организацию всех функциональных устройств, одновременную выдачу

нескольких команд для выполнения, а также средства организации симметричной

многопроцессорной обработки. В кристалле имеются два регистровых файла по

32 64-битовых регистра: один для целых чисел, второй - для чисел с

плавающей точкой. Для обеспечения совместимости с архитектурами MIPS и VAX

архитектура Alpha поддерживает арифметику с одинарной и двойной точностью

как в соответствии со стандартом IEEE 754, так и в соответствии с

внутренним для компании стандартом арифметики VAX. Самая мощная модель

процессора 21064 работает на частоте 200 МГц. В конце 1993 года появилась

модернизированная версия кристалла - модель 21064А, имеющая на кристалле

кэш-память удвоенного объема и работающая с тактовой частотой 275 МГц.

Затем были выпущены модели 21066 и 21068, оперирующие на частоте 166 и 66

МГц. Отличительной особенностью этой ветви процессоров Alpha является

реализация на кристалле шины PCI. Это существенно упрощает и удешевляет как

проектирование, так и производство компьютеров. Отличительная особенность

модели 21068 - низкая потребляемая мощность (около 8 ватт). Основное

предназначение этих двух новых моделей - персональные компьютеры и

одноплатные ЭВМ. На рисунке 3. представлена блок-схема микропроцессора

21066. Основными компонентами этого процессора являются: кэш-память команд,

целочисленное устройство, устройство плавающей точки, устройство выполнения

команд загрузки/записи, кэш-память данных, а также контроллер памяти и

контроллер ввода/вывода.

Рис. 3.

Кэш-память команд представляет собой кэш прямого отображения емкостью

8 Кбайт. Команды, выбираемые из этой кэш-памяти, могут выдаваться попарно

для выполнения в одно из исполнительных устройств. Кэш-память данных

емкостью 8 Кбайт также реализует кэш с прямым отображением. При выполнении

операций записи в память данные одновременно записываются в этот кэш и в

буфер записи. Контроллер памяти или контроллер ввода/вывода шины PCI

обрабатывают все обращения, которые проходят через расположенные на

кристалле кэш-памяти первого уровня. Контроллер памяти прежде всего

проверяет содержимое внешней кэш-памяти второго уровня, которая построена

на принципе прямого отображения и реализует алгоритм отложенного обратного

копирования при выполнении операций записи. При обнаружении промаха

контроллер обращается к основной памяти для перезагрузки соответствующих

строк кэш-памяти. Контроллер ввода/вывода шины PCI обрабатывает весь

трафик, связанный с вводом/выводом. Под управлением центрального процессора

он выполняет операции программируемого ввода/вывода. Трафик прямого доступа

к памяти шины PCI обрабатывается контроллером PCI совместно с контроллером

памяти. При выполнении операций прямого доступа к памяти в режиме чтения и

записи данные не размещаются в кэш-памяти второго уровня. Интерфейсы памяти

и PCI были разработаны специально в расчете на однопроцессорные

конфигурации и не поддерживают реализацию мультипроцессорной архитектуры.

На рисунке 4. показан пример системы, построенной на базе микропроцессора

21066. В представленной конфигурации контроллер памяти выполняет обращения

как к статической памяти, с помощью которой реализована кэш-память второго

уровня, так и к динамической памяти, на которой построена основная память.

Для хранения тегов и данных в кэш-памяти второго уровня используются

кристаллы статическая памяти с одинаковым временем доступа по чтению и

записи.

Рис. 4.

Высокоскоростная шина PCI имеет ряд привлекательных свойств. Помимо

возможности работы с прямым доступом к памяти и программируемым

вводом/выводом она допускает специальные конфигурационные циклы,

расширяемость до 64 бит, компоненты, работающие с питающими напряжениями

3.3 и 5 В, а также более быстрое тактирование. Базовая реализация шины PCI

поддерживает мультиплексирование адреса и данных и работает на частоте 33

МГц, обеспечивая максимальную скорость передачи данных 132 Мбайт/с. Шина

PCI непосредственно управляется микропроцессором. На рисунке 4 показаны

некоторые высокоскоростные периферийные устройства: графические адаптеры,

контроллеры SCSI и сетевые адаптеры, подключенные непосредственно к шине

PCI. Мостовая микросхема интерфейса ISA позволяет подключить к системе

низкоскоростные устройства типа модема, флопа и т.д. Позже, на смену

процессору пришла его модернизированная версия. Как и его предшественник,

новый кристалл Alpha 21066A помимо интерфейса PCI содержит на кристалле

интегрированный контроллер памяти и графический акселератор. Эти

характеристики позволяют значительно снизить стоимость реализации систем,

базирующихся на Alpha 21066A, и обеспечивают простой и дешевый доступ к

внешней памяти и периферийным устройствам. Alpha 21066A имеет две

модификации в соответствии с частотой: 100 МГц и 233 МГц. Модель с 233 МГц

обеспечивает производительность 94 и 100 единиц, соответственно, по тестам

SPECint92 и SPECfp92. Микропроцессор Alpha 21164 представляет собой вторую

полностью новую реализацию архитектуры Alpha. Микропроцессор 21164,

представленный в сентябре 1994 года, обеспечивает производительность 330 и

500 единиц, соответственно, по шкалам SPECint92 и SPECfp92 или около 1200

MIPS и выполняет до четырех инструкций за такт. На кристалле

микропроцессора 21164 размещено около 9,3 миллиона транзисторов,

большинство из которых образуют кэш. Кристалл построен на базе 0.5

микронной КМОП технологии компании DEC. Он собирается в 499-контактные

корпуса PGA (при этом 205 контактов отводятся под разводку питания и земли)

и рассеивает 50 Вт при питающем напряжении 3.3 В на частоте 300 МГц.

Переход в 1996 году на 0.35 микронную КМОП технологию привел к возможности

дальнейшего увеличения тактовой частоты и производительности процессора.

Процессоры 21164 выпускались с тактовой частотой 366 МГц (11.3 SPECint95,

15.4 SPECfp95) и 433 МГц (13.3 SPECint95, 18.3 SPECfp95). В конце 1996 года

начались массовые поставки 21164 с тактовой частотой 500 МГц (15.4

SPECint95, 21.1 SPECfp95). Таким образом, в 1996г. компания DEC имела самые

мощные процессоры, пиковая производительность которых составляла 2

миллиарда операций в секунду.

Ключевыми моментами для реализации высокой производительности

является суперскалярный режим работы процессора, обеспечивающий выдачу для

выполнения до четырех команд в каждом такте, высокопроизводительная

неблокируемая подсистема памяти с быстродействующей кэш-памятью первого

уровня, большая, размещенная на кристалле, кэш-память второго уровня и

уменьшенная задержка выполнения операций во всех функциональных

устройствах. На рисунке 5 представлена блок-схема процессора, который

включает пять функциональных устройств: устройство управления потоком

команд (IBOX), целочисленное устройство (EBOX), устройство плавающей точки

(FBOX), устройство управления памятью (MBOX) и устройство управления кэш-

памятью и интерфейсом шины (CBOX). На рисунке также показаны три

расположенных на кристалле кэш-памяти. Кэш-память команд и кэш-память

данных представляют собой первичные кэши, реализующие прямое отображение.

Множественно-ассоциативная кэш-память второго уровня предназначена для

хранения команд и данных. Длина конвейеров процессора 21164 варьируется от

7 ступеней для выполнения целочисленных команд и 9 ступеней для реализации

команд с плавающей точкой до 12 ступеней при выполнении команд обращения к

памяти в пределах кристалла и переменного числа ступеней при выполнении

команд обращения к памяти за пределами кристалла. Устройство управления

потоком команд осуществляет выборку и декодирование команд из кэша команд и

направляет их для выполнения в соответствующие исполнительные устройства

после разрешения всех конфликтов по регистрам и функциональным устройствам.

Оно управляет выполнением программы и всеми аспектами обработки

исключительных ситуаций, ловушек и прерываний. Кроме того, оно обеспечивает

управление всеми исполнительными устройствами, контролируя все цепи обхода

данных и записи в регистровый файл. Устройство управления содержит 8 Кбайт

кэш команд, схемы предварительной выборки команд и связанный с ними буфер

перезагрузки, схемы прогнозирования направления условных переходов и буфер

преобразования адресов команд (ITB). Целочисленное исполнительное

устройство выполняет целочисленные команды, вычисляет виртуальные адреса

для всех команд загрузки и записи, выполняет целочисленные команды

условного перехода и все другие команды управления. Оно включает в себя

регистровый файл и несколько функциональных устройств, расположенных на

четырех ступенях двух параллельных конвейеров. Первый конвейер содержит

сумматор, устройство логических операций, сдвигатель и умножитель. Второй

конвейер содержит сумматор, устройство логических операций и устройство

выполнения команд управления.

Рис. 5.

Устройство плавающей точки состоит из двух конвейерных исполнительных

устройств: конвейера сложения, который выполняет все команды плавающей

точки, за исключением команд умножения, и конвейер умножения, который

выполняет команды умножения с плавающей точкой. Два специальных конвейера

загрузки и один конвейер записи данных позволяют командам загрузки/записи

выполняться параллельно с выполнением операций с плавающей точкой.

Аппаратно поддерживаются все режимы округления, предусмотренные стандартами

IEEE и VAX.

Устройство управления памятью выполняет все команды загрузки, записи

и барьерные операции синхронизации. Оно содержит полностью ассоциативный 64-

строчный буфер преобразования адресов (DTB), 8 Кбайт кэш-память данных с

прямым отображением, файл адресов промахов и буфер записи. Длина строки в

кэше данных равна 32 байтам, он имеет два порта по чтению и реализован по

принципу сквозной записи. Он индексируется разрядами физического адреса и в

тегах хранятся физические адреса. В устройство управления памятью в каждом

такте может поступать до двух виртуальных адресов из целочисленного

устройства. DTB также имеет два порта, поэтому он может одновременно

выполнять преобразование двух виртуальных адресов в физические. Команды

загрузки обращаются к кэшу данных и возвращают результат в регистровый файл

в случае попадания. При этом задержка составляет два такта. В случае

промаха физические адреса направляются в файл адресов промахов, где они

буферизуются и ожидают завершения обращения к кэш-памяти второго уровня.

Команды записи записывают данные в кэш данных в случае попадания и всегда

Страницы: 1, 2, 3, 4, 5, 6

Приглашения

09.12.2013 - 16.12.2013

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

09.12.2013 - 16.12.2013

МЕНЮ

НАУЧНЫЕ РАБОТЫ

Современные микропроцессоры

Приглашения

Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»