МЕНЮ


Фестивали и конкурсы
Семинары
Издания
О МОДНТ
Приглашения
Поздравляем

НАУЧНЫЕ РАБОТЫ


  • Инновационный менеджмент
  • Инвестиции
  • ИГП
  • Земельное право
  • Журналистика
  • Жилищное право
  • Радиоэлектроника
  • Психология
  • Программирование и комп-ры
  • Предпринимательство
  • Право
  • Политология
  • Полиграфия
  • Педагогика
  • Оккультизм и уфология
  • Начертательная геометрия
  • Бухучет управленчучет
  • Биология
  • Бизнес-план
  • Безопасность жизнедеятельности
  • Банковское дело
  • АХД экпред финансы предприятий
  • Аудит
  • Ветеринария
  • Валютные отношения
  • Бухгалтерский учет и аудит
  • Ботаника и сельское хозяйство
  • Биржевое дело
  • Банковское дело
  • Астрономия
  • Архитектура
  • Арбитражный процесс
  • Безопасность жизнедеятельности
  • Административное право
  • Авиация и космонавтика
  • Кулинария
  • Наука и техника
  • Криминология
  • Криминалистика
  • Косметология
  • Коммуникации и связь
  • Кибернетика
  • Исторические личности
  • Информатика
  • Инвестиции
  • по Зоология
  • Журналистика
  • Карта сайта
  • Современные микропроцессоры

    реализована суперскалярная обработка, позволяющая выдавать на выполнение в

    каждом такте 3 команды, возможно не в порядке их расположения в программном

    коде.

    Процессор PowerPC 603

    PowerPC 603 является первым микропроцессором в семействе PowerPC,

    который полностью поддерживает архитектуру PowerPC (рисунок 6.). Он

    включает пять функциональных устройств: устройство переходов, целочисленное

    устройство, устройство плавающей точки, устройство загрузки/записи и

    устройство системных регистров, а также две, расположенных на кристалле кэш-

    памяти для команд и данных, емкостью по 8 Кбайт. Поскольку PowerPC 603 -

    суперскалярный микропроцессор, он может выдавать в эти исполнительные

    устройства и завершать выполнение до трех команд в каждом такте. Для

    увеличения производительности PowerPC 603 допускает внеочередное выполнение

    команд. Кроме того он обеспечивает программируемые режимы снижения

    потребляемой мощности, которые дают разработчикам систем гибкость

    реализации различных технологий управления питанием.

    При обработке в процессоре команды распределяются по пяти

    исполнительным устройствам в заданном программой порядке. Если отсутствуют

    зависимости по операндам, выполнение происходит немедленно. Целочисленное

    устройство выполняет большинство команд за один такт. Устройство плавающей

    точки имеет конвейерную организацию и выполняет операции с плавающей точкой

    как с одинарной, так и с двойной точностью. Команды условных переходов

    обрабатывается в устройстве переходов. Если условия перехода доступны, то

    решение о направлении перехода принимается немедленно, в противном случае

    выполнение последующих команд продолжается по предположению (спекулятивно).

    Команды, модифицирующие состояние регистров управления процессором,

    выполняются устройством системных регистров. Наконец, пересылки данных

    между кэш-памятью данных, с одной стороны, и регистрами общего назначения и

    регистрами плавающей точки, с другой стороны, обрабатываются устройством

    загрузки/записи.

    В случае промаха при обращении к кэш-памяти, обращение к основной

    памяти осуществляется с помощью 64-битовой высокопроизводительной шины,

    подобной шине микропроцессора MC88110. Для максимизации пропускной

    способности и, как следствие, увеличения общей производительности кэш-

    память взаимодействует с основной памятью главным образом посредством

    групповых операций, которые позволяют заполнить строку кэш-памяти за одну

    транзакцию.

    Рис.6..

    После окончания выполнения команды в исполнительном устройстве ее

    результаты направляются в буфер завершения команд (completion buffer) и

    затем последовательно записываются в соответствующий регистровый файл по

    мере изъятия команд из буфера завершения. Для минимизации конфликтов по

    регистрам, в процессоре PowerPC 603 предусмотрены отдельные наборы из 32

    целочисленных регистров общего назначения и 32 регистров плавающей точки.

    PowerPC 604

    Суперскалярный процессор PowerPC 604 обеспечивает одновременную

    выдачу до четырех команд. При этом параллельно в каждом такте может

    завершаться выполнение до шести команд. На рисунке 5.21 представлена блок-

    схема процессора 604. Процессор включает шесть исполнительных устройств,

    которые могут работать параллельно:

    устройство плавающей точки (FPU);

    устройство выполнения переходов (BPU);

    устройство загрузки/записи (LSU);

    три целочисленных устройства (IU):

    два однотактных целочисленных устройства (SCIU);

    одно многотактное целочисленное устройство (MCIU).

    Такая параллельная конструкция в сочетании со спецификацией команд

    PowerPC, допускающей реализацию ускоренного выполнения команд, обеспечивает

    высокую эффективность и большую пропускную способность процессора.

    Применяемые в процессоре 604 буфера переименования регистров, буферные

    станции резервирования, динамическое прогнозирование направления условных

    переходов и устройство завершения выполнения команд существенно увеличивают

    пропускную способность системы, гарантируют завершение выполнения команд в

    порядке, предписанном программой, и обеспечивают реализацию модели точного

    прерывания.

    В процессоре 604 имеются отдельные устройства управления памятью и

    отдельные по 16 Кбайт внутренние кэши для команд и данных. В нем

    реализованы два буфера преобразования виртуальных адресов в физические TLB

    (отдельно для команд и для данных), содержащие по 128 строк. Оба буфера

    являются двухканальными множественно-ассоциативными и обеспечивают

    переменный размер страниц виртуальной памяти. Кэш-памяти и буфера TLB

    используют для замещения блоков алгоритм LRU.

    Процессор 604 имеет 64-битовую внешнюю шину данных и 32-битовую шину

    адреса. Интерфейсный протокол процессора 604 позволяет нескольким главным

    устройствам шины конкурировать за системные ресурсы при наличии

    централизованного внешнего арбитра. Кроме того, внутренние логические схемы

    наблюдения за шиной поддерживают когерентность кэш-памяти в

    мультипроцессорных конфигурациях. Процессор 604 обеспечивает как одиночные,

    так и групповые пересылки данных при обращении к основной памяти.

    PowerPC 620

    К концу 1995 года ожидается появление нового процессора PowerPC 620.

    В отличие от своих предшественников это будет полностью 64-битовый

    процессор. При работе на тактовой частоте 133 МГц его производительность

    оценивается в 225 единиц SPECint92 и 300 единиц SPECfp92, что

    соответственно на 40 и 100% больше показателей процессора PowerPC 604.

    Подобно другим 64-битовым процессорам, PowerPC 620 содержит 64-

    битовые регистры общего назначения и плавающей точки и обеспечивает

    формирование 64-битовых виртуальных адресов. При этом сохраняется

    совместимость с 32-битовым режимом работы, реализованным в других моделях

    семейства PowerPC.

    В процессоре имеется кэш-память данных и команд общей емкостью 64

    Кбайт, интерфейсные схемы управления кэш-памятью второго уровня, 128-

    битовая шина данных между процессором и основной памятью, а также

    логические схемы поддержания когерентного состояния памяти при организации

    многопроцессорной системы.

    Процессор PowerPC 620 нацелен на рынок высокопроизводительных рабочих

    станций и серверов.

    В заключении отметим, что в иллюстрациях к курсу приведены основные

    характеристики некоторых современных систем, построенных на рассмотренных в

    данном разделе процессорах.

    4. Особенности архитектуры MIPS компании MIPS Technology

    Архитектура MIPS была одной из первых RISC-архитектур, получившей

    признание со стороны промышленности. Она была анонсирована в 1986 году.

    Первоначально это была полностью 32-битовая архитектура, которая включала

    32 регистра общего назначения, 16 регистров плавающей точки и специальную

    пару регистров для хранения результатов выполнения операций целочисленного

    умножения и деления. Размер команд составлял 32 бит, в ней поддерживался

    всего один метод адресации, и пользовательское адресное пространство также

    определялось 32 битами. Выполнение арифметических операций

    регламентировалось стандартом IEEE 754. В компьютерной промышленности

    широкую популярность приобрели 32-битовые процессоры R2000 и R3000, которые

    в течение достаточно длительного времени служили основой для построения

    рабочих станций и серверов компаний Silicon Graphics, Digital, Siemens

    Nixdorf и др. Процессоры R3000/R3010 работали на тактовой частоте 33 или 40

    МГц и обеспечивали производительность на уровне 20 SPECint92 и 23 SPECfp92.

    Затем на смену микропроцессорам семейства R3000 пришли новые 64-

    битовые микропроцессоры R4000 и R4400. (MIPS Technology была первой

    компанией выпустившей процессоры с 64-битовой архитектурой). Набор команд

    этих процессоров (спецификация MIPS II) был расширен командами загрузки и

    записи 64-разрядных чисел с плавающей точкой, командами вычисления

    квадратного корня с одинарной и двойной точностью, командами условных

    прерываний, а также атомарными операциями, необходимыми для поддержки

    мультипроцессорных конфигураций. В процессорах R4000 и R4400 реализованы 64-

    битовые шины данных и 64-битовые регистры. В этих процессорах применяется

    метод удвоения внутренней тактовой частоты.

    Процессоры R2000 и R3000 имели стандартные пятиступенчатые конвейеры

    команд. В процессорах R4000 и R4400 применяются более длинные конвейеры

    (иногда их называют суперконвейерами). Количество ступеней в процессорах

    R4000 и R4400 увеличилось до восьми, что объясняется прежде всего

    увеличением тактовой частоты и необходимостью распределения логики для

    обеспечения заданной пропускной способности конвейера. Процессор R4000

    может работать с тактовой частотой 50/100 МГц и обеспечивает уровень

    производительности в 58 SPECint92 и 61 SPECfp92. Процессор R4400 может

    работать на частоте 50/100 МГц, или 75/150 МГц, показывая уровень

    производительности 94 SPECint92 и 105 SPECfp92.

    Внутренняя кэш-память процессора R4000 имеет емкость 16 Кбайт. Она

    разделена на 8-Кб кэш команд и 8-Кб кэш данных. С точки зрения реализации

    кэш-памяти процессор R4400 имеет более развитые возможности. Он выпускается

    в трех модификациях: PC (Primary Cashe) - имеет внутренние кэши команд и

    данных емкостью по 16 Кбайт. Процессор в такой конфигурации предназначен

    главным образом для дешевых моделей рабочих станций. SC (Secondary Cashe)

    содержит логику управления кэш-памятью второго уровня. MC (Multiprocessor

    Cashe) - использует специальные алгоритмы обеспечения когерентности и

    согласованного состояния памяти для многопроцессорных конфигураций.

    В середине 1994 года компания MIPS анонсировала процессор R8000,

    который прежде всего был ориентирован на научные прикладные задачи с

    интенсивным использованием операций с плавающей точкой. Этот процессор

    построен на двух кристаллах (выпускается в виде многокристальной сборки) и

    представляет собой первую суперскалярную реализацию архитектуры MIPS.

    Теоретическая пиковая производительность процессора для тактовой частоты 75

    МГц составляет 300 MFLOPs (до четырех команд и шести операций с плавающей

    точкой в каждом такте). Реализация большой кэш-памяти данных емкостью 16

    Мбайт, высокой пропускной способности доступа к данным (до 1.2 Гбайт/с) в

    сочетании с высокой скоростью выполнения операций позволяет R8000 достигать

    75% теоретической производительности даже при решении больших задач типа

    LINPACK с размерами матриц 1000x1000 элементов. Аппаратные средства

    поддержки когерентного состояния кэш-памяти вместе со средствами

    распараллеливания компиляторов обеспечивают возможность построения

    высокопроизводительных симметричных многопроцессорных систем. Например,

    процессоры R8000 используются в системе Power Challenge компании Silicon

    Graphics, которая вполне может сравниться по производительности с

    известными суперкомпьютерами Cray Y-MP, имеет на порядок меньшую стоимость

    и предъявляет значительно меньшие требования к подсистемам питания и

    охлаждения. В однопроцессорном исполнении эта система обеспечивает

    производительность на уровне 310 SPECfp92 и 265 MFLOPs на пакете LINPACK

    (1000x1000).

    В 1994 году MIPS Technology объявила также о создании своего нового

    суперскалярного процессора R10000. MIPS Technology R10000 обеспечивает

    пиковую производительность в 800 MIPS при работе с внутренней тактовой

    частотой 200 МГц за счет обеспечения выдачи для выполнения четырех команд в

    каждом такте синхронизации. При этом он обеспечивает обмен данными с кэш-

    памятью второго уровня со скоростью 3.2 Гбайт/с.

    Рис. 8. Блок-схема микропроцессора R10000

    Иерархия памяти

    При разработке процессора R10000 большое внимание было уделено

    эффективной реализации иерархии памяти. В нем обеспечиваются раннее

    обнаружение промахов кэш-памяти и параллельная перезагрузка строк с

    выполнением другой полезной работой. Реализованные на кристалле кэши

    поддерживают одновременную выборку команд, выполнение команд загрузки и

    записи данных в память, а также операций перезагрузки строк кэш-памяти.

    Заполнение строк кэш-памяти выполняется по принципу "запрошенное слово

    первым", что позволяет существенно сократить простои процессора из-за

    ожидания требуемой информации. Все кэши имеют двухканальную множественно-

    ассоциативную организацию с алгоритмом замещения LRU.

    Кэш-память данных первого уровня

    Кэш-память данных первого уровня процессора R10000 имеет емкость 32

    Кбайт и организована в виде двух одинаковых банков емкостью по 16 Кбайт,

    что обеспечивает двухкратное расслоение при выполнении обращений к этой кэш-

    памяти. Каждый банк представляет собой двухканальную множественно-

    ассоциативную кэш-память с размером строки (блока) в 32 байта. Кэш данных

    индексируется с помощью виртуального адреса и хранит теги физических

    адресов памяти. Такой метод индексации позволяет выбрать подмножество кэш-

    памяти в том же такте, в котором формируется виртуальный адрес. Однако для

    того, чтобы поддерживать когерентность с кэш-памятью второго уровня, в кэше

    первого уровня хранятся теги физических адресов памяти.

    Массивы данных и тегов в каждом банке являются независимыми. Эти

    четыре массива работают под общим управлением очереди формирования адресов

    памяти и схем внешнего интерфейса кристалла. В очереди адресов могут

    одновременно находиться до 16 команд загрузки и записи, которые

    обрабатываются в четырех отдельных конвейерах. Команды из этой очереди

    динамически выдаются для выполнения в специальный конвейер, который

    обеспечивает вычисление исполнительного виртуального адреса и

    преобразование этого адреса в физический. Три других параллельно работающих

    конвейера могут одновременно выполнять проверку тегов, осуществлять

    пересылку данных для команд загрузки и завершать выполнение команд записи в

    память. Хотя команды выполняются в строгом порядке их расположения в

    памяти, вычисление адресов и пересылка данных для команд загрузки могут

    происходить неупорядоченно. Схемы внешнего интерфейса кристалла могут

    выполнять заполнение или обратное копирование строк кэш-памяти, либо

    операции просмотра тегов. Такая параллельная работа большинства устройств

    процессора позволяет R10000 эффективно выполнять реальные многопроцессорные

    приложения.

    Работа конвейеров кэш-памяти данных тесно координирована. Например,

    команды загрузки могут выполнять проверку тегов и чтение данных в том же

    такте, что и преобразование адреса. Команды записи сразу же начинают

    проверку тегов, чтобы в случае необходимости как можно раньше инициировать

    заполнение требуемой строки из кэш-памяти второго уровня, но

    непосредственная запись данных в кэш задерживается до тех пор, пока сама

    команда записи не станет самой старой командой в общей очереди выполняемых

    команд и ей будет позволено зафиксировать свой результат ("выпустится").

    Промах при обращении к кэш-памяти данных первого уровня инициирует процесс

    заполнения строки из кэш-памяти второго уровня. При выполнении команд

    загрузки одновременно с заполнением строки кэш-памяти данные могут

    поступать по цепям обхода в регистровый файл.

    При обнаружении промаха при обращении к кэш-памяти данных ее работа

    не блокируется, т.е. она может продолжать обслуживание следующих запросов.

    Это особенно полезно для уменьшения такого важного показателя качества

    реализованной архитектуры как среднее число тактов на команду (CPI - clock

    cycles per instruction). На рисунке 5.14 представлены результаты

    моделирования работы R10000 на нескольких программах тестового пакета SPEC.

    Для каждого теста даны два результата: с блокировкой кэш-памяти данных при

    обнаружении промаха (вверху) и действительное значение CPI R10000 (внизу).

    Выделенная более темным цветом правая область соответствует времени,

    потерянному из-за промахов кэш-памяти. Верхний результат отражает полную

    задержку в случае, если бы все операции по перезагрузке кэш-памяти

    выполнялись строго последовательно. Таким образом, стрелка представляет

    потери времени, которые возникают в блокируемом кэше. Эффект применения

    неблокируемой кэш-памяти сильно зависит характеристик самих программ. Для

    небольших тестов, рабочие наборы которых полностью помещаются в кэш-памяти

    первого уровня, этот эффект не велик. Однако для более реальных программ,

    подобных тесту tomcatv или тяжелому для кэш-памяти тесту compress, выигрыш

    оказывается существенным.

    Кэш-память второго уровня

    Интерфейс кэш-памяти второго уровня процессора R10000 поддерживает

    128-битовую магистраль данных, которая может работать с тактовой частотой

    до 200 МГц, обеспечивая скорость обмена до 3.2 Гбайт/с (для снижения

    требований к быстродействию микросхем памяти предусмотрена также

    возможность деления частоты с коэффициентами 1.5, 2, 2.5 и 3). Все

    стандартные синхронные сигналы управления статической памятью

    вырабатываются внутри процессора. Не требуется никаких внешних интерфейсных

    схем. Минимальный объем кэш-памяти второго уровня составляет 512 Кбайт,

    максимальный размер - 16 Мбайт. Размер строки этой кэш-памяти

    программируется и может составлять 64 или 128 байт.

    Страницы: 1, 2, 3, 4, 5, 6


    Приглашения

    09.12.2013 - 16.12.2013

    Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

    09.12.2013 - 16.12.2013

    Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»




    Copyright © 2012 г.
    При использовании материалов - ссылка на сайт обязательна.