МЕНЮ


Фестивали и конкурсы
Семинары
Издания
О МОДНТ
Приглашения
Поздравляем

НАУЧНЫЕ РАБОТЫ


  • Инновационный менеджмент
  • Инвестиции
  • ИГП
  • Земельное право
  • Журналистика
  • Жилищное право
  • Радиоэлектроника
  • Психология
  • Программирование и комп-ры
  • Предпринимательство
  • Право
  • Политология
  • Полиграфия
  • Педагогика
  • Оккультизм и уфология
  • Начертательная геометрия
  • Бухучет управленчучет
  • Биология
  • Бизнес-план
  • Безопасность жизнедеятельности
  • Банковское дело
  • АХД экпред финансы предприятий
  • Аудит
  • Ветеринария
  • Валютные отношения
  • Бухгалтерский учет и аудит
  • Ботаника и сельское хозяйство
  • Биржевое дело
  • Банковское дело
  • Астрономия
  • Архитектура
  • Арбитражный процесс
  • Безопасность жизнедеятельности
  • Административное право
  • Авиация и космонавтика
  • Кулинария
  • Наука и техника
  • Криминология
  • Криминалистика
  • Косметология
  • Коммуникации и связь
  • Кибернетика
  • Исторические личности
  • Информатика
  • Инвестиции
  • по Зоология
  • Журналистика
  • Карта сайта
  • Процессор пентиум

    Процессор пентиум

    2Содержание

    Вступление 2

    Два кристалла в одном корпусе 3

    Pentium как точка отсчета 4

    Основная проблема на пути повышения производительности 5

    Решение принятое в P6 6

    Архитектура P6 7

    1. Устройство выборки/декодирования 7

    2. Устройство диспетчирования/выполнения 8

    3. Устройство отката 9

    4. Интерфейс шины 10

    5. Вывод 11

    P6 как платформа для построения мощных серверов 12

    Системы на основе P6 13

    Следующее поколение процессоров 14

    Заключение 17

    Приложения 18

    Литература 22

    .

    . 2 -

    ш1.1

    2Вступление

    Все IBM-совместимые персональные компьютеры укомплектованы Intel-

    совместимыми процессорами. История развития микропроцессо-ров семейства

    Intel вкратце такова. Первый универсальный микро-процессор фирмы Intel

    появился в 1970 г. Он назывался Intel 4004, был четырехразрядным и имел

    возможность ввода/вывода и обработки четырехбитных слов. Быстродействие его

    составляло 8000 операций в секунду. Микропроцессор Intel 4004 был

    рассчитан на применение в программируемых калькуляторах с памятью размером

    в 4 Кбайт.

    Через три года фирма Intel выпустила процессор 8080, который

    мог выполнять уже 16-битные арифметические операции, имел 1б-раз-

    рядную адресную шину и, следовательно, мог адресовать до 64 Кбайт

    памяти (2 516 0=65536). 1978 год ознаменовался выпуском процессора

    8086 с размером слова в 16 бит (два байта), 20-разрядной шиной и

    мог оперировать уже с 1 Мбайт памяти (2 520 0=1048576, или 1024

    Кбайт), разделенной на блоки (сегменты) по 64 Кбайт каждый. Про-

    цессором 8086 комплектовались компьютеры, совместимые с IBM PC и

    IBM PC/XT. Следующим крупным шагом в разработке новых микропро-

    цессоров стал появившийся в 1982 году процессор 8028б. Он обладал

    24-разрядной адресной шиной, мог распоряжаться 16 мегабайтами ад-

    ресного пространства и ставился на компьютеры, совместимые с IBM

    PC/AT. В октябре 1985 года был выпущен 80386DX с 32- разрядной

    шиной адреса (максимальное адресное пространство - 4 Гбайт), а в

    июне 1988 года - 80386SX, более дешевый по сравнению с 80386DX и

    обладавший 24-разрядной адресной шиной. Затем в апреле 1989 года

    появляется микропроцессор 80486DX, а в мае 1993 - первый вариант

    процессора Pentium (оба с 32-разрядной шиной адреса).

    В мае 1995 года в Москве на международной выставке Комтек-95

    фирма Intel представила новый процессор - P6.

    Одной из важнейших целей, поставленных при разработке P6,

    было удвоение производительности по сравнению с процессором Pen-

    tium. При этом производство первых версий P6 будет осуществляться

    по уже отлаженной «Intel» и используемой при производстве послед-

    них версий Pentium полупроводниковой технологии (О,6 мкм, З,З В).

    Использование того же самого процесса производства дает гарантию

    того, что массовое производство P6 будет налажено без серьезных

    проблем. Вместе с тем это означает, что удвоение производитель-

    ности достигается только за счет всестороннего улучшения микроар-

    хитектуры процессора. При разработке микроархитектуры P6 исполь-

    зовалась тщательно продуманная и настроенная комбинация различных

    архитектурных методов. Часть из них была ранее опробована в про-

    цессорах «больших» компьютеров, часть предложена академическими

    институтами, оставшиеся разработаны инженерами фирмы «Intel». Эта

    уникальная комбинация архитектурных особенностей, которую в «In-

    tel» определяют словами «динамическое выполнение», позволила пер-

    вым кристаллам P6 превзойти первоначально планировавшийся уровень

    производительности.

    При сравнении с альтернативными «Intel» процессорами семейс-

    тва х86 выясняется, что микроархитектура Р6 имеет много общего с

    микроархитектурой процессоров Nx586 фирмы NexGen и K5 фирмы AMD,

    и, хотя и в меньшей степени, с M1 фирмы «Cyrix». Эта общность

    . 3 -

    объясняется тем, что инженеры четырех компаний решали одну и ту

    же задачу: внедрение элементов RISC-технологии при сохранении

    совместимости с CISC-архитектурой Intel х86.

    2Два кристалла в одном корпусе

    Главное преимущество и уникальная особенность Р6 - размещен-ная в одном

    корпусе с процессором вторичная статическая кэш-па-мять размером 256 кб,

    соединенная с процессором специально выде-ленной шиной. Такая конструкция

    должна существенно упростить про-ектирование систем на базе Р6. Р6 -

    первый предназначенный для массового производства микропроцессор,

    содержащий два чипа в од-ном корпусе.

    Кристалл ЦПУ в Р6 содержит 5,5 миллионов транзисторов; крис-

    талл кэш-памяти второго уровня - 15,5 миллионов. Для сравнения,

    последняя модель Pentium включала около 3,3 миллиона транзисто-

    ров, а кэш-память второго уровня реализовывалась с помощью внеш-

    него набора кристаллов памяти.

    Столь большое число транзисторов в кэше объясняется его ста-

    тической природой. Статическая память в P6 использует шесть тран-

    зисторов для запоминания одного бита, в то время как динамической

    памяти было бы достаточно одного транзистора на бит. Статическая

    память быстрее, но дороже.

    Хотя число транзисторов на кристалле с вторичным кэшем втрое

    больше, чем на кристалле процессора, физические размеры кэша

    меньше: 202 квадратных миллиметра против 306 у процессора. Оба

    кристалла вместе заключены в керамический корпус с 387 контактами

    (“dual cavity pin-drid array”). Оба кристалла производятся с при-

    менением одной и той же технологии (0,6 мкм, 4- слойная ме-

    талл-БиКМОП, 2,9 В). Предполагаемое максимальное потребление

    энергии: 20 Вт при частоте 133 МГц.

    Первая причина объединения процессора и вторичного кэша в

    одном корпусе - облегчение проектирования и производства высокоп-

    роизводительных систем на базе Р6. Производительность вычисли-

    тельной системы, построенной на быстром процессоре, очень сильно

    зависит от точной настройки микросхем окружения процессора, в

    частности вторичного кэша. Далеко не все фирмы-производители

    компьютеров могут позволить себе соответствующие исследования. В

    Р6 вторичный кэш уже настроен на процессор оптимальным образом,

    что облегчает проектирование материнской платы.

    Вторая причина объединения - повышение производительности.

    Кзш второго уровня связан с процессором специально выделенной ши-

    ной шириной 64 бита и работает на той же тактовой частоте, что и

    процессор.

    Первые процессоры Рentium с тактовой частотой 60 и 66 МГц

    обращались к вторичному кэшу по 64-разрядной шине с той же такто-

    вой частотой. Однако с ростом тактовой частоты Pentium для проек-

    тировщиков стало слишком сложно и дорого поддерживать такую час-

    тоту на материнской плате. Поэтому стали применяться делители

    частоты. Например, у 100 МГц Pentium внешняя шина работает на

    частоте 66 МГц (у 90 МГц Pentium - соответственно 60 МГц). Penti-

    um использует эту шину как для обращений к вторичному кэшу, так и

    . 4 -

    для обращения к основной памяти и другим устройствам, например к

    набору чипов PCI.

    Использование специально выделенной шины для доступа к вто-

    ричному кэшу улучшает производительность вычислительной системы.

    Во-первых, при этом достигается полная синхронизация скоростей

    процессора и шины; во-вторых, исключается конкуренция с другими

    операциями ввода-вывода и связанные с этим задержки. Шина кэша

    второго уровня полностью отделена от внешней шины, через которую

    происходит доступ к памяти и внешним устройствам. 64-битовая

    внешняя шина может работать со скоростью, равной половине, одной

    третьей или одной четвертой от скорости процессора, при этом шина

    вторичного кэша работает независимо на полной скорости.

    Объединение процессора и вторичного кэша в одном корпусе и

    их связь через выделенную шину является шагом по направлению к

    методам повышения производительности, используемым в наиболее

    мощных RISC-процессорах. Так, в процессоре Alpha 21164 фирмы «Di-

    gital» кэш второго уровня размером 96 кб размещен в ядре процес-

    сора, как и первичный кэш. Это обеспечивает очень высокую произ-

    водительность кэша за счет увеличения числа транзисторов на крис-

    талле до 9,3 миллиона. Производительность Alpha 21164 составляет

    330 SPECint92 при тактовой частоте 300 МГц. Производительность Р6

    ниже (по оценкам «Intel» - 200 SPECint92 при тактовой частоте 133

    МГц), однако Р6 обеспечивает лучшее соотношение стоимость/произ-

    водительность для своего потенциального рынка.

    При оценке соотношения стоимость/производительность следует

    учитывать, что, хотя Р6 может оказаться дороже своих конкурентов,

    большая часть других процессоров должна быть окружена дополни-

    тельным набором чипов памяти и контроллером кэша. Кроме того, для

    достижения сравнимой производительности работы с кэшом, другие

    процессоры должны будут использовать кэш большего, чем 256 кб

    размера.

    «Intel», как правило, предлагает многочисленные вариации

    своих процессоров. Это делается с целью удовлетворить разнообраз-

    ным требованиям проектировщиков систем и оставить меньше прост-

    ранства для моделей конкурентов. Поэтому можно предположить, что

    вскоре после начала выпуска Р6 появятся как модификации с увели-

    ченным объемом вторичной кэш-памяти, так и более дешевые модифи-

    кации с внешним расположением вторичного кэша, но при сохраненной

    выделенной шине между вторичным кэшом и процессором.

    2Pentium как точка отсчета

    Процессор Pentium со своей конвейерной и суперскалярной ар-хитектурой

    достиг впечатляющего уровня производительности.

    Pentium содержит два 5-стадийных конвейера, которые могут

    работать параллельно и выполнять две целочисленные команды за ма-

    шинный такт. При этом параллельно может выполняться только пара

    команд, следующих в программе друг за другом и удовлетворяющих

    определенным правилам, например, отсутствие регистровых зависи-

    мостей типа «запись после чтения».

    В P6 для увеличения пропускной способности осуществлен пере-

    ход к одному 12-стадийному конвейеру. Увеличение числа стадий

    . 5 -

    приводит к уменьшению выполняемой на каждой стадии работы и, как

    следствие, к уменьшению времени нахождения команды на каждой ста-

    дии на 33 процента по сравнению с Pentium. Это означает, что ис-

    пользование при производстве P6 той же технологии, что и при про-

    изводстве 100 МГц Pentium, приведет к получению P6 с тактовой

    частотой 133 МГц.

    Возможности суперскалярной архитектуры Pentium, с ее способ-

    ностью к выполнению двух команд за такт, было бы трудно превзойти

    без совершенно нового подхода. Примененный в P6 новый подход уст-

    раняет жесткую зависимость между традиционными фазами «выборки» и

    «выполнения», когда последовательность прохождения команд через

    эти две фазы соответствует последовательности команд в программе.

    Новый подход связан с использованием так называемого пула команд

    и с новыми эффективными методами предвидения будущего поведения

    программы. При этом традиционная фаза «выполнение» заменяется на

    две: «диспетчирование/выполнение» и «откат». В результате команды

    могут начинать выполняться в произвольном порядке, но завершают

    свое выполнение всегда в соответствии с их исходным порядком в

    программе. Ядро P6 реализовано как три независимых устройства,

    взаимодействующих через пул команд (рис. 1).

    2Основная проблема на пути повышения

    2производительности

    Решение об организации P6 как трех независимых и взаимодейс-твующих через

    пул команд устройств было принято после тщательного анализа факторов,

    ограничивающих производительность современных микропроцессоров.

    Фундаментальный факт, справедливый для Pentium и многих других процессоров,

    состоит в том, что при выполнении реальных программ мощность

    процессора не используется в полной мере. Рассмотрим в качестве примера

    следующий фрагмент программы, записанный на некотором условном языке:

    r1 <- mem[r0] /* Команда 1 */

    r2 <- r1 + r2 /* Команда 2 */

    r5 <- r5 + 1 /* Команда 3 */

    r6 <- r6 - r3 /* Команда 4 */

    Предположим, что при выполнении первой команды фрагмента -

    загрузки из памяти в регистр r1 - оказалось, что содержимое соот-

    ветствующей ячейки памяти отсутствует в кэше. При традиционном

    подходе процессор перейдет к выполнению команды 2 только после

    того, как данные из ячейки mem[r0] основной памяти будут прочита-

    ны через интерфейс шины. Все время ожидания процессор будет прос-

    таивать.

    В то время как скорость процессоров за последние 10 лет вы-

    росла по меньшей мере в 10 раз, время доступа к основной памяти

    уменьшилось только на 60 процентов. Это увеличивающееся отстава-

    ние скорости работы с памятью по отношению к скорости процессора

    и было той фундаментальной проблемой, которую пришлось решать при

    проектировании P6.

    Один из возможных подходов к решению этой проблемы - перенос

    . 6 -

    ее центра тяжести на разработку высокопроизводительных компонен-

    тов, окружающих процессор. Однако массовый выпуск систем, включа-

    ющих и высокопроизводительный процессор, и высокоскоростные спе-

    циализированные микросхемы окружения, был бы слишком дорогостоя-

    щим.

    Можно было попытаться решить проблему с использованием гру-

    бой силы, а именно увеличить размер кэша второго уровня, чтобы

    уменьшить процент случаев отсутствия необходимых данных в кэше.

    Это решение эффективное, но тоже чрезвычайно дорогостоящее, осо-

    бенно учитывая сегодняшние скоростные требования к компонентам

    кэша второго уровня. P6 проектировался с точки зрения эффективной

    реализации целостной вычислительной системы, и требовалось, чтобы

    высокая производительность системы в целом достигалась с исполь-

    зованием дешевой подсистемы памяти.

    2Решение, принятое в P6

    Решение сформулированной в предыдущем разделе проблемы памя-ти, принятое в

    P6, заключается в обращении к пулу команд, извле-чении из него команд,

    следующих за командой, требующей обращения к памяти, и выполнения до

    момента завершения команды-тормоза мак-симума полезной работы. В

    приведенном в предыдущем разделе приме-ре процессор не может выполнить

    команду 2 до завершения команды 1, так как команда 2 зависит от

    результатов команды 1. В то же время процессор может выполнить команды 3 и

    4, не зависящие от результата выполнения команды 1. Мы будем называть

    такое выполне-ние команд опережающим выполнением. Результаты опережающего

    вы-полнения команд 3 и 4 не могут быть сразу записаны в регистры,

    поскольку мы должны изменять состояние вычислительной системы только в

    соответствии с правильным порядком выполнения программы. Эти результаты

    хранятся в пуле команд и извлекаются оттуда позд-нее. Таким образом,

    процессор выполняет команды в соответствии с их готовностью к выполнению,

    вне зависимости от их первоначально-го порядка в программе, то есть с

    точки зрения реального порядка выполнения команд P6 является машиной,

    управляемой потоком дан-ных. В то же время изменение состояния

    вычислительной системы, например запись в регистры, производится в строгом

    соответствии с истинным порядком команд в программе.

    Чтение из памяти данных, необходимых для команды 1, может

    занимать достаточно много тактов. Тем временем P6 продолжает опе-

    режающее выполнение команд, следующих за командой 1, и успевает

    обработать, как правило, 20-30 команд. Среди этих 20-30 команд

    будет в среднем пять команд перехода, которые устройство выбор-

    ки/декодирования должно правильно предсказать для того, чтобы ра-

    бота устройства диспетчирования/выполнения не оказалась бесполез-

    ной. Небольшое количество регистров в архитектуре процессоров

    «Intel» приводит к интенсивному использованию каждого из них и,

    как следствие, к возникновению множества мнимых зависимостей меж-

    ду командами, использующими один и тот же регистр. Поэтому, чтобы

    исключить задержку в выполнении команд из-за мнимых зависимостей,

    устройство диспетчирования/выполнения работает с дублями регист-

    ров, находящимися в пуле команд (одному регистру может соответс-

    . 7 -

    твовать несколько дублей). Реальный набор регистров контролирует-

    ся устройством отката, и результаты выполнения команд отражаются

    на состоянии вычислительной системы только после того, как выпол-

    ненная команда удаляется из пула команд в соответствии с истинным

    порядком команд в программе.

    Таким образом, принятая в P6 технология динамического выпол-

    нения может быть описана как оптимальное выполнение программы ,

    основанное на предсказании будущих переходов, анализе графа пото-

    ков данных с целью выбора наилучшего порядка исполнения команд и

    на опережающем выполнении команд в выбранном оптимальном порядке.

    2Архитектура P6

    На рисунке 2 приведена более подробная блок-схема P6, вклю-чающая кэши и

    интерфейс с основной памятью.

    Далее мы будем понимать под «упорядоченным» устройство, ко-

    торое работает в соответствии с исходным порядком команд в прог-

    рамме, а под «беспорядочным» - устройство, которое не обращает

    внимания на исходный порядок команд в программе.

    Устройство выборки/декодирования является «упорядоченным»

    устройством, которое воспринимает на входе поток команд из прог-

    раммы пользователя и декодирует их, превращая в последователь-

    ность микрокоманд, соответствующих потоку данных в программе

    пользователя.

    Устройство диспетчирования/выполнения является «беспорядоч-

    ным» устройством, которое воспринимает поток данных и планирует

    Страницы: 1, 2


    Приглашения

    09.12.2013 - 16.12.2013

    Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

    09.12.2013 - 16.12.2013

    Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»




    Copyright © 2012 г.
    При использовании материалов - ссылка на сайт обязательна.