Nvidia Tegra 3

Nvidias Erfolg mit Tablet-Prozessoren

Uhr | Updated
von Marc Büchel, Ocaholic

Smartphones und Tablet-PC bestimmen längst den Alltag moderner Menschen und mit ihnen SoCs (System on a Chip). Kaum ist sich aber jemand bewusst, wie komplex und leistungsfähig deren Prozessoren bereits sind. Aktuelle Quad-Core-Architekturen bieten bei geringem Stromverbrauch soviel Performance, wie Desktop-PCs vor einigen Jahren.

Nvidia befindet sich im Umbruch. Der einstige Marktführer von PC- und Workstation- Grafikkarten sieht sich innerhalb dieses Marktes mit einer immer stärker werdenden Konkurrenz konfrontiert. Vor einigen Jahren sah man sich bei Nvidia schliesslich vor einer wichtigen Entscheidung, denn sowohl AMD als auch Intel begannen x86-Prozessoren mit integrierten Grafikeinheiten herzustellen. Da selbstverständlich auch in diesem Bereich der Halbleiterbranche «Moore’s Law» schier unaufhaltsam voranschreitet, ist anzunehmen, dass diese integrierten Grafiklösungen in wenigen Jahren selbst für diskrete Mid-Range-Grafikkarten eine ernstzunehmende Konkurrenz darstellen werden. Nvidia ist sich dieser Situation bewusst und entschied sich mitunter deshalb, das Augenmerk verstärkt auf den Markt für Tablet-Prozessoren zu lenken. Mit Tegra 2 hatte man auch bereits ein erstes erfolgreiches Produkt im Portfolio. Dabei setzte das Unternehmen auf CPU-Kerne, die man von ARM lizenzierte und baute daraus SoCs (System on a Chip), die vornehmlich in Tablets, weniger aber in Smartphones Verwendung finden. Tegra-2-Prozessoren lässt Nvidia bei TSMC fertigen. Dabei wird der 40-Nanometer- Triple-Gate-Oxide-Prozess (LPG) verwendet. Die Dual-Core-Prozessoren die auf ARMs Cortex-A9-Design basieren, sind auf Performance optimiert, was der Grund dafür ist, dass Taktraten von bis zu einem Gigahertz mit diesen SoCs realisiert werden können. Ein Nachteil von Tegra 2 fand man vor allem bei den Leckströmen. Verglichen mit einem im Low-Power-Prozess hergestellten Prozessor sind die Leckströme um Grössenordnungen höher. So handelt es sich bei Tegra 2 um ein Produkt, das für Smartphones ungeeignet ist, denn diese befinden sich sehr oft im Idle-Modus. Dies ist beispielsweise dann der Fall, wenn das Display gelockt ist und lediglich Hintergrundprozesse ausgeführt werden. Währenddessen benötigt die CPU um bis zu Faktor 100 mehr Strom als beispielsweise ein Konkurrenzprodukt, das in einem anderen, energieoptimierten Prozess hergestellt wurde. Die Marktführer Qualcomm, Texas Instruments und auch Samsung verwenden den sogenannten LP-Prozess (Low Power), anhand desjenigen sich solch energieeffiziente Designs realisieren lassen, wie sie beispielsweise für Smartphones Voraussetzung sind.

Weniger Leckströme

Nvidia stehen nun einige Möglichkeiten offen: Zum einen könnten sie den Ansatz des Tegra 2 weiter verfolgen und dieses Design hinsichtlich geringerer Leckströme verbessern. Etwas radikaler wäre ein Umstieg auf einen Low-Power-Fertigungsprozess gewesen. Letztlich entschied man sich im Falle von Tegra 3 aber für einen wesentlich kreativeren Ansatz. Zum einen bleibt man TSMCs 40LPG-Prozess treu, und zum anderen setzt man neu auf einen aus vier Kernen bestehenden Rechencluster. Der Clou besteht aber darin, dass Tegra 3 noch einen fünften, den sogenannten «Companion Core», beherbergt. Dieser wird im LP-Prozess gefertigt und weist wesentlich weniger Leckströme auf. Im Allgemeinen sind die Leckströme von LPTransistoren zwischen Faktor 10 und Faktor 100 tiefer als bei LPG-Transistoren. Damit lässt sich nun die Idle-Problematik, wie sie sich bei der Anwendung in Smartphones stellt, geschickt umschiffen. Würde man ein mit Tegra 3 bestücktes Smartphone in den Ruhezustand schicken, sodass nur noch die Hintergrundprozesse aktiv sind, dann übernimmt der Companion Core die Arbeit. Die anderen vier Prozessorkerne werden während dieser Zeit komplett deaktiviert und benötigen somit keine Energie. Betrachtet man schliesslich die einzelnen Weiterentwicklungen, die Tegra 3 gegenüber Tegra 2 mit sich bringt, dann findet man beispielsweise den Neon-Support über eine ARM MPE (Media Processing Engine). Um den «Die» von Tegra 2 möglichst kompakt zu halten, verzichtete man bei dieser Version aber auf die Unterstützung der Neon-Instruktionen. Anhand des Neon-Instruction-Sets könnten beispielsweise 3-D- sowie 2-D-Applikationen beschleunigt werden. Ebenfalls würde die Sound-Synthese von diesen Instruktionen profitieren. Im Falle der GPU setzt man gegenüber Tegra 2 ebenfalls auf Evolution und erfand das Rad nicht neu. Kamen bei Tegra 2 noch vier Pixel Shader und vier Vertex Shader zum Einsatz, so sind es bei Tegra 3 nun doppelt so viele Shader-Einheiten, aber immer noch gleich viele Vertex-Prozessoren. Die Gesamtanzahl der Grafikkerne stieg somit auf insgesamt zwölf an.

Cache-Hierarchie und Taktraten

Nimmt man die verschiedenen Cache- Stufen unter die Lupe so sieht man, dass sich an der Grösse des L1- sowie L2-Cache nichts geändert hat. Jedem Kern stehen 32 Kilobyte Level-1-Cache für Instruktionen sowie 32 Kilobyte Level-1-Cache für Daten zur Seite, und alle vier Kerne teilen sich darüber hinaus einen 1 Megabyte grossen L2-Cache. Die Verwendung von doppelt so vielen Kernen, ohne dabei mehr L2-Cache bereitzustellen, könnte problematisch sein. Es scheint aber, dass Nvidia davon ausgeht, dass nur sehr selten Anwendungen alle vier Kerne dazu bewegen, gleichzeitig auf den Cache zuzugreifen. Ferner sollen die Latenzzeiten des L2-Cache um zwei Zyklen schneller sein als bei Tegra 2. Der L1-Cache hingegen wurde in diesem Punkt nicht überarbeitet. Nimmt man sich nun noch den Taktraten von Tegra 3 an, so stellt man fest, dass der SoC im Single-Threaded-Betrieb (lediglich ein Kern wird beansprucht) mit bis zu 1,4 Gigahertz taktet. Bei Tegra 2 lag die maximale Taktrate bei 1,0 Gigahertz. Ist mehr als ein Kern aktiv, dann beträgt die maximale Taktrate von Tegra 3 immer noch 1,3 Gigahertz. Zudem kann nun jeder einzelne Kern deaktiviert werden und verfügt dementsprechend über ein Power Gate, das die automatische Abschaltung kon trolliert. Somit benötigt Tegra 3 lediglich unter Volllast mehr Strom als der Vorgänger. In allen anderen Fällen ist er energieeffizienter. Der fünfte Kern, der ebenfalls auf einem Cortex-A9-Design basiert, wird maximal mit 500 MHz getaktet und, wie bereits erwähnt, in TSMCs LP-Verfahren hergestellt. Befände sich ein hypothetisches Tegra-3-Smartphone beispielsweise gelockt in einer Hosentasche, dann werden die vier weiteren Kerne anhand der Power Gates deaktiviert. So kann schliesslich ein deutlich geringerer Idle-Stromverbrauch realisiert werden.

Der richtige Weg?

Bei Nvidias Ansatz handelt es sich um ein geschicktes Abwägen zwischen Vor- und Nachteilen. Hätte man alle Kerne von Tegra 3 mit TSMCs-40LP-Verfahren hergestellt, dann müsste man deutliche Einbussen bei den Taktfrequenzen hinnehmen. Diese würden im Endeffekt zirka 500 MHz betragen und wären sehr deutlich spürbar. Vor allem aber hätte man sich bezüglich dem Vorgänger sowie auch der Konkurrenz ins Abseits gestellt, was die Performance des SoCs betrifft. Stattdessen entschied man sich mit dem Companion Core für eine kluge und kreative Alternative, die es Nvidia erlaubt Leistung bereitzustellen, wenn diese wirklich benötigt wird und wann immer möglich Strom zu sparen. Sollte sich ein Gerät schliesslich im Idle- Zustand befinden, springt der Companion Core ein und ermöglicht ein wesentlich längeres Fernbleiben von der Steckdose, als es noch bei Tegra 2 der Fall war. Verstärkt auf SoCs zu setzen, scheint seitens Nvidia eine strategisch kluge Entscheidung gewesen zu sein. Hält man sich den Erfolg von Apples iPad vor Augen sowie den generell boomenden Markt für Tablet-PCs, dann macht es durchaus Sinn, auf Nvidia zu setzen. Hinzu kommt, dass Intel und AMD bezüglich Tablet-Prozessoren noch keine erfolgreichen Modelle vorzuweisen haben. Die Adaption von Intels Atom-Prozessoren für den Tablet-Markt ging in die Hose, da man bei der von Tablets geforderten TDP keine leistungsstarken x86-Designs zustande brachte. AMD hat sich bisweilen noch überhaupt nicht an SoCs versucht. Erst unter dem neuen CEO Rory Read scheint sich ein Einstieg AMDs in den SoC-Markt abzuzeichnen. Zurzeit konkurriert Nvidia mit Texas Instruments, Qualcomm und Samsung. Um auch in diesem Falle sicherzustellen, dass man auch noch in einem halben Jahr noch im Markt mitmischt, war es für Nvidia sehr wichtig, dass es sich bei Tegra 3 um ein konkurrenzfähiges Produkt handelt. Bedenkt man nun, dass es noch drei bis sechs Monate dauern wird, bis Texas Instruments mit seinem 28 Nanometer-OMAP5 und Qualcomm mit seinem Snapdragon auf den Markt vordringt, ergibt sich durchaus etwas Handlungsspielraum für Nvidia, um bei den Herstellern mit möglichst vielen Design-Wins Punkte zu sammeln und sich in diesem Markt weiter zu etablieren.

Webcode
V4jD3vap