Fonderia digitale : Ok, quindi voglio passare a XeSS. Abbiamo una demo che la mostra in azione. È estremamente eccitante, perché siamo stati grandi sostenitori dell’apprendimento automatico e delle applicazioni dell’apprendimento automatico. Ed è assolutamente fantastico vedere un vero concorrente del DLSS entrare nel mercato che potrebbe imbattersi in più hardware, che penso sia la chiave per la sua diffusione. Quindi, la prima cosa che voglio chiederti è qual è stata la spinta per realizzare una tecnica di ricostruzione dell’immagine in generale dal punto di vista di Intel e perché renderla guidata da processi di apprendimento automatico?
E alla fine della giornata, è un duro lavoro – non fraintendetemi – è scienza missilistica e abbiamo alcune delle migliori persone di intelligenza artificiale al mondo che ci lavorano. Ma i risultati parlano da soli, puoi effettivamente ottenere un risultato migliore interpolando o integrando le informazioni su più frame. E poi aggiungere a quelle informazioni che possono essere addestrate in una rete neurale guardando milioni o centinaia di milioni di fotogrammi di altri giochi. È davvero solo una tecnologia spettacolare.
Digital Foundry: Quindi sembra dal modo in cui lo stai descrivendo che ci sia un grande processo di allenamento in background, magari basato su immagini altamente sovracampionate di alcuni giochi. E poi l’inferenza basata sui pesi generati da ciò viene eseguita in tempo reale sulla GPU.
Tom Petersen: Sì, di corso. E abbiamo, ovviamente, molteplici varianti di questa inferenza. Ma la parte interessante è che sono generici, nel senso che non sono addestrati su un titolo specifico. L’inferenza funziona su più giochi, perché alla fine sono tutti molto, molto simili. E penso che sia quasi il migliore del mondo in cui puoi dire, prendi questo motore, addestralo su un mucchio di dati provenienti da giochi diversi e poi usalo su più titoli diversi per ottenere grandi risultati.
Digital Foundry: Ok, parlando delle diverse deduzioni e dei percorsi che hai menzionato lì, la tua presentazione ha menzionato specificamente il percorso XMX e il percorso DP4A. Potresti forse entrare più in dettaglio su quali sono specifici per l’architettura Intel e quali no, così come forse le differenze nelle prestazioni e nella qualità dell’immagine percettiva che ognuno potrebbe avere sull’architettura Intel?
Questo è ciò che Intel deve eguagliare e potenzialmente superare: questo video mostra il brillante RT in Lego Builder’s Journey, quindi approfondisce le ultime innovazioni di Nvidia con DLSS 2.2.
Tom Petersen: Quindi, la verità è che le persone confondono tutte queste tecniche di rendering e le tecniche di post-rendering e le fondono tutte insieme in “le immagini migliorano”. Ma stanno succedendo cose davvero diverse. In generale, c’è qualcosa che penso come upscaling oa volte la gente lo chiama “super risoluzione”. E quello che stai facendo è prendere un’immagine a bassa risoluzione da un singolo fotogramma e la stai facendo esplodere usando più tecniche diverse. E questa è una tecnica ad altissime prestazioni che ti dà un buon risultato in molti casi, ma non ha tutte le informazioni a sua disposizione, non conosce i precedenti fotogrammi renderizzati e non conosce i vettori di movimento. E non conosce davvero la storia di tutti i frame che siano mai stati generati.
Quindi se confronti quella tecnica di upscaling, o upsampling – penso che upscaling sia una parola migliore – se confronti quella tecnologia con ciò che sta accadendo con qualcosa come XeSS, in XeSS, stiamo prendendo più fotogrammi del gioco. E stiamo esaminando i vettori di movimento e stiamo anche esaminando i frame renderizzati precedenti che sono stati addestrati in una rete. Quindi, effettivamente, stiamo esaminando molte più informazioni per generare quel nuovo frame, che ha una caratteristica migliore rispetto all’upscaling tradizionale.
Ora, quando pensi a come esegui l’algoritmo XeSS? I primi di cui abbiamo parlato sono i motori XMX, che sono sistolici, una specie di metodo tradizionale per eseguire inferenze veloci su una GPU. E l’altro metodo è DP4A, che è un altro tipo di forma più semplice che può essere adottata più ampiamente su più architetture diverse. Quindi penso che, sulle piattaforme hardware di Intel che supportano il motore principale, ci aspettiamo di rendere disponibile XeSS su quel dispositivo. Quindi è, è piuttosto bello, giusto? In un certo senso dici che abbiamo più backend che si collegano tutti sotto un’API comune. E questa è, per me, la cosa più importante è che gli ISV cerchino queste API comuni. Quindi possono fare un’integrazione.
E poi sotto quell’integrazione, potresti avere più implementazioni del motore senza che gli ISV debbano rifare -integrare e rivalutare ogni volta, quindi la nostra aspettativa è che sia esattamente ciò che XeSS è: ha un’API standardizzata che potrebbe funzionare anche su più fornitori. E così, parte della strategia chiave di XeSS è essere aperti, diamo il via a queste API. E lasciamo che altre persone li implementino in modo da rendere la vita degli ISV un po’ più semplice. E nel tempo, la speranza è che questo tipo di cose ovviamente si sposti più in alto in API standardizzate intersettoriali, ma tutto ciò richiede tempo. Quindi quello che stiamo pensando è, ehi, facciamo uscire la nostra prima versione, rendiamola fantastica, poi pubblichiamola, rendiamo aperte le API e poi, nel tempo, viene standardizzata.
Il processo TSMC 6nm mette Intel prima di AMD e Nvidia: è più efficiente e denso di transistor, offrendo un potenziale vantaggio in termini di prestazioni. Fonderia Digitale: Quindi, come parte di ciò, imposti il tuo SDK – la tua API – là fuori che alla fine potrebbe gocciolare verso il basso o verso l’alto in qualcosa di più ampiamente standardizzato .. la prima iterazione utilizza effettivamente Microsoft DirectML come parte di esso?
Tom Petersen: No. Ora, c’è una bella domanda a riguardo: perché no? La verità è che abbiamo il nostro linguaggio di programmazione interno che utilizziamo per i kernel ad alte prestazioni che fanno parte dell’implementazione di XeSS. E tutta quella roba in questo momento è molto Intel ‘in cucina’ tipo di kernel fusi super ottimizzati, come belli, sai, quasi come un tizio .. che codifica in assembly dai tempi passati. Posso immaginare come Richard con un minuscolo berretto a sfera che lo fa. Abbiamo un’intera stanza di quelle persone che rendono XeSS semplicemente perfetto. Ecco dove siamo oggi. Ma nel tempo, come diciamo, le API di Microsoft per gli shader si estendono, forse l’intera cosa può semplicemente diventare basata sugli shader, ma non lo è. [Right now] gli shader tradizionali non sono ottimizzati per l’architettura in stile XMX.
Digital Foundry: Sì, solo per il record, ho verificato [of assembly coding] con 6502, ecco quanti anni ho! Immagino che ci sia una domanda più azzeccata dalla tua demo: mostravi 1080p ridimensionati tramite XeSS a 4K. Sosterrai diverse risoluzioni interne?
Tom Petersen: Sì, penso che vedrai che XeSS supporterà più configurazioni diverse. C’è come una modalità di qualità o perfor modalità mance e diverse risoluzioni di input a diverse risoluzioni di output. Non sono sicuro di come sarà la matrice incrociata in questo momento. Ma non c’è bisogno che questo sia solo “uno dentro, uno fuori”.
Digital Foundry: E sul lato SDK di cose, voglio dire, tutte queste funzionalità vivono e muoiono quando vengono effettivamente implementate nei titoli, giusto? Quindi quanto è aperto? Stiamo parlando del codice sorgente su GitHub, o qualcosa di più simile a quello che ha fatto Nvidia con l’SDK DLSS?
Tom Petersen: Allora il modo di pensare è che è sicuramente nell’interesse di tutti avere API ISV aperte. E ciò significa che letteralmente la stessa API, tutti la integrano e sotto di essa, si collegano una sorta di DLL diverse che implementano i motori, in pratica, che implementano le funzionalità. Ci vorrà un po’ di tempo, giusto? Quindi, a breve termine, ciò che probabilmente faremo, e penso che ci sia ancora un po’ di movimento qui, sarà pubblicare le API, pubblicare gli SDK e pubblicare i riferimenti e quindi gli ISV sapranno effettivamente cosa stanno ottenendo. E non c’è davvero niente che mi sembri imbarazzante. nel tempo, ti piacerebbe essere ancora più aperto, dove ci sono queste API che le persone possono collegare al di sotto di esse. E questa è effettivamente la strategia. Ora, molto probabilmente avremo ancora i nostri motori interni che si collegano a queste API. E nel tempo, se saranno aperti o meno, non è chiaro.
Digital Foundry: Ok, c’è anche qui in realtà una sorta di limitazione su quali GPU di altri fornitori lo eseguiranno? Voglio dire, presumo che debba essere coinvolta una sorta di accelerazione dell’apprendimento automatico, giusto?
Tom Petersen: Cioè, questa è davvero una domanda per altri fornitori, giusto? Hai visto queste applicazioni in stile machine learning eseguite su GPU con nessuna, giusto? Non c’è motivo per cui debba avere un hardware particolare. È solo un compromesso tra prestazioni, qualità e complessità.
Digital Foundry: Ecco un pensiero interessante che ho avuto durante la Giornata dell’Architettura , che è essenzialmente che hai silicio per l’apprendimento automatico non solo nella GPU, ma anche nella CPU. Diciamo che possiedo una vecchia scheda GeForce o Radeon e voglio sfruttare XeSS. Posso farlo tramite la CPU?
Tom Petersen: Beh, sai che c’è una GPU integrata sulla maggior parte delle nostre CPU. E quindi, la domanda è, come sarebbe? E sono sicuro che sei consapevole di come funziona l’ibrido per la maggior parte dei notebook in cui c’è un rendering GPU discreto, e poi c’è una copia su una GPU integrata, che oggi non fa altro che fungere da controller di visualizzazione. Ma ora che abbiamo tecnologie davvero fantastiche, potremmo fare qualcosa di interessante sulla GPU? Penso che l’intero spazio l’abbiamo chiamato Deep Link. E cosa succede in termini di Deep Link in questo momento, stiamo ancora imparando così tanto qui. E ci sono così tante opportunità. Oggi sono solo i prodotti Intel che lavorano insieme, ma puoi pensare a Deep Link come, cosa possiamo fare in un ambiente con due GPU o in un ambiente CPU/GPU che è meglio di un altro? Quindi, non voglio rispondere direttamente a questa domanda, ma diciamo solo che ci sono molte opportunità in quello spazio.
Uno sguardo al set-up principale di Alchemist. Il silicio RT e di apprendimento automatico lo rende più simile alla configurazione Turing/Ampere di Nvidia rispetto all’RDNA 2 di AMD.
Digitale Foundry: Da un punto di vista Intel, se sei in grado di affrontare il silicio per l’apprendimento automatico, importa fondamentalmente se è sul CPU o GPU? È un po’ la domanda su cui stavo riflettendo.
Tom Petersen: È la performance, sai, è il rendimento per watt … è il calcolo nel posto giusto per influenzare i pixel che si muovono attraverso la pipeline. Non c’è religione a riguardo. È proprio come, dove ci porta la scienza? Abbiamo una funzione che offrirà vantaggi ai clienti? E se lo facciamo, sì, lo faremo probabilmente. Voglio dire, non ci sarà alcuna esitazione se troviamo una grande tecnologia che renda le nostre CPU un’esperienza migliore di quella di qualcun altro.
Fonderia Digitale: Solo un’altra rapida domanda qui riguardo alla configurazione del ray tracing su questa architettura GPU. Ha un blocco di ray tracing dedicato che accelera più cose. Sembra che sia al di fuori dell’area principale principale, quindi può funzionare contemporaneamente ai normali motori vettoriali o ai motori XMX per aumentare ulteriormente l’utilizzo, la saturazione o solo il parallelismo della GPU che funziona di più allo stesso tempo.
Tom Petersen:
Sfortunatamente, non conosco la risposta. Penso di sì, ma non vorrei ricontrollare su questo. Ok, comunque è un’ottima domanda. Stump l’host!
Digital Foundry: Un sacco di fantastiche tecnologie che sono state rivelate e discusse all’Architecture Day. E ovviamente, alla fine, c’è stato il colpo di luna, Ponte Vecchio. Questa è un’area completamente diversa da quella di cui stiamo parlando in termini di grafica consumer mainstream. Tuttavia, per quanto riguarda i principi, stavi mostrando la scalabilità a livello multi-chip, giusto? Stavi unendo più GPU insieme. E dall’aspetto in termini di come sono collegati, sembrano agire come un insieme coerente. Ora, ovviamente, nello spazio di gioco, il concetto di riunire più GPU e accelerare le prestazioni è morto con SLI, non si adattava alle architetture moderne, alle applicazioni temporali, in particolare. La mia domanda qui è buona per il futuro, la tecnologia in stile Ponte Vecchio potrebbe ridimensionarsi al livello del consumatore?
Tom Petersen: Bene, ripeto, non voglio parlare di prodotti inediti, ma torniamo a Ponte Vecchio. L’obiettivo di Ponte Vecchio è il calcolo, giusto? E il calcolo si ridimensiona molto facilmente, in modo molto naturale. E avere più die di elaborazione su un carico di lavoro gigantesco è solo un processo di ridimensionamento molto semplice. Non c’è una cosa pesante di mappatura del software che deve accadere. È molto simile al modo in cui il problema viene definito con i carichi di super computer. È molto diverso sul consumatore. Immagino che ti darò la mia opinione dall’esterno su ciò che ha reso SLI difficile: è la natura multi frame di SLI, dove stai cercando di dire, AFR [sequence] è la tecnologia usano e l’idea è che rendono un frame in ogni GPU che è temporaneamente separato, e poi li visualizzeranno solo in [sequence]. Questa tecnica non funziona con i titoli moderni, a causa della post-elaborazione e della comunicazione incrociata frame-to-frame.
Quindi, sai, per farlo sui consumatori, avremmo bisogno di una nuova tecnologia, un nuovo modo di partizionare il lavoro su più riquadri. E il grado in cui c’è una comunicazione ad alta larghezza di banda attraverso quel riquadro, puoi ignorare il fatto che sono più riquadri. Come se avessero una larghezza di banda infinita tra le tessere, sembrano solo un grosso pezzo di silicio e non c’è alcun comportamento visibile dal software. Ora, non ci sarà larghezza di banda infinita, quindi ci sarà un qualche tipo di lavoro per fare quel ridimensionamento tra le tessere. Ma penso che questa sia la tendenza. Voglio dire, se guardi solo come funziona il silicio e guardi come funziona il rendimento, avere più die più piccoli nel tempo è probabilmente un’ottima idea – e dovrebbe essere fatto funzionare in qualche modo. Non sarà niente come SLI. SLI è una tecnologia che ha funzionato alla grande con DX9 e DX11. Sarà qualcosa di diverso, credo.
La visione di Datacenter di Intel consiste nel riunire più CPU e GPU in un’unica gigantesca centrale di calcolo: questo approccio a più chip potrebbe applicarsi ai giochi? Abbiamo posto la domanda!
Fonderia Digitale: Questa domanda è un po’ più globale e riguarda essenzialmente le relazioni con gli sviluppatori, perché questo è fondamentale per ottenere buone prestazioni tanto quanto il silicio e il driver… in realtà devi essere lì con lo sviluppatore per aiutarti loro per ottimizzare per architetture specifiche. Qual è la visione di Intel lì? Come stai implementando questo tipo di idea?
Lisa Pearce: Abbiamo avuto un profondo impegno con gli ISV di gioco per molto tempo su Intel, giusto. Ma ora, è a un punto di un impegno ingegneristico molto più profondo. Ed è stato costruito negli ultimi due anni, sappiamo che è la posta in gioco fondamentale per il successo e la grafica consumer ad alte prestazioni. Quindi, sta costruendo sempre più forte [so], fornendo strumenti più capaci, SDK più capaci e portandoli con sé per assicurarci di avere la migliore esperienza possibile per i giochi su Alchemist. E nei prossimi anni, ci aspetteremmo, sai, in definitiva, molto più dell’allineamento del guidatore del giorno zero: messa a punto in anticipo, impegno in anticipo, forse alcune ottimizzazioni uniche che possiamo andare e guidare anche prima che sia nella fase finale per il lancio. Quindi, consideriamo tali relazioni come assolutamente fondamentali per il futuro della grafica discreta.
Digital Foundry: C’è stata anche una spinta ad aumentare funzionalità adiacente al gioco, non specifica per il gioco. Ad esempio, lo streaming. Come stanno andando le cose e quali sono i piani per il futuro?
Lisa Pearce: Sai, in streaming, questo è uno dei casi in cui vediamo davvero Deep Link come una tecnologia interessante per continuare a migliorare. È sempre fantastico quando abbiamo una grafica integrata e discreta sul sistema. L’acquisizione e lo streaming sono uno di questi: i nostri codificatori sono da tempo un punto di forza. Come possiamo assicurarci di sfruttare l’equilibrio tra alte prestazioni, quali livelli di qualità vogliamo… ci saranno molte soluzioni distinte che vogliamo portare lì. E ne vedremo di più con il lancio di Alchemist.
Digital Foundry: Ho una piccola domanda bonus riguardo alla differenza tra la configurazione HPG e HPC, ho notato che l’UE è abbastanza un po’ più largo, come due volte più largo nell’arena HPC. Qual è la decisione progettuale per questo e non usarlo nella configurazione grafica ad alte prestazioni?
Tom Petersen: Bene, è tutto incentrato sul segmento a cui si rivolgono, ovviamente. C’è un certo parallelismo che è più diffuso nei carichi di lavoro in diversi segmenti. E attribuirei la maggior parte della differenza architettonica ai carichi di lavoro per cui le architetture si adattano.
Digital Foundry: Per la mia unica domanda rimasta … tornando all’apprendimento automatico. Insomma, è la nuova frontiera, no? Questo è dove le possibilità sono infinite. Ma, sai, qual è la prossima possibilità? Ovviamente, il super-campionamento è il più grande al momento. Hai qualche idea su dove andranno le cose nell’arena dei giochi?
Tom Petersen: Ho un milione di pensieri ! Ma non voglio parlare di loro Richard! Ma posso dirti un paio di cose, perché, sai, per me è semplice in questo momento. Stiamo lavorando sui pixel post-renderizzati e sui pixel post-rendering, [so] hai lasciato molte informazioni già in precedenza nella pipeline. E quindi la domanda è: questa idea di fondere più informazioni dal retro più profondo o forse anche iniziare a guardare i motori fisici… e che dire di tutti gli altri motori che stanno alimentando il rendering, come la proiezione e l’espansione della geometria? Quindi, ci sono solo molti, molti, molti algoritmi in esecuzione che sono precedenti ai pixel e tutti questi sono candidati per essere inseriti in una sorta di algoritmo generativo, che è davvero l’intelligenza artificiale. L’intelligenza artificiale fa due cose. Uno è l’estrapolazione in cui dice “ci sono informazioni qui, mi trasferirò” avanza in qualche modo ragionevole’. Ma fa anche allucinazioni, dove in un certo senso dici, ho visto cose in passato che sono così. Quindi non sarebbe fantastico se ci fosse un albero qui? Sai, questo è ciò che fa l’intelligenza artificiale e tutte queste cose sono perfette per i giochi. E ci sono molte, molte applicazioni diverse…
Per saperne di più