AFAIR hatte der 860er so ein hemdsärmeliges Pipelining, wo man selbst aufpassen musste, wann man das Ergebnis einer vor 2-3 Takten gestarteten Operation zurückbekommt.
Ist schon in Asm frickelig und dass es brauchbar optimierende Compiler gab, hab ich meine Zweifel.
Bei Larrabee ist es wohl auch wieder so gelaufen, dass Intel HW Architekten eine super weite SIMD ISA gebastelt haben, für die die Compiler Leute einen tollen auto-parallelizer schreiben sollten, der dann nie kam oder eben kaum was gerissen hat.
Matt Pharr hatte mal die Geschichte hinter ISPC gepostet, nachdem er Intel verlassen hat.