论文纲要:CUDA步调机动优化本领接洽
为GPU编写高效且可移植的CUDA步调格外搀杂并简单堕落。所以很多接洽试验运用编写翻译优化本领对CUDA步调举行机动优化。然而大普遍之前的工抵制于搀杂的如实步调并不实用,且不许灵验运用GPU的保存和计划资源。 正文提出了一个面向CUDA步调的编写翻译优化框架。该框架囊括两种编写翻译时的机动优化本领,一种是普及数据复用和访存带宽的优化,另一种是缩小冗余训令数的线程粗粒度优化。试验截止表露正文提出的优化编写翻译器不妨精确运用于很多如实的CUDA步调中,并且9个试验例子中有7个优化功效以至高于细工优化的步调。正文与Yi Yang的Gcompiler优化编写翻译器做了比较,截止表露正文的编写翻译器在9个例子中有8个博得邻近或更优的截止。 正文的重要处事和博得的功效如次: 1. 领会已有GPU优化编写翻译器在精确性和本能优化上面的不及,经过范例考证安排缺点的共通点,为之后的安排处事供给引导。 2. 对准之前处事的不及提出编写翻译优化器的安排,个中重要囊括数据复用和线程粗粒度化两上面的优化。要处置的题目囊括三个上面:一是怎样保护优化的精确性,二是怎样暴露可复用的数据,三是怎样决定最好的线程粒度。 3. 从如实的CUDA步调中采用了一组尝试步调,经过对优化前后步调的运转截止和运转功夫举行比较,咱们对优化编写翻译器的精确性和本能举行了考证,并与已有处事的优化本能举行比较。