CN103620553A - 在运行时处绑定可执行代码 - Google Patents
在运行时处绑定可执行代码 Download PDFInfo
- Publication number
- CN103620553A CN103620553A CN201280028424.8A CN201280028424A CN103620553A CN 103620553 A CN103620553 A CN 103620553A CN 201280028424 A CN201280028424 A CN 201280028424A CN 103620553 A CN103620553 A CN 103620553A
- Authority
- CN
- China
- Prior art keywords
- code
- compared
- appointment
- rudimentary
- compiling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44521—Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/44—Encoding
- G06F8/443—Optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45504—Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
- G06F9/45516—Runtime code conversion or optimisation
- G06F9/4552—Involving translation to a different instruction set architecture, e.g. just-in-time translation in a JVM
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44536—Selecting among different versions
- G06F9/44542—Retargetable
Abstract
本发明涉及用于在运行时处绑定可执行代码的方法、系统和计算机程序产品。本发明的实施例包括对代码指定方面的后绑定以改善执行性能。运行时基于运行时信息动态地绑定较低级代码以优化较高级算法的执行。对执行性能有必要(例如,较高)影响的较高级算法的方面可以是后绑定的目标。通过使用对具有必要执行性能影响的方面的后绑定可以用最小的运行时间成本实现改善的性能。
Description
背景
1.背景和相关技术
计算机系统及相关技术影响社会的许多方面。的确,计算机系统处理信息的能力已转变了人们生活和工作的方式。现在,计算机系统通常执行在计算机系统出现以前手动执行的许多任务(例如,文字处理、日程安排、帐目管理等)。最近,计算机系统彼此耦合并耦合到其他电子设备以形成计算机系统及其他电子设备可在其上传输电子数据的有线和无线计算机网络。因此,许多计算任务的执行分布在多个不同的计算机系统和/或多个不同的计算环境中。
一种用于生成可执行代码的机制是编译。在编译时,编译器接收以较高级编程语言编写的算法的源码级描述。编译器的任务在于从源码级描述生成用于目标环境的可执行代码。在运行时处,可执行代码在目标环境中运行。
通常,在编译时仅有与算法输入有关的部分粗略信息可用。由此,编译器无法作出与算法输入的许多方面(诸如,举例而言,输入的大小)有关的任何假设。如此,编译器通常生成能够在运行时处处理所有可能输入的可执行代码。遗憾地是,所编译的可执行代码的生成是以非最优的性能为代价的。例如,在执行期间,一些执行的指令对于指定输入而言可能是冗余的,并且可能消耗比处理特定输入所需的更多的系统资源(诸如存储器和寄存器)。
用于执行代码的另一机制是解释。解释器接收以较高级编程语言编写的算法并且解释该算法以供直接执行。经解释的语言可在某种程度上处理经编译的代码的非最优性能。但是,每次运行都重新解释该算法的影响常常会超过生成更优化代码的好处。
即时(JIT)编译技术包括从编译器输出的中间代码到目标机器可执行代码的运行时转换。作为此运行时转换(或即时编译)的一部分,可以使用各种优化来生成并执行针对执行期间观察到的特定输入的更高效的执行代码。然而,基于JIT的系统在运行时编译全部代码,从而会付出较大的运行时开销或转换。
简要概述
本发明涉及用于在运行时绑定可执行代码的方法、系统和计算机程序产品。本发明的实施例包括供编译器和运行时进行互操作以基于运行时信息来实现改善的代码性能的各种机制。较高级源代码的语句和表达式被访问。检测到较高级源代码包括至少一个指定方面,针对该方面,相应的代表性较低级指令的执行效率基于执行期间接收到的输入数据的配置变化到必要的程度。
所访问的较高级源代码的语句和表达式被编译成较低级代码的代表性较低级指令。编译包括为该至少一个指定方面编译多个不同的代表性较低级指令。多个不同的代表性较低级指令中的每一个被配置成正确地实现该至少一个指定方面的意图。多个不同的代表性较低级指令中的至少一个代表性较低级指令基于接收到的输入数据的不同配置针对执行效率被优化。
较低级指令的执行在运行时处被配置。分析将被提供到较高级源代码的至少一个指定方面的输入数据的配置。确定为执行而基于所提供的输入数据的配置来优化选自多个不同的代表性较低级指令的指定的代表性较低级指令。指定的较低级指令被绑定到可执行代码以实现较高级源代码的至少一个指定方面的意图。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
在随后的描述中阐述,并且部分地将从本说明书中显而易见,或可以通过本发明的实施来获知。本发明的特征和优点可通过在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的这些以及其他特征、优点和特征将根据以下描述和所附权利要求而变得更显而易见,或者可通过如此后阐述的对本发明的实践而获知。
附图简述
为了描述可以获得本发明的上文所列举的及其他优点和特征的方式,将通过参考附图中所示的本发明的各具体实施例来呈现上文简要描述的本发明的更具体的描述。可以理解,这些附图仅描述本发明的典型实施例,从而不被认为是对其范围的限制,本发明将通过使用附图用附加特征和细节来描述和说明,在附图中:
图1A示出了促成在运行时处绑定可执行代码的示例计算机架构。
图1B示出使用较低级代码的多个版本来在运行时处绑定可执行代码。
图1C示出使用抽象接口来在运行时处绑定可执行代码。
图2示出了用于在运行时处绑定可执行代码的示例方法的流程图。
详细描述
本发明涉及用于在运行时绑定可执行代码的方法、系统和计算机程序产品。本发明的实施例包括供编译器和运行时进行互操作以基于运行时信息来实现改善的代码性能的各种机制。较高级源代码的语句和表达式被访问。检测到较高级源代码包括至少一个指定方面,针对该指定方面,相应的代表性较低级指令的执行效率基于执行期间接收到的输入数据的配置变化到必要的程度。
所访问的较高级源代码的语句和表达式被编译成较低级代码的代表性较低级指令。编译包括为该至少一个指定方面编译多个不同的代表性较低级指令。多个不同的代表性较低级指令中的每一个被配置以正确地实现该至少一个指定方面的意图。多个不同的代表性较低级指令中的至少一个代表性较低级指令基于接收到的输入数据的不同配置针对执行效率被优化。
较低级指令的执行在运行时处被配置。分析将被提供到较高级源代码的至少一个指定方面的输入数据的配置。确定为执行而基于所提供的输入数据的配置来优化选自多个不同的代表性较低级指令的指定的代表性较低级指令。指定的较低级指令被绑定到可执行代码以实现较高级源代码的至少一个指定方面的意图。
本发明的各实施例可包括或利用专用或通用计算机,该专用或通用计算机包括诸如举例而言一个或多个处理器和系统存储器的计算机硬件,如以下更详细讨论的。本发明范围内的各实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。承载计算机可执行指令的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种显著不同的计算机可读介质:计算机存储介质(设备)和传输介质。
计算机存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(如基于RAM)、闪存、相变存储器(PCM)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他介质。
“网络”被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链路。上述的组合也应被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(设备)(或反之亦然)。例如,通过网络或数据链接接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如,“NIC”)内的RAM中,然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质(设备)。因而,应当理解,计算机存储介质(设备)可被包括在还利用(甚至主要利用)传输介质的计算机系统组件中。
计算机可执行指令例如包括,当在处理器处执行时使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令例如可以是二进制代码、诸如汇编语言之类的中间格式指令或者甚至是源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。更具体而言,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括具有以下一个或多个的组合:个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统(包括有一个或多个中央处理单元(“CPUs”)以及例如图形处理单元(“GPUs”)或加速器的一个或多个协作处理器的系统)、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备二者中。
本发明的实施例包括对指定代码方面的后绑定以改善执行性能。运行时基于运行时信息动态地绑定较低级代码以优化较高级算法的执行。对执行性能有必要(例如,较高)影响的较高级算法的各方面可以是后绑定的目标。通过对对执行性能有必要影响的各方面使用后绑定可以用最小的运行时间成本实现改善的性能。
可以使用各种各样的动态绑定技术。在一些实施例中,为较高级方面生成可执行代码的多个不同版本。这多个不同版本中的每一个包括正确地实现该较高级方面的较低级代码。为执行而基于与该较高级方面相对应的输入数据的不同配置来优化多个不同版本中的每一个。在运行时,基于接收到的输入数据选择较低级代码的经优化版本。
在其他实施例中,生成用于较高级方面的抽象接口。在运行时处,较高级方面经优化的具体实现是基于接收到的输入数据被绑定至抽象接口的。
多种多样的不同的较高级方面可能对可执行代码性能具有必要影响,包括但不限于:缓冲器混叠和逻辑线程索引映射。本发明的各实施例可用于通过在运行时处基于运行时输入数据绑定可执行代码,来优化这些以及其他较高级方面的执行。
图1示出了促成在运行时处绑定可执行代码的示例计算机架构100。参考图1,计算机架构100包括编译器109和运行时103。所描绘的组件中的每一个通过系统总线(或作为系统总线的一部分)和/或诸如例如局域网(“LAN”)、广域网(“WAN”)以及甚至因特网等网络(或作为网络的一部分)彼此连接。因此,所描绘的组件中的每一个以及任何其他连接的计算机系统和它们的组件都能够创建消息相关数据并通过系统总线和/或网络交换消息相关数据(例如,网际协议(“IP”)数据报和利用IP数据报的其他更高层协议,诸如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)、简单邮件传输协议(“SMTP”)等)。
如所描绘的,编译器109包括代码分析器101(例如,编译器前端)和代码生成器102(例如,编译器后端)。代码分析器101被配置成接收较高级代码(例如,用C++,扩展用于并行环境的C++,Visual Basic等等编写)的语句和表达式。代码分析器101可以分析较高级代码的语句和表达式以标识对代表性较低级指令的性能有必要影响的方面。例如,代码分析器101可确定缓冲器使用(其可被混叠或不被混叠)对性能有必要影响,或确定物理到逻辑线程映射(其可为直接或间接)对性能有必要影响。基于运行时数据输入,表示标识出的方面的经优化的较低级代码可以变化。如此,代码分析器101向代码生成器102指示标识出的任何方面。
代码生成器102被配置成接收较高级代码的语句和表达式以及对代表性较低级指令的性能有必要影响的标识出的方面。代码生成器102可以从语句和表达式以及标识出的方面生成正确地实现必要方面的多个不同的较低级指令(例如,DirectX/高级着色器语言(“HLSL”)字节码)。可以针对接收到的运行时数据的指定配置而优化多个不同的较低级指令中的每一个。例如,当使用缓冲器时,可以针对非混叠的缓冲器访问而优化较低级代码的一个版本,而较低级代码的另一个版本对于在输入/输出缓冲器间实现通用混叠情景而言可以是非最优的。类似地,当使用物理到逻辑线程映射时,可以针对直接映射而优化较低级代码的一个版本,而较低级代码的另一个版本可被提供来处理更通用但效率更低的间接映射情况。
一般而言,运行时103被配置成执行较低级代码来实现较高级代码的语句和表达式的意图。如所描述的,运行时103包括输入分析器104。分析器104被配置成确定要被提供来标识方面的输入数据的配置。输入分析器104可确定为运行时103中的执行而基于输入数据的配置优化指定的较低级指令。例如,可以为混叠或非混叠的缓冲器访问或者直接或间接的物理到逻辑线程映射选择代表性较低级代码。运行时103可以将指定的较低级指令绑定到可执行代码以供在运行时103中执行。
图2示出了用于在运行时处绑定可执行代码的示例方法200的流程图。方法200将参考计算机架构100的组件和数据来描述。
方法200包括访问较高级源代码的语句和表达式的动作(动作201)。例如,代码分析器101可以访问较高级代码111(例如,扩展用于并行环境的C++)的语句和表达式112。方法200包括检测较高级源代码包括至少一个指定方面的动作,针对该指定方面,相应的代表性较低级指令的执行效率基于执行期间接收到的输入数据的配置变化到必要的程度(动作202)。例如,代码分析器101可以检测到代码方面114基于对代码方面114的输入的配置影响代表性较低级指令的执行效率到必要程度。
代码分析器101向代码生成器102指示代码方面114。编译器接收代码方面114的指示。代码生成器102还访问较高级代码111。
方法200包括把所访问的较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令的动作(动作203)。例如,代码生成器102把语句和表达式112编译成较低级代码(例如,DirectX/高级着色器语言(“HLSL”)字节码)的代表性指令。
动作203包括针对至少一个指定方面编译多个不同的代表性较低级指令的动作,多个不同的代表性较低级指令中的每一个被配置成正确地实现该至少一个指定方面的意图,多个不同的代表性较低级指令中的至少一个基于接收到的输入数据的不同配置针对执行效率被进行优化(动作204)。例如,代码生成器102可以把语句表达式112编译成代表性指令122A和122B。代表性指令122A和122B中的每一个被配置成针对不同的输入数据配置正确地实现代码方面114的意图。针对执行效率基于用于代码方面114的不同输入配置来优化代表性指令122A和122B中的每一个。
在一些实施例中,生成较低级指令的一个或多个经优化的版本和更加通用的“一揽子(“catch all”)”版本。针对一特定情形(诸如,举例而言,输入的指定配置)优化一个或多个经优化的版本中的每一个。一揽子版本处理所有其他情况。由此,该一个或多个经优化的版本以及该一揽子版本可以共同地处理来自原始算法的任何可能的情况。方法200包括配置较低级指令在运行时处的执行的动作(动作205)。例如,运行时103配置可执行代码106在运行时处的执行。动作205包括分析将被提供到较高级源代码的至少一个指定方面的输入数据的配置的动作(动作206)。例如,输入分析器104可以分析(将要被提供给代码方面114的)输入数据107。
动作205包括确定为执行而基于所提供的输入数据的配置来优化选自多个不同的代表性较低级指令的指定的代表性较低级指令的动作(动作207)。例如,输入分析器104(或运行时103中的一些其他模块)可以确定代表性指令122B基于输入数据107的配置针对执行被优化。
动作205包括把指定的较低级指令绑定到可执行代码以实现较高级源代码的至少一个指定方面的意图的动作(动作208)。
例如,运行时103可以将代表性代码122B绑定108到可执行代码106以实现代码方面114的意图。
可以用各种方法生成多个不同的代表性较低级指令。在运行时绑定代表性较低级指令也可以改变。转至图1B,图1B示出使用较低级代码的多个版本来在运行时绑定可执行代码。如图1B所描述的,代码生成器102生成包括代表性指令122A的较低级代码121A和包括代表性指令122B的较低级代码121B。在运行时,基于对输入数据107的分析,运行时103可以将较低级代码121B作为可执行代码106来启动109。
使用较低级代码的多个版本的实施例包括从扩展用于并行环境的C++代码生成多个HLSL着色器。例如,在缓冲器堆叠的情况下,代码生成器102可以生成假设在运行时不存在堆叠(且没有针对堆叠优化)的一个着色器版本(例如,代表性指令122A),以及处理缓冲器的堆叠的另一个着色器版本(例如代表性指令122B)。在运行时,运行时103检查到内核的缓冲器参数间的堆叠并且调用合适的着色器版本。
在线程映射的情况下,代码生成器102可以生成假设存在直接线程映射(且针对直接线程映射优化)的一个着色器版本,以及处理间接线程映射的另一个着色器。在运行时,运行时103检查直接/间接的线程映射并且调用合适的着色器版本。
转至图1C,图1C示出使用抽象接口在运行时绑定可执行代码。如图1C所描述的,代码生成器102生成包括抽象接口124的较低级代码121C。代表性指令122A和122B是抽象接口124的具体实现。代表性指令122A和122B可以自先前的编译起就存在或者同抽象接口124一同生成。代表性指令122A和122B表示可动态地链接以在运行时处实现抽象接口124的较低级代码的不同部分。在运行时,运行时103把较低级代码121C作为可执行代码106来启动112。基于对输入数据107的分析,运行时103可以将代表性指令122B绑定到可执行代码106以提供抽象接口124的具体实现。
使用抽象接口的实施例包括DirectX/HLSL定义可以在HLSL代码中使用的抽象接口。把接口绑定到真实代码可以延迟到运行时。例如,在物理到逻辑线程索引映射上下文的情况下,代码生成器102可生成利用抽象接口把物理线程IDs映射到C++逻辑线程IDs的HLSL字节码。基于在运行时处指定的真实计算机域,把抽象接口绑定到直接映射代码(例如,代表性指令122A)或间接映射代码(例如,代表性指令122B)
在缓冲器混叠的情况下,代码生成器102可以生成利用抽象接口在运行时处理缓冲器的HLSL字节码。抽象接口基于是否在运行时检测到内核的缓冲器参数间的混叠而被绑定到使用经混叠的缓冲器的代码或使用非混叠的缓冲器的代码。
进一步的实施例包括针对用户代码中存在的依赖于硬件的特征生成多个着色器。一个着色器可以利用硬件特征而另一个着色器可以使用较低效率的后退实现。在运行时,基于在运行时处确定的目标处理器的硬件能力选择合适的着色器以供执行。
附加实施例包括生成多个着色器,每个着色器改变对代码生成的优化选择,并相应地改变资源要求。在运行时处,可以基于目标硬件上的资源可用性选择合适的着色器以供执行。当硬件资源(诸如举例而言寄存器的数目)跨硬件变化时,这些附加的实施例可以是有用的。
还可以生成着色器的多个版本以处理不同的运行时配置,诸如举例而言,执行硬件的能力。例如,实施例包括为不同的目标处理器生成多个着色器(可执行代码的版本)。在运行时处,基于为运行选择的目标处理器来选择合适的着色器以供执行。
用于处理不同运行时配置的其他实施例包括生成多个着色器,这些着色器中的一些包括以较慢的执行为代价来辅助剖析/调试的工具植入代码(instrumentation code)。这为运行工具植入的代码或非工具植入的代码提供了运行时选择,而无需重新编译。在运行时处,可以基于是否选择剖析/调试来选择合适的着色器。
抽象接口可以与多个代码版本结合使用。一些输入接着由不同的接口实现来服务,而其他输入由不采用接口或采用不同接口的完全不同的代码版本来服务。
本发明可具体化为其他具体形式而不背离其精神或本质特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变应被权利要求书的范围所涵盖。
Claims (15)
1.一种在计算机系统处用于在运行时处绑定代码以改善性能的方法,所述计算机系统包括处理器和系统存储器,所述计算机系统还包括编译器和运行时,所述编译器被配置成把较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令,所述运行时被配置成执行可执行代码,所述方法包括:
访问较高级源代码的语句和表达式的动作;
检测到较高级源代码包括至少一个指定方面的动作,针对所述指定方面,相应的代表性较低级指令的执行效率基于执行期间接收到的输入数据的配置变化到必要的程度;
把所访问的较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令的动作,包括:
针对所述至少一个指定方面编译多个不同的代表性较低级指令的动作,所述多个不同的代表性较低级指令中的每一个被配置成正确地实现所述至少一个指定方面的意图,所述多个不同的代表性较低级指令中的至少一个基于接收到的输入数据的不同配置针对执行效率被进行优化;
配置所述较低级指令在运行时的执行的动作,包括:
分析将被提供到所述较高级源代码的所述至少一个指定方面的输入数据的配置的动作;
确定为执行而基于所提供的输入数据的配置来优化选自多个不同的代表性较低级指令的指定的代表性较低级指令的动作;以及
把所述指定的较低级指令绑定到可执行代码以实现所述较高级源代码的所述至少一个指定方面的意图的动作。
2.如权利要求1所述的方法,其特征在于,针对所述至少一个指定方面编译多个不同的代表性较低级指令的动作包括:
编译代表性较低级指令的一个版本的动作,为了在运行时处与不使用缓冲器混叠的输入数据一起使用而优化所述代表性较低级指令的一个版本;以及
编译代表性较低级指令的另一个版本的动作,所述代表性较低级指令的另一个版本用于在运行时处与使用缓冲器混叠的输入数据一起使用。
3.如权利要求2所述的方法,其特征在于,其中分析将被提供到所述较高级源代码的所述至少一个指定方面的输入数据的配置的动作包括确定所述输入数据不使用缓冲器混叠的动作;并且
其中把所述指定的较低级指令绑定到可执行代码以实现所述较高级源代码的所述至少一个指定方面的意图的动作包括在运行时处把所述代表性较低级指令的一个版本绑定到可执行代码的动作。
4.如权利要求1所述的方法,其特征在于,其中针对所述至少一个指定方面编译多个不同的代表性较低级指令的动作包括:
编译抽象接口以表示所述至少一个指定方面的动作;以及
编译可在运行时处动态地链接到所述抽象接口的较低级代码的多个不同部分的动作。
5.如权利要求4所述的方法,其特征在于,其中编译抽象接口以表示所述至少一个指定方面的动作包括编译物理到逻辑线程ID映射接口的动作;以及
其中编译可在运行时处动态地链接到所述抽象接口的较低级代码的多个不同部分的动作包括:
为直接的物理到逻辑线程ID映射编译较低级代码的一部分的动作;以及
为更通用的间接的物理到逻辑线程ID映射编译较低级代码的另一部分的动作。
6.一种供在计算机系统处使用的计算机程序产品,所述计算系统包括编译器和运行时,所述编译器被配置把较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令,所述运行时被配置执行可执行代码,所述计算机程序产品用于一种用于在运行时处绑定代码以改善性能的方法,所述计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机存储设备,所述指令在由处理器执行时,使得所述计算机系统执行所述方法,所述方法包括以下:
访问较高级源代码的语句和表达式;
检测到所述较高级源代码包括至少一个指定方面,针对所述指定方面,相应的代表性较低级指令的执行效率基于执行期间接收到的输入数据的配置变化到必要的程度;
把所访问的较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令,包括:
针对至少一个指定方面编译多个不同的代表性较低级指令,所述多个不同的代表性较低级指令中的每一个被配置成正确地实现所述至少一个指定方面的意图,所述多个不同的代表性较低级指令中的每一个基于接收到的输入数据的不同配置针对执行效率被进行优化;
配置所述较低级指令在运行时的执行,包括:
分析将被提供到所述较高级源代码的所述至少一个指定方面的输入数据的配置;
确定为执行而基于所提供的输入数据的配置来优化选自所述多个不同的代表性较低级指令的指定的代表性较低级指令;以及
把所述指定的较低级指令绑定到可执行代码以实现所述较高级源代码的所述至少一个指定方面的意图。
7.如权利要求6所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统把所访问的较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令的计算机可执行指令包括在执行时使得所述计算机系统把C++代码编译成高级着色器语言(“HLSL”)字节码的计算机可执行指令,所述C++代码包括用于并行环境的扩展。
8.如权利要求7所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统针对所述至少一个指定方面编译多个不同的代表性较低级指令的计算机可执行指令包括在执行时使得所述计算机系统编译用于所述C++代码的着色器的多个不同版本的计算机可执行指令,针对输入数据的特定配置优化所述着色器的多个不同版本中的至少一个。
9.如权利要求6所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统针对所述至少一个指定方面编译多个不同的代表性较低级指令的计算机可执行指令包括在执行时使得所述计算机系统执行以下动作的计算机可执行指令:
编译代表性较低级指令的一个版本,为了在运行时处与不使用缓冲器混叠的输入数据一起使用而优化所述代表性较低级指令的一个版本;以及
编译代表性较低级指令的另一个版本,所述代表性较低级指令的另一个版本用于在运行时处与使用缓冲器混叠的输入数据一起使用。
10.如权利要求9所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统分析将被提供到所述较高级源代码的所述至少一个指定方面的输入数据的配置的计算机可执行指令包括在执行时使得所述计算机系统确定所述输入数据不使用缓冲器混叠的计算机可执行指令;以及
其中在执行时使得所述计算机系统把所述指定的较低级指令绑定到可执行代码以实现所述较高级源代码的所述至少一个指定方面的意图的计算机可执行指令包括在执行时使得所述计算机系统在运行时处把所述代表性较低级指令的一个版本绑定到可执行代码的计算机可执行指令。
11.如权利要求9所述的计算机程序产品,其特征在于,其中所述代表性较低级指令的一个版本和所述代表性较低级指令的另一个版本二者均是高级着色器语言(“HLSL”)着色器。
12.如权利要求6所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统针对所述至少一个指定方面编译多个不同的代表性较低级指令的计算机可执行指令包括在执行时使得所述计算机系统执行以下动作的计算机可执行指令:
编译抽象接口以表示所述至少一个指定方面;以及
编译可在运行时处动态地链接到所述抽象接口的较低级代码的多个不同部分。
13.如权利要求12所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统编译抽象接口以表示所述至少一个指定方面的计算机可执行指令包括在执行时使得所述计算机系统编译物理到逻辑线程ID映射接口的计算机可执行指令;以及
其中在执行时使得所述计算机系统编译可在运行时处动态地链接到所述抽象接口的较低级代码的多个不同部分的计算机可执行指令包括在执行时使得所述计算机系统执行以下动作的计算机可执行指令:
为直接的物理到逻辑线程ID映射编译较低级代码的一部分;以及
为更通用的间接的物理到逻辑线程ID映射编译较低级代码的另一部分。
14.如权利要求12所述的计算机程序产品,其特征在于,其中在执行时使得所述计算机系统分析将被提供到所述较高级源代码的所述至少一个指定方面的输入数据的配置的计算机可执行指令包括在执行时使得所述计算机系统确定输入数据使用直接的物理到逻辑线程ID映射的计算机可执行指令;以及
其中在执行时使得所述计算机系统把指定的较低级指令绑定到可执行代码以实现所述较高级源代码的所述至少一个方面的意图的计算机可执行指令包括在执行时使得所述计算机系统在运行时处把较低级代码的一部分动态链接到物理到逻辑线程ID映射接口的计算机可执行指令。
15.一种计算机系统,所述计算机系统包括:
一个或多个处理器;
系统存储器;以及
一个或多个计算机存储设备,所述一个或多个计算机存储设备具有存储在其上的表示代码分析器、编译器和运行时的计算机可执行指令,其中所述代码分析器被配置为:
访问较高级源代码的语句和表达式;
检测到所述较高级源代码包括至少一个指定方面,所述指定方面在运行期间基于运行时配置变化到必要的程度;以及
向编译器指示所标识的至少一个方面;
其中所述编译器被配置为:
接收所标识的至少一个方面的指示;
访问较高级代码的语句和表达式;以及
把所访问的较高级源代码的语句和表达式编译成较低级代码的代表性较低级指令,包括:
针对所述至少一个指定方面编译多个不同的代表性较低级指令,所述多个不同的代表性较低级指令中的每一个被配置成正确地实现所述至少一个指定方面的意图,所述多个不同的代表性较低级指令中的每一个被配置用于在不同的运行时配置上执行;以及
其中所述运行时被配置为:
分析将在执行期间使用的运行时配置;
确定选自多个不同的代表性较低级指令的指定的代表性较低级指令被配置用于基于所提供的运行时配置来执行;以及
把所述指定的较低级指令绑定到可执行代码以实现所述较高级源代码的所述至少一个指定方面的意图。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/158,226 US8468507B2 (en) | 2011-06-10 | 2011-06-10 | Binding executable code at runtime |
US13/158,226 | 2011-06-10 | ||
PCT/US2012/039884 WO2012170236A2 (en) | 2011-06-10 | 2012-05-29 | Binding executable code at runtime |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103620553A true CN103620553A (zh) | 2014-03-05 |
CN103620553B CN103620553B (zh) | 2016-10-12 |
Family
ID=47294254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280028424.8A Active CN103620553B (zh) | 2011-06-10 | 2012-05-29 | 在运行时处绑定可执行代码 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8468507B2 (zh) |
EP (1) | EP2718808B1 (zh) |
CN (1) | CN103620553B (zh) |
WO (1) | WO2012170236A2 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8782627B2 (en) * | 2007-11-29 | 2014-07-15 | Microsoft Corporation | Path specializations for runtime code with phase behavior |
US8990515B2 (en) | 2011-06-14 | 2015-03-24 | Microsoft Technology Licensing, Llc | Aliasing buffers |
US8752018B2 (en) * | 2011-06-21 | 2014-06-10 | Nvidia Corporation | Emitting coherent output from multiple threads for printf |
WO2014011163A1 (en) * | 2012-07-11 | 2014-01-16 | Empire Technology Development Llc | Network congestion reduction |
US9710245B2 (en) | 2014-04-04 | 2017-07-18 | Qualcomm Incorporated | Memory reference metadata for compiler optimization |
US9733978B2 (en) | 2015-08-27 | 2017-08-15 | Qualcomm Incorporated | Data management for multiple processing units using data transfer costs |
US9778961B2 (en) | 2015-09-14 | 2017-10-03 | Qualcomm Incorporated | Efficient scheduling of multi-versioned tasks |
US10360063B2 (en) | 2015-09-23 | 2019-07-23 | Qualcomm Incorporated | Proactive resource management for parallel work-stealing processing systems |
US10303493B2 (en) | 2016-11-04 | 2019-05-28 | International Business Machines Corporation | Performance acceleration in mixed-language applications |
US10417731B2 (en) | 2017-04-24 | 2019-09-17 | Intel Corporation | Compute optimization mechanism for deep neural networks |
US10417734B2 (en) * | 2017-04-24 | 2019-09-17 | Intel Corporation | Compute optimization mechanism for deep neural networks |
EP3567600B8 (en) * | 2018-05-08 | 2024-02-21 | Siemens Healthineers AG | Improving a runtime environment for imaging applications on a medical device |
US10635439B2 (en) * | 2018-06-13 | 2020-04-28 | Samsung Electronics Co., Ltd. | Efficient interface and transport mechanism for binding bindless shader programs to run-time specified graphics pipeline configurations and objects |
US11442712B2 (en) * | 2020-06-11 | 2022-09-13 | Indian Institute Of Technology Delhi | Leveraging unspecified order of evaluation for compiler-based program optimization |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1823323A (zh) * | 2003-07-15 | 2006-08-23 | 可递有限公司 | 用于执行本机绑定的方法和装置 |
US20080276262A1 (en) * | 2007-05-03 | 2008-11-06 | Aaftab Munshi | Parallel runtime execution on multiple processors |
US20090328013A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Componentization of compiler functionality |
US20100299660A1 (en) * | 2009-05-21 | 2010-11-25 | Microsoft Corporation | Dynamic binding directed by static types |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5339419A (en) * | 1990-06-25 | 1994-08-16 | Hewlett-Packard Company | ANDF compiler using the HPcode-plus compiler intermediate language |
US5339430A (en) | 1992-07-01 | 1994-08-16 | Telefonaktiebolaget L M Ericsson | System for dynamic run-time binding of software modules in a computer system |
US6748587B1 (en) * | 1998-01-02 | 2004-06-08 | Hewlett-Packard Development Company, L.P. | Programmatic access to the widest mode floating-point arithmetic supported by a processor |
US6665865B1 (en) | 2000-04-27 | 2003-12-16 | Microsoft Corporation | Equivalence class based synchronization optimization |
US7493607B2 (en) * | 2002-07-09 | 2009-02-17 | Bluerisc Inc. | Statically speculative compilation and execution |
US6961840B2 (en) | 2002-09-30 | 2005-11-01 | International Business Machines Corporation | Method and apparatus for managing a dynamic alias page table |
US7543284B2 (en) * | 2003-04-22 | 2009-06-02 | Transitive Limited | Partial dead code elimination optimizations for program code conversion |
US7536682B2 (en) * | 2003-04-22 | 2009-05-19 | International Business Machines Corporation | Method and apparatus for performing interpreter optimizations during program code conversion |
US7463259B1 (en) | 2003-12-18 | 2008-12-09 | Nvidia Corporation | Subshader mechanism for programming language |
GB2424092A (en) * | 2005-03-11 | 2006-09-13 | Transitive Ltd | Switching between code translation and execution using a trampoline |
US7447869B2 (en) | 2005-04-07 | 2008-11-04 | Ati Technologies, Inc. | Method and apparatus for fragment processing in a virtual memory system |
US8037281B2 (en) | 2005-04-07 | 2011-10-11 | Advanced Micro Devices, Inc. | Miss-under-miss processing and cache flushing |
GB2426840A (en) * | 2005-06-04 | 2006-12-06 | Transitive Ltd | Method of executing program code where a portion of the target code calls a native code portion which then calls a second target code portion. |
GB2427045B (en) * | 2005-06-06 | 2007-11-21 | Transitive Ltd | Method and apparatus for converting program code with access coordination for a shared resource |
US8276164B2 (en) | 2007-05-03 | 2012-09-25 | Apple Inc. | Data parallel computing on multiple processors |
US20090024986A1 (en) | 2007-07-19 | 2009-01-22 | Microsoft Corporation | Runtime code modification |
US20090070753A1 (en) | 2007-09-07 | 2009-03-12 | International Business Machines Corporation | Increase the coverage of profiling feedback with data flow analysis |
US8736617B2 (en) | 2008-08-04 | 2014-05-27 | Nvidia Corporation | Hybrid graphic display |
US8245210B2 (en) * | 2009-05-22 | 2012-08-14 | Microsoft Corporation | Compile-time context for dynamically bound operations |
US8990515B2 (en) | 2011-06-14 | 2015-03-24 | Microsoft Technology Licensing, Llc | Aliasing buffers |
-
2011
- 2011-06-10 US US13/158,226 patent/US8468507B2/en active Active
-
2012
- 2012-05-29 CN CN201280028424.8A patent/CN103620553B/zh active Active
- 2012-05-29 WO PCT/US2012/039884 patent/WO2012170236A2/en unknown
- 2012-05-29 EP EP12796911.1A patent/EP2718808B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1823323A (zh) * | 2003-07-15 | 2006-08-23 | 可递有限公司 | 用于执行本机绑定的方法和装置 |
US20080276262A1 (en) * | 2007-05-03 | 2008-11-06 | Aaftab Munshi | Parallel runtime execution on multiple processors |
US20090328013A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Componentization of compiler functionality |
US20100299660A1 (en) * | 2009-05-21 | 2010-11-25 | Microsoft Corporation | Dynamic binding directed by static types |
Non-Patent Citations (1)
Title |
---|
MATTHEW ARNOLD等: "A Survey of Adaptive Optimization in Virtual Machines", 《PROCEEDINGS OF THE IEEE》, vol. 93, no. 2, 1 February 2005 (2005-02-01), pages 449 - 466 * |
Also Published As
Publication number | Publication date |
---|---|
WO2012170236A2 (en) | 2012-12-13 |
CN103620553B (zh) | 2016-10-12 |
WO2012170236A3 (en) | 2013-01-31 |
EP2718808A4 (en) | 2015-04-29 |
US8468507B2 (en) | 2013-06-18 |
EP2718808B1 (en) | 2020-06-10 |
EP2718808A2 (en) | 2014-04-16 |
US20120317558A1 (en) | 2012-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103620553A (zh) | 在运行时处绑定可执行代码 | |
CN102637136A (zh) | 融合来自不同编译器阶段的调试信息 | |
US11941400B2 (en) | Methods and apparatus for intentional programming for heterogeneous systems | |
Mey et al. | Score-P: A unified performance measurement system for petascale applications | |
CN102609243B (zh) | 仿真指针 | |
US20190317880A1 (en) | Methods and apparatus to improve runtime performance of software executing on a heterogeneous system | |
US10908884B2 (en) | Methods and apparatus for runtime multi-scheduling of software executing on a heterogeneous system | |
CN110770698B (zh) | 用于动态代码优化的差异静态分析 | |
CN103069385A (zh) | 动态加载基于图的计算 | |
US20130283250A1 (en) | Thread Specific Compiler Generated Customization of Runtime Support for Application Programming Interfaces | |
CN102165428A (zh) | 软件应用性能增强 | |
EP3779675A1 (en) | Methods, systems, and apparatus for a generic firmware-based kernel library mechanism | |
Jȩdrzejowicz et al. | Jade-based A-team environment | |
WO2003001372A2 (en) | Customization of java runtime environments | |
CN102004662A (zh) | 嵌入式可裁剪式虚拟机 | |
CN103620554A (zh) | 别名化缓冲区 | |
CN110333867A (zh) | 一种多方安全计算数据处理方法、装置及系统 | |
Zhao et al. | HIPLZ: Enabling performance portability for exascale systems | |
CN100456238C (zh) | 实现分布式对象持久化的方法、装置及编译单元 | |
Diaconescu et al. | A compiler and runtime infrastructure for automatic program distribution | |
CN102289364A (zh) | 实现具有串行语义的并行循环 | |
Lifflander et al. | Design and implementation techniques for an MPI-oriented AMT runtime | |
Bosse et al. | Virtualization of Tiny Embedded Systems with a robust real-time capable and extensible Stack Virtual Machine REXAVM supporting Material-integrated Intelligent Systems and Tiny Machine Learning | |
Wu et al. | Acceleration targets: A study of popular benchmark suites | |
Kessler et al. | Optimized Composition: Generating Efficient Code for Heterogeneous Systems from Multi-Variant Components, Skeletons and Containers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150727 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150727 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |