CN101366004A

CN101366004A - 用于带有专用线程管理的多核处理的方法和设备

Info

Publication number: CN101366004A
Application number: CNA2006800460456A
Authority: CN
Inventors: A·S·库兰德
Original assignee: Boston Circuits Inc
Current assignee: Boston Circuits Inc
Priority date: 2005-12-06
Filing date: 2006-12-06
Publication date: 2009-02-11
Also published as: EP1963963A2; JP2009519513A; WO2007067562A3; US20070150895A1; WO2007067562A2

Abstract

在具有通过片上网络相互连接的处理单元、接口块、以及功能块的CMP上实现专用线程管理的方法和设备。在各种实施例中，线程管理在带外实现以允许快速、低延迟的线程切换，而不会产生与基于软件的线程管理线程相关的开销。

Description

用于带有专用线程管理的多核处理的方法和设备

相关申请的交叉引用

[0001]本申请要求共同未决的申请号为60/742,674，于2005年12月6日递交的美国临时申请的权益，该申请公开的全部内容通过引用包含在本申请中，如同在申请中全部公开一样。

技术领域

[0002]本发明涉及到通过多个处理器核执行计算机指令的方法和设备，特别涉及到使用专用线程管理以通过多个处理器核执行计算机指令。

背景技术

[0003]对各种应用(如多媒体、网络连接、以及高性能计算)的计算需求在复杂性和要处理的数据的量上都有所增加。与此同时，仅仅通过增加时钟速度来提高微处理器性能变得日益困难，这是因为相对于能耗以及所需的散热的增加，在性能改进方面其工艺技术上的改进现在已经达到了回报正日益减小的点。考虑到这些限制，并行处理开始成为在改进微处理器性能上的一种有希望的选择。

[0004]线程级并行(Thread-level parallelism，TLP)是一种并行处理技术，在该技术中，程序线程并发运行，提高了应用的整体性能。从广义上而言，存在两种形式的TLP：并发多线程(SMT)，以及片上多处理器(CMP)。

[0005]SMT在一个处理单元上复制寄存器和程序计数器，使得多个线程的状态能被一次存储。在一个SMT处理器中，这些线程每次被部分执行，处理器在线程间快速地切换执行，提供了执行的虚拟并发。这种能力的获得以增加处理单元的复杂性、以及所复制的寄存器和计数器所需要的额外硬件为代价。此外，并发仍然是“虚拟的”——虽然该方法提供了快速的线程切换，但它并没有克服在任意给定的时间内只有一个线程被实际执行这一最基本的局限。

[0006]CMP包括至少两个处理单元，每个处理单元执行其自己的线程。与SMT处理器相比，CMP提供了真正的并发，但它的性能会潜在地受到当一个在指定处理单元上运行的线程需要切换时所产生的延迟的影响。这些现有技术CMP的基本问题是线程管理任务在CMP自身的一个或多个处理单元上以软件的方式执行，在很多情况下，要访问芯片外存储器以存储线程管理所必需的数据结构。这一机制减少了处理单元的数量以及线程执行所用到的存储器带宽。另外，由于线程管理任务本身是所要执行线程中的一个，因此在管理处理单元分配、调度线程的执行以及实时同步目标方面其能力受到制约。

[0007]最近，SMT和CMP在混合实现中被结合在一起，其中的多个SMT处理器被集成到一个芯片上。其结果是在线程处理中有大量的虚拟和实际的并行，但目前的混合实现并没有解决由带内(in-band)线程管理所带来的问题。

[0008]因此，需要一种通过将专用线程管理单元集成到多核处理器以克服现有技术的缺陷，从而提供改进的微处理器性能的方法和设备。

发明内容

[0009]本发明通过将专用线程管理集成到CMP克服了现有的SMT处理器和CMP的缺点，该CMP具有通过片上网络互相连接的处理单元、接口块、功能块。在这种体系结构中，带外发生的线程管理允许快速、低延迟的线程切换，而不产生与基于软件的线程管理线程相关的开销。

[0010]在一个方面，本发明提供了一种在一个具有多个处理器核的设备中实现多核虚拟的方法。至少一个调度指令与一个用于执行的指令被接收。响应所述的至少一个调度指令，所述的至少一个用于执行的指令被分配到一个处理器核去执行。在一个实施例中，分配该指令可以在带外进行。分配该至少一个指令可以包括从多个处理器核选择一个处理器核以执行该指令，以及分配该用于执行的指令到所选择的处理器核。该处理器核可以被选择，例如，从多个同质的处理器核中选择。处理器核的功率状态可以可选择地被改变。

[0011]在另一个实施例中，分配该指令包括识别与所要执行的指令相关的线程，以及分配所要执行的指令到与所识别的线程相关的处理器核。在又一个实施例中，分配该指令包括从多个处理器核中根据功率因素和热量分配因素中的至少一个选择用于执行的处理器核，以及分配至少一个用于执行的指令到所选择的处理器核。在再一个实施例中，分配该指令包括从多个处理器核中根据所存储的处理器状态信息选择用于执行的处理器核，以及分配至少一个用于执行的指令到所选择的处理器核。

[0012]在一个实施例中，接收至少一个用于执行的指令包括接收多个用于执行的线程，每个线程包括至少一个用于执行的指令，从所接收的多个用于执行的线程中选择一个，以及从所选择的线程接收至少一个用于执行的指令。

[0013]在各种实施例中，该方法可以包括多个可选择的步骤。该方法还可以包括从处理器核接收标志其已经执行了所分配的至少一个指令的消息。线程状态和信息或处理器核的状态可以被存储。在一个处理器核执行第一所分配的指令后，如果检测到线程间的依赖性，所执行的指令在第二所分配的指令执行后可以被再次分配，使得第一所分配的指令可以没有线程间依赖性地被再次执行。

[0014]在另一个方面，本发明提供了具有多个处理器核以及线程管理单元的设备，该设备接收用于执行的指令和调度指令，并分配用于执行的指令到处理器核以响应该调度指令。多个处理器核可以是同质的，并且线程管理单元可以只以硬件或以硬件和软件相结合的方式实现。可以以不同的速度运行的多个处理器核可以在一个网络中互相连接，或通过网络连接，该网络可以是光学的。该设备还可以包括至少一个外围设备。

[0015]线程管理单元可以包括一个或多个状态机，微处理器，以及专用存储器。该微处理器可以被专用于调度、线程管理、以及资源分配中的一个或多个。线程管理单元可以被专用于存储线程和资源信息。

[0016]在又一个方面，本发明提供了一种编译软件程序的方法。可编译的源代码语句被接收，以及与可编译源代码语句相应的机器可读目标代码语句被创建。增加机器可读目标代码语句，以通知线程管理单元分配所创建的机器可读目标代码语句到处理器核。

[0017]该方法还可以包括重复创建机器可读目标代码语句，从而提供多个所创建的机器可读目标代码语句以及所述多个语句的组合到多个线程中，每对线程通过边界相分离。在这个实施例中，所述增加用于通知线程管理单元的语句包括于线程间边界增加用于通知线程管理单元的机器可读目标代码语句。在又一个实施例中，所述增加用于通知线程管理单元的语句包括增加用于响应可编译源代码语句通知线程管理单元的机器可读目标代码语句，该可编译源代码语句标志了线程间的边界。

[0018]通过下面的描述、附图以及权利要求，本发明的前述以及其它特征和优点将会更为明显。

附图说明

[0019]本发明的优点通过参考以下附图并结合以下相应说明可以被更好地理解：

[0020]图1为在一个多核环境中提供了专用线程管理的本发明的一个实施例的框图；

[0021]图2为根据本发明在一个具有多个处理器核的设备中提供多核虚拟化方法的流程图；

[0022]图3为线程管理单元的一个实施例的框图；以及

[0023]图4为用于编译本发明的实施例中所采用的软件程序的方法的流程图。

[0024]在这些图中，相同的引用标记一般是指从不同角度所涉及的相同部分。这些图并不是必要地按比例画出，其重点应放在本发明的原则和概念上。

具体实施方式

[0025]本发明的实施例通过将专用线程管理集成到CMP克服了当前的多核技术的缺陷，该CMP具有互相连接的处理单元、接口块、功能块。可以只以硬件或以硬件和软件的结合实现线程管理，从而在无需基于软件的线程管理线程的开销下允许线程切换。

[0026]本发明的硬件实施例并不需要SMT方法中的复制的寄存器和程序计数器，使得它比SMT更简单而且更便宜，尽管在本发明的方法和设备中结合使用SMT能够带来额外的益处。使用片上网络以连接系统块，包括管理单元本身，提供了一种空间有效且可缩放的连接，该连接允许使用大量的处理单元和功能块，同时为功率消耗管理提供灵活性。该线程管理单元与功能块进行通信，管理处理单元，并在系统中进行资源分配、线程调度、以及目标同步。

[0027]本发明的实施例通过结合片上网络体系结构以一种成本有效的方式改进了线程级并行性，该体系结构将大量的处理单元集成到具有专用线程管理单元的单个集成电路中，该专用线程管理单元在带外运行，也就是，独立于任意的特定处理单元。在一个实施例中，线程管理单元完全以硬件实现，通常是带有其自己的专用存储器和具有到其它功能块的全局通路。在其他实施例中，线程管理单元可以被基本上或部分地以硬件实现。

[0028]在处理单元的片上网络中使用专用线程管理单元消除了现有SMT和CMP方法的固有开销，其中的线程管理由软件线程本身实现，导致了性能的全面改进。本发明的实施例认识到通过实现线程管理的全局性，而不是对特定处理单元的局部性，可以比现有的SMT方法在执行上有更多的并行性。线程管理的全局化也提供了更好的资源分配、更高的处理器利用率、以及全局的功率管理。

体系结构

[0029]参考图1，本发明的一个典型实施例包括至少两个处理单元100、线程管理单元104、片上网络互连108，以及一些可选择的组件，例如包括功能块112，这些功能块可以例如是外部接口，其具有网络接口单元(未明确显示)，例如是具有网络接口单元(同样没有明确显示)的外部存储器接口116。

[0030]每个处理单元100包括，例如，微处理器核、数据和指令高速缓存、以及网络接口单元。正如图2中的描述，线程管理单元104的实施例典型地包括微处理器核或状态机200、专用存储器204，以及网络接口单元208。网络互连108典型地包括至少一个路由器120以及连接路由器120到处理单元100的网络接口单元或网络上的其它功能块112的信号线。

[0031]任意节点，如处理器100或功能块112，采用片上网络结构108，能够与任意的其它节点通信。这一体系结构允许在一个芯片上存在大量的节点，例如图1所示的实施例具有16个处理单元100。每个处理单元100具有带有局部缓冲高速存储器和网络接口单元的微处理器核。大量的处理单元提供了更高水平的并行计算性能。通过片上网络体系108与带外的、专用线程管理单元104的结合允许在一个集成电路上实现大量的处理单元。

[0032]在一个典型的实施例中，节点间的通信通过网络108以将消息作为数据包发送的形式发生，其中包括命令、数据、或命令和数据的组合。

线程管理单元

[0033]在运行中，当处理器被初始化时，线程管理单元开始执行，并分配其中的一个处理单元从存储器获取程序指令并执行。例如，参考图3，线程管理单元在响应至少一个调度指令以分配用于执行的程序指令(步骤308)前，可以接收至少一个所述调度指令(步骤300)和至少一个程序指令(步骤304)。

[0034]如果，当执行所分配的指令时，处理单元遇到一个要产生另一个线程的程序指令，它通过网络发送消息到线程管理单元。在收到该消息后(步骤300’)，假如其它处理单元是可用的，线程管理单元为该新线程分配另一个处理单元以获取并执行指令(步骤308’)。按照此类方式，多个线程可以在多个处理单元上并发地被执行直到不再有可由线程管理单元分配的未决线程或不再有可用的处理单元。当没有可用的处理单元可被分配时，线程管理单元将会在存储器内的一个运行队列中存储额外的线程。

[0035]在一些情况下，线程管理单元中的调度逻辑可以中断正在执行的线程并用一个具有更高优先级的线程取代。在这种情况下，被中断的线程将会被插入到运行队列中使得当一个处理单元变为可用状态时，该线程能被重新运行。

[0036]当一个给定的处理单元完成与所分配的线程相关联的指令的执行时，该处理单元发送一个消息到线程管理单元，标志它现在已经空闲(步骤300”)。线程管理单元现在可以分配一个新的线程到空闲的处理单元中执行(步骤308”)并且这一处理过程只要存在需要执行的线程就将被重复进行。在一些实施例中，线程管理单元可以空置一个空闲的处理单元以减少总体的功率消耗，或者在一些情况下可以将一个正在执行的线程从一个物理的处理单元移到另一个以改善能量负载的分配和热量的散发。

[0037]线程管理单元另外还监视芯片上的处理单元和功能块的状态以检测任何的停止状况，也就是说，其中的一个处理单元等待另一个处理单元或功能块以执行指令。线程管理单元还跟踪各个线程的状态，例如，像运行、睡眠、等待。线程状态信息被存储在管理单元的本地存储器中并被管理单元使用，以在线程执行的调度中做出决定。

[0038]采用已知的线程状态和调度规则，例如，可以包括优先级、关联性(affinity)或公平性的任意组合，线程管理单元发送消息到特定处理单元以执行来自存储器指定位置的指令。因此，任意处理单元的运行在任意给定的时间，基于由线程管理单元所作出的决定，能以极小的延迟做出改变。这些由线程管理单元所使用的调度规则是可配置的，例如，在启动时进行配置(boot-up)。

[0039]进一步参考图2，线程管理单元104的某些实施例可以选择性地包含中断控制器208和系统计时器/计数器212。在一些实施例中，线程管理单元104首先接收所有的中断，然后分发一个合适的消息到合适的处理单元或功能块112以处理该中断。

[0040]线程管理单元也可以支持线程和系统资源(如功能块或外部接口)间的关联性(affinity)，以及线程间的关联性。例如，线程可以被编译器或与特定处理单元、功能块、或其它线程相关联的最终用户指定。线程管理单元利用线程的关联性来优化处理单元的分配，例如，减少运行特定线程的第一处理单元和与所述第一处理单元具有关联性的处理单元或系统资源间的物理距离。

[0041]由于线程管理单元并没有与任何特定的处理单元相关联，而是该片上网络中的自治节点，因此线程管理在带外执行。这一方法较在带内处理线程管理(或者作为软件线程或者作为与特定处理单元相关的硬件)的传统线程管理机制具有几个优点。首先，带外管理对于任何的处理单元都不产生线程管理开销，解放了处理单元去处理计算任务。第二，由于在整个片上网络上管理线程和片上资源而非局部管理，它提供了更好的资源分配和使用，并改进了效率和性能。第三，片上网络和集中的调度和同步机制的结合允许多核体系结构扩展到成千上万个处理单元。最后，带外的线程管理单元也能空置系统资源以降低功率消耗。

[0042]如图3所示，线程管理单元104包括用于存储信息的专用存储器204，这些信息为执行对线程的调度和管理所需要。存储在存储器204中的信息可以包括：要调度执行的线程的队列，各种处理单元和功能单元的状态，各种被执行的线程的状态，任一锁、互斥锁、或共享的对象的占有权和访问权，以及信号量。由于该专用存储器204被直接连接到位于线程管理单元104中的微处理器或状态机200，线程管理单元104能够在无需访问共享或片外存储器的情况下执行它的功能。这导致了调度和管理任务的更快执行，也保证了执行调度或管理操作时所需要的时钟周期的数目。

软件开发过程

[0043]处理单元的片上网络和专用线程管理单元的组合允许线程管理过程能被有效率地管理而无需来自软件开发者的任何明确指示。因此，软件开发者能够利用新的或现有的多线程软件应用，并在不修改该应用本身的底层源代码的情况下，为了在本发明实施例上执行，用专用的编译器、专用的连接器、或者上述两者，处理该应用。

[0044]参考图4，在一个实施例中，专用的编译器或连接器将可编译源代码语句(步骤400)切换成与该源代码语句相应的且由位于片上网络的处理器可作为线程执行的一个或多个机器可读目标代码语句(步骤404)。专用的编译器或连接器也添加了特定的机器可读目标代码语句，所述语句通知处理单元开始执行与新线程相关的指令(步骤408)。这些特定语句可以被放置在例如线程间的边界处，该边界或者由编译器或连接器自动识别，或者由开发者特别指定。

[0045]可选的，编译器或预处理器可以执行静态代码分析以提取并向开发者提供关于并行性的附加时机。使用并行性的附加时机能通过对用于更高层次语言(如JAVA)的运行时虚拟机的实现被实现。

[0046]由此可见，前面描述了一种采用专用线程管理的多核处理的高优越性的方法。此处所用的术语和表达被作为描述而非限制，采用上述术语和表达也不是为了排斥与任何所显示、描述的特征或其部分相等价的内容，但应当认识到各种可能的修改在本发明的权利要求范围内都是可能的。

Claims

1.一种在具有多个处理器核的设备中用于多核虚拟化的方法，该方法包括：

接收至少一个调度指令；

接收至少一个用于执行的指令；以及

响应所述的至少一个调度指令，分配所述的至少一个用于执行的指令到处理器核执行。

2.根据权利要求1所述的方法，其特征在于，所述分配所述至少一个指令在带外进行。

3.根据权利要求1所述的方法，其特征在于，所述的分配所述的至少一个指令包括：

从多个处理器核中选择一个用于执行的处理器核；以及

分配至少一个用于执行的指令到所选定的处理器核。

4.根据权利要求3所述的方法，其特征在于，所述的选择处理器核包括从多个同质的处理器核选择一个用于执行的处理器核。

5.根据权利要求1所述的方法，其特征在于，所述的分配所述的至少一个指令包括：

识别与所述的至少一个用于执行的指令相关的线程；以及

分配至少一个用于执行的指令到与所识别的线程相关的处理器核。

6.根据权利要求1所述的方法，其特征在于，还包括改变处理器核的功率状态。

7.根据权利要求1所述的方法，其特征在于，所述的分配所述的至少一个指令包括：

利用功率因素和热量分配因素中的至少一个从多个处理器核选择一个用于执行的处理器核；以及

分配至少一个用于执行的指令到所选择的处理器核。

8.根据权利要求1所述的方法，其特征在于，还包括从处理器核接收标志其已经执行了所分配的至少一个指令的消息。

9.根据权利要求1所述的方法，其特征在于，还包括存储处理器核的状态。

10.根据权利要求1所述的方法，其特征在于，还包括存储线程状态和信息。

11.根据权利要求9所述的方法，其特征在于，所述的分配所述的至少一个指令包括：

利用所存储的处理器状态信息从多个处理器核中选择一个用于执行的处理器核；以及

分配至少一个用于执行的指令到所选择的处理器核。

12.根据权利要求1所述的方法，其特征在于，所述的接收至少一个用于执行的指令包括：

接收多个用于执行的线程，每个线程包括至少一个用于执行的指令；

从所接收的多个用于执行的线程中选择一个；以及

从所选择的线程中接收至少一个用于执行的指令。

13.根据权利要求1所述的方法，其特征在于，还包括

处理器核执行第一所分配的指令后检测线程间依赖性；以及

在执行第二所分配的指令后再次分配所执行的指令，其中所述的第二所分配的指令的执行允许没有线程间依赖性地再次执行第一所分配的指令。

14.一种设备，包括：

多个处理器核；以及

线程管理单元，

其中，所述的线程管理单元接收用于执行的指令以及调度指令；以及

线程管理单元分配用于执行的指令到处理器核以响应调度指令。

15.根据权利要求14所述的设备，其特征在于，所述的多个处理器核是同质的。

16.根据权利要求14所述的设备，其特征在于，所述的线程管理单元完全以硬件实现。

17.根据权利要求14所述的设备，其特征在于，所述的线程管理单元以硬件和软件实现。

18.根据权利要求14所述的设备，其特征在于，所述的处理器核在一个网络中互相连接。

19.根据权利要求14所述的设备，其特征在于，所述的处理器核通过网络连接。

20.根据权利要求14所述的设备，其特征在于，所述的处理器核通过一个光学网络互相连接。

21.根据权利要求14所述的设备，其特征在于，所述的线程管理单元包括状态机。

22.根据权利要求14所述的设备，其特征在于，所述的线程管理单元包括被专用于调度、线程管理、以及资源分配中的一个或多个的微处理器。

23.根据权利要求14所述的设备，其特征在于，所述的线程管理单元包括用于存储线程和资源信息的专用存储器。

24.根据权利要求14所述的设备，其特征在于，还包括至少一个外围设备。

25.根据权利要求14所述的设备，其特征在于，所述的多个处理器核中的至少两个以不同的速度运行。

26.一种编译软件程序的方法，该方法包括：

接收可编译的源代码语句；

创建与可编译源代码语句相应的机器可读目标代码语句；以及

增加机器可读目标代码语句以用于通知线程管理单元分配所创建的机器可读目标代码语句到处理器核。

27.根据权利要求26所述的方法，其特征在于，还包括：

重复创建机器可读目标代码语句，以提供多个所创建的机器可读目标代码语句；以及

组合所述多个语句到多个线程中，每对线程通过边界相分离。

28.根据权利要求27所述的方法，其特征在于，所述的增加用于通知线程管理单元的语句包括于线程间边界增加用于通知线程管理单元的机器可读目标代码语句。

29.根据权利要求26所述的方法，其特征在于，所述的增加用于信号通知线程管理单元的语句包括增加用于响应标志线程间边界的可编译源代码语句通知线程管理单元的机器可读目标代码语句。