CUDA-NP： Realizing Nested Thread-Level Parallelism in GPGPU Applications

Yang Yun Yi; Chao Li; 周辉阳
{'id': 'https://openalex.org/W240129890', 'doi': None, 'title': 'CUDA-NP： Realizing Nested Thread-Level Parallelism in GPGPU Applications', 'display_name': 'CUDA-NP： Realizing Nested Thread-Level Parallelism in GPGPU Applications', 'publication_year': 2015, 'publication_date': '2015-01-01', 'ids': {'openalex': 'https://openalex.org/W240129890', 'mag': '240129890'}, 'language': 'zh-cn', 'primary_location': {'is_oa': False, 'landing_page_url': 'http://www.cqvip.com/QK/85226X/201501/663787194.html', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4306558348', 'display_name': '计算机科学技术学报：英文版', 'issn_l': None, 'issn': None, 'is_oa': False, 'is_in_doaj': False, 'is_core': False, 'host_organization': None, 'host_organization_name': None, 'host_organization_lineage': [], 'host_organization_lineage_names': [], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'journal-article', 'indexed_in': [], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5017560760', 'display_name': 'Yang Yun Yi', 'orcid': None}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': '杨毅', 'raw_affiliation_strings': [], 'affiliations': []}, {'author_position': 'middle', 'author': {'id': 'https://openalex.org/A5059177834', 'display_name': 'Chao Li', 'orcid': 'https://orcid.org/0000-0002-1324-5440'}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': '李超', 'raw_affiliation_strings': [], 'affiliations': []}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5036923491', 'display_name': '周辉阳', 'orcid': None}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': '周辉阳', 'raw_affiliation_strings': [], 'affiliations': []}], 'institution_assertions': [], 'countries_distinct_count': 0, 'institutions_distinct_count': 0, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 0.0, 'has_fulltext': False, 'cited_by_count': 0, 'citation_normalized_percentile': {'value': 0.0, 'is_in_top_1_percent': False, 'is_in_top_10_percent': False}, 'cited_by_percentile_year': {'min': 0, 'max': 66}, 'biblio': {'volume': None, 'issue': '1', 'first_page': '3', 'last_page': '19'}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T10054', 'display_name': 'Parallel Computing and Performance Optimization', 'score': 0.999, 'subfield': {'id': 'https://openalex.org/subfields/1708', 'display_name': 'Hardware and Architecture'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, 'topics': [{'id': 'https://openalex.org/T10054', 'display_name': 'Parallel Computing and Performance Optimization', 'score': 0.999, 'subfield': {'id': 'https://openalex.org/subfields/1708', 'display_name': 'Hardware and Architecture'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T11181', 'display_name': 'Distributed Storage Systems and Network Coding', 'score': 0.9974, 'subfield': {'id': 'https://openalex.org/subfields/1705', 'display_name': 'Computer Networks and Communications'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T10715', 'display_name': 'Distributed Grid Computing Systems', 'score': 0.9962, 'subfield': {'id': 'https://openalex.org/subfields/1705', 'display_name': 'Computer Networks and Communications'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/gpu-computing', 'display_name': 'GPU Computing', 'score': 0.626471}, {'id': 'https://openalex.org/keywords/parallel-computing', 'display_name': 'Parallel Computing', 'score': 0.573834}, {'id': 'https://openalex.org/keywords/multicore-architectures', 'display_name': 'Multicore Architectures', 'score': 0.523797}, {'id': 'https://openalex.org/keywords/simulation-platforms', 'display_name': 'Simulation Platforms', 'score': 0.521404}, {'id': 'https://openalex.org/keywords/performance-optimization', 'display_name': 'Performance Optimization', 'score': 0.513314}], 'concepts': [{'id': 'https://openalex.org/C2778119891', 'wikidata': 'https://www.wikidata.org/wiki/Q477690', 'display_name': 'CUDA', 'level': 2, 'score': 0.9841671}, {'id': 'https://openalex.org/C50630238', 'wikidata': 'https://www.wikidata.org/wiki/Q971505', 'display_name': 'General-purpose computing on graphics processing units', 'level': 3, 'score': 0.8483422}, {'id': 'https://openalex.org/C173608175', 'wikidata': 'https://www.wikidata.org/wiki/Q232661', 'display_name': 'Parallel computing', 'level': 1, 'score': 0.79485154}, {'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.7545384}, {'id': 'https://openalex.org/C138101251', 'wikidata': 'https://www.wikidata.org/wiki/Q213092', 'display_name': 'Thread (computing)', 'level': 2, 'score': 0.51396006}, {'id': 'https://openalex.org/C121684516', 'wikidata': 'https://www.wikidata.org/wiki/Q7600677', 'display_name': 'Computer graphics (images)', 'level': 1, 'score': 0.1908499}, {'id': 'https://openalex.org/C21442007', 'wikidata': 'https://www.wikidata.org/wiki/Q1027879', 'display_name': 'Graphics', 'level': 2, 'score': 0.17541361}, {'id': 'https://openalex.org/C111919701', 'wikidata': 'https://www.wikidata.org/wiki/Q9135', 'display_name': 'Operating system', 'level': 1, 'score': 0.14769056}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'http://www.cqvip.com/QK/85226X/201501/663787194.html', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4306558348', 'display_name': '计算机科学技术学报：英文版', 'issn_l': None, 'issn': None, 'is_oa': False, 'is_in_doaj': False, 'is_core': False, 'host_organization': None, 'host_organization_name': None, 'host_organization_lineage': [], 'host_organization_lineage_names': [], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [{'display_name': 'Peace, justice, and strong institutions', 'score': 0.49, 'id': 'https://metadata.un.org/sdg/16'}], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 0, 'referenced_works': [], 'related_works': ['https://openalex.org/W3198175906', 'https://openalex.org/W3138909247', 'https://openalex.org/W3015604234', 'https://openalex.org/W3013976982', 'https://openalex.org/W2950434731', 'https://openalex.org/W2889540498', 'https://openalex.org/W2808569185', 'https://openalex.org/W277510608', 'https://openalex.org/W2754079493', 'https://openalex.org/W2622413211', 'https://openalex.org/W257229186', 'https://openalex.org/W2566934642', 'https://openalex.org/W2376097283', 'https://openalex.org/W2332224621', 'https://openalex.org/W2324343143', 'https://openalex.org/W2292118951', 'https://openalex.org/W2253803440', 'https://openalex.org/W2241220794', 'https://openalex.org/W2181884684', 'https://openalex.org/W1090165845'], 'abstract_inverted_index': {'平行程序与不同线级的并行(TLP': [0], ')': [1], '由代码节的系列组成。作为结果，在一个平行程序的一个线程例如在': [2], 'CUDA': [3, 19], '程序的一个': [4], 'GPU': [5, 7, 9, 11, 13, 23, 27, 33], '内核，仍然包含顺序的代码和平行的环，是相当普通的。为了利用如此的平行，循环，最近的开普勒·恩威迪亚体系结构介绍动态并行，它允许一个': [6], '线程开始另一个': [8], '内核，从而减少从一个中央处理器运行内核的开销。与动态并行，然而，一个父母线程能仅仅通过全球存储器与它的孩子线程交流，运行': [10], '内核的开销甚至在': [12], '以内是重要的。在这份报纸，我们首先学习包含这些基准没有的平行的环，和热点的一套': [14], 'GPGPU': [15, 35], '基准一个很高的环计数或': [16], 'TLP': [17], '的高度。因而，用动态并行利用如此的平行的环的好处也被限制抵消它的开销。我们然后介绍我们的建议答案在': [18], '利用嵌套的并行，叫作': [20], 'CUDA-NP。与': [21], 'CUDA-NP，当一个': [22], '程序开始时，我们开始启用线程的一个高数字，并且使用控制流动为不同代码节激活线程的不同数字。我们用一条基于指令的编译器途径实现我们的建议': [24], 'CUDA-NP': [25, 31, 37], '框架。为一个': [26], '核，一个应用程序开发者仅仅需要为可并行化的代码节增加象': [28], 'OpenMP': [29], '一样编译指示。然后，我们的': [30], '编译器自动地产生优化': [32], '内核。它支持减小和扫描原语，探索不同方法散布平行的环重复进线程，并且高效地管理在薄片上资源。我们的实验证明为一套': [34], '基准，它已经被优化了并且包含嵌套的并行，我们的建议': [36], '框架进一步平均到多达': [38], '6.69': [39], '次和': [40], '2.01': [41], '次改进表演。': [42]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W240129890', 'counts_by_year': [], 'updated_date': '2024-09-14T10:57:20.977342', 'created_date': '2016-06-24'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works