The dynamics of reinforcement learning in cooperative multiagent systems

Caroline Claus; Craig Boutilier
{'id': 'https://openalex.org/W2104602264', 'doi': None, 'title': 'The dynamics of reinforcement learning in cooperative multiagent systems', 'display_name': 'The dynamics of reinforcement learning in cooperative multiagent systems', 'publication_year': 1998, 'publication_date': '1998-07-01', 'ids': {'openalex': 'https://openalex.org/W2104602264', 'mag': '2104602264'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://www.aaai.org/Papers/AAAI/1998/AAAI98-106.pdf', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4306420577', 'display_name': 'National Conference on Artificial Intelligence', 'issn_l': None, 'issn': None, 'is_oa': False, 'is_in_doaj': False, 'is_core': False, 'host_organization': None, 'host_organization_name': None, 'host_organization_lineage': [], 'host_organization_lineage_names': [], 'type': 'conference'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'proceedings-article', 'indexed_in': [], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5014673591', 'display_name': 'Caroline Claus', 'orcid': 'https://orcid.org/0000-0003-3826-0708'}, 'institutions': [{'id': 'https://openalex.org/I141945490', 'display_name': 'University of British Columbia', 'ror': 'https://ror.org/03rmrcq20', 'country_code': 'CA', 'type': 'education', 'lineage': ['https://openalex.org/I141945490']}], 'countries': ['CA'], 'is_corresponding': False, 'raw_author_name': 'Caroline Claus', 'raw_affiliation_strings': ['University of British Columbia'], 'affiliations': [{'raw_affiliation_string': 'University of British Columbia', 'institution_ids': ['https://openalex.org/I141945490']}]}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5036934218', 'display_name': 'Craig Boutilier', 'orcid': 'https://orcid.org/0000-0001-9330-4545'}, 'institutions': [{'id': 'https://openalex.org/I141945490', 'display_name': 'University of British Columbia', 'ror': 'https://ror.org/03rmrcq20', 'country_code': 'CA', 'type': 'education', 'lineage': ['https://openalex.org/I141945490']}], 'countries': ['CA'], 'is_corresponding': False, 'raw_author_name': 'Craig Boutilier', 'raw_affiliation_strings': ['University of British Columbia'], 'affiliations': [{'raw_affiliation_string': 'University of British Columbia', 'institution_ids': ['https://openalex.org/I141945490']}]}], 'countries_distinct_count': 1, 'institutions_distinct_count': 1, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 5.926, 'has_fulltext': False, 'cited_by_count': 1082, 'citation_normalized_percentile': {'value': 0.999316, 'is_in_top_1_percent': True, 'is_in_top_10_percent': True}, 'cited_by_percentile_year': {'min': 99, 'max': 100}, 'biblio': {'volume': None, 'issue': None, 'first_page': '746', 'last_page': '752'}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T10462', 'display_name': 'Reinforcement Learning Algorithms', 'score': 0.9978, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, 'topics': [{'id': 'https://openalex.org/T10462', 'display_name': 'Reinforcement Learning Algorithms', 'score': 0.9978, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T11031', 'display_name': 'Network Formation and Game Dynamics', 'score': 0.9974, 'subfield': {'id': 'https://openalex.org/subfields/1803', 'display_name': 'Management Science and Operations Research'}, 'field': {'id': 'https://openalex.org/fields/18', 'display_name': 'Decision Sciences'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}, {'id': 'https://openalex.org/T11252', 'display_name': 'Evolution of Cooperation and Altruism in Social Systems', 'score': 0.9936, 'subfield': {'id': 'https://openalex.org/subfields/3312', 'display_name': 'Sociology and Political Science'}, 'field': {'id': 'https://openalex.org/fields/33', 'display_name': 'Social Sciences'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/reinforcement-learning', 'display_name': 'Reinforcement Learning', 'score': 0.640103}, {'id': 'https://openalex.org/keywords/multi-agent-systems', 'display_name': 'Multi-Agent Systems', 'score': 0.547787}, {'id': 'https://openalex.org/keywords/fictitious-play', 'display_name': 'Fictitious play', 'score': 0.5022254}], 'concepts': [{'id': 'https://openalex.org/C97541855', 'wikidata': 'https://www.wikidata.org/wiki/Q830687', 'display_name': 'Reinforcement learning', 'level': 2, 'score': 0.86225677}, {'id': 'https://openalex.org/C2777303404', 'wikidata': 'https://www.wikidata.org/wiki/Q759757', 'display_name': 'Convergence (economics)', 'level': 2, 'score': 0.73911834}, {'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.68239516}, {'id': 'https://openalex.org/C46814582', 'wikidata': 'https://www.wikidata.org/wiki/Q23389', 'display_name': 'Nash equilibrium', 'level': 2, 'score': 0.6430826}, {'id': 'https://openalex.org/C145071142', 'wikidata': 'https://www.wikidata.org/wiki/Q1411116', 'display_name': 'Fictitious play', 'level': 3, 'score': 0.5022254}, {'id': 'https://openalex.org/C2780791683', 'wikidata': 'https://www.wikidata.org/wiki/Q846785', 'display_name': 'Action (physics)', 'level': 2, 'score': 0.48323902}, {'id': 'https://openalex.org/C98045186', 'wikidata': 'https://www.wikidata.org/wiki/Q205663', 'display_name': 'Process (computing)', 'level': 2, 'score': 0.4572645}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.45437545}, {'id': 'https://openalex.org/C2780586882', 'wikidata': 'https://www.wikidata.org/wiki/Q7520643', 'display_name': 'Simple (philosophy)', 'level': 2, 'score': 0.44740868}, {'id': 'https://openalex.org/C177142836', 'wikidata': 'https://www.wikidata.org/wiki/Q44455', 'display_name': 'Game theory', 'level': 2, 'score': 0.41195455}, {'id': 'https://openalex.org/C126255220', 'wikidata': 'https://www.wikidata.org/wiki/Q141495', 'display_name': 'Mathematical optimization', 'level': 1, 'score': 0.37102047}, {'id': 'https://openalex.org/C144237770', 'wikidata': 'https://www.wikidata.org/wiki/Q747534', 'display_name': 'Mathematical economics', 'level': 1, 'score': 0.18010259}, {'id': 'https://openalex.org/C33923547', 'wikidata': 'https://www.wikidata.org/wiki/Q395', 'display_name': 'Mathematics', 'level': 0, 'score': 0.15990764}, {'id': 'https://openalex.org/C138885662', 'wikidata': 'https://www.wikidata.org/wiki/Q5891', 'display_name': 'Philosophy', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C121332964', 'wikidata': 'https://www.wikidata.org/wiki/Q413', 'display_name': 'Physics', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C111472728', 'wikidata': 'https://www.wikidata.org/wiki/Q9471', 'display_name': 'Epistemology', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C62520636', 'wikidata': 'https://www.wikidata.org/wiki/Q944', 'display_name': 'Quantum mechanics', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C162324750', 'wikidata': 'https://www.wikidata.org/wiki/Q8134', 'display_name': 'Economics', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C50522688', 'wikidata': 'https://www.wikidata.org/wiki/Q189833', 'display_name': 'Economic growth', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C111919701', 'wikidata': 'https://www.wikidata.org/wiki/Q9135', 'display_name': 'Operating system', 'level': 1, 'score': 0.0}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'https://www.aaai.org/Papers/AAAI/1998/AAAI98-106.pdf', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4306420577', 'display_name': 'National Conference on Artificial Intelligence', 'issn_l': None, 'issn': None, 'is_oa': False, 'is_in_doaj': False, 'is_core': False, 'host_organization': None, 'host_organization_name': None, 'host_organization_lineage': [], 'host_organization_lineage_names': [], 'type': 'conference'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 27, 'referenced_works': ['https://openalex.org/W137532508', 'https://openalex.org/W1486687115', 'https://openalex.org/W1521003796', 'https://openalex.org/W1542941925', 'https://openalex.org/W1565708010', 'https://openalex.org/W1641379095', 'https://openalex.org/W1764574858', 'https://openalex.org/W1960974220', 'https://openalex.org/W1994616650', 'https://openalex.org/W2011551706', 'https://openalex.org/W2053616263', 'https://openalex.org/W2062663664', 'https://openalex.org/W2080631849', 'https://openalex.org/W2107726111', 'https://openalex.org/W2110667918', 'https://openalex.org/W2118247617', 'https://openalex.org/W2118994458', 'https://openalex.org/W2142839172', 'https://openalex.org/W2142947219', 'https://openalex.org/W2143100276', 'https://openalex.org/W2147750403', 'https://openalex.org/W2160749806', 'https://openalex.org/W2171732592', 'https://openalex.org/W28684199', 'https://openalex.org/W3125686698', 'https://openalex.org/W32403112', 'https://openalex.org/W589777535'], 'related_works': ['https://openalex.org/W32403112', 'https://openalex.org/W3011120880', 'https://openalex.org/W2164637474', 'https://openalex.org/W2147492008', 'https://openalex.org/W2145067550', 'https://openalex.org/W2121863487', 'https://openalex.org/W2120846115', 'https://openalex.org/W2120327309', 'https://openalex.org/W2107726111', 'https://openalex.org/W2107544712', 'https://openalex.org/W2099618002', 'https://openalex.org/W2085366587', 'https://openalex.org/W1641379095', 'https://openalex.org/W1605188341', 'https://openalex.org/W1560074431', 'https://openalex.org/W1557517019', 'https://openalex.org/W1542941925', 'https://openalex.org/W1519783625', 'https://openalex.org/W1515851193', 'https://openalex.org/W1513468570'], 'abstract_inverted_index': {'Reinforcement': [0], 'learning': [1, 36], 'can': [2, 30], 'provide': [3], 'a': [4, 40], 'robust': [5], 'and': [6, 70, 100, 107], 'natural': [7], 'means': [8], 'for': [9], 'agents': [10, 57], 'to': [11, 14, 63, 105, 124], 'learn': [12, 64], 'how': [13], 'coordinate': [15], 'their': [16, 74], 'action': [17], 'choices': [18], 'in': [19, 38, 83], 'multi': [20, 85], 'agent': [21, 86], 'systems.': [22], 'We': [23, 42, 76, 111], 'examine': [24], 'some': [25], 'of': [26, 34, 50, 55, 67, 73, 96, 122], 'the': [27, 32, 35, 53, 65, 71, 94, 120], 'factors': [28], 'that': [29, 47, 60, 97, 118], 'influence': [31, 95], 'dynamics': [33], 'process': [37], 'such': [39], 'setting.': [41], 'first': [43], 'distinguish': [44], 'reinforcement': [45], 'learners': [46], 'are': [48], 'unaware': [49], '(or': [51], 'ignore)': [52], 'presence': [54], 'other': [56], 'from': [58], 'those': [59], 'explicitly': [61], 'attempt': [62], 'value': [66], 'joint': [68], 'actions': [69], 'strategies': [72, 102, 117], 'counterparts.': [75], 'study': [77], '(a': [78], 'simple': [79], 'form': [80], 'of)': [81], 'Q-leaming': [82], 'cooperative': [84], 'systems': [87], 'under': [88], 'these': [89], 'two': [90], 'perspectives,': [91], 'focusing': [92], 'on': [93, 103], 'game': [98], 'structure': [99], 'exploration': [101, 116], 'convergence': [104, 123], '(optimal': [106], 'suboptimal)': [108], 'Nash': [109], 'equilibria.': [110], 'then': [112], 'propose': [113], 'alternative': [114], 'optimistic': [115], 'increase': [119], 'likelihood': [121], 'an': [125], 'optimal': [126], 'equilibrium.': [127]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2104602264', 'counts_by_year': [{'year': 2024, 'cited_by_count': 7}, {'year': 2023, 'cited_by_count': 34}, {'year': 2022, 'cited_by_count': 38}, {'year': 2021, 'cited_by_count': 93}, {'year': 2020, 'cited_by_count': 84}, {'year': 2019, 'cited_by_count': 81}, {'year': 2018, 'cited_by_count': 67}, {'year': 2017, 'cited_by_count': 29}, {'year': 2016, 'cited_by_count': 39}, {'year': 2015, 'cited_by_count': 38}, {'year': 2014, 'cited_by_count': 45}, {'year': 2013, 'cited_by_count': 45}, {'year': 2012, 'cited_by_count': 40}], 'updated_date': '2024-09-13T04:53:16.529557', 'created_date': '2016-06-24'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works