Crowdsourcing algorithms for entity resolution

Norases Vesdapunt; Kedar Bellare; Nilesh Dalvi
{'id': 'https://openalex.org/W2106675345', 'doi': 'https://doi.org/10.14778/2732977.2732982', 'title': 'Crowdsourcing algorithms for entity resolution', 'display_name': 'Crowdsourcing algorithms for entity resolution', 'publication_year': 2014, 'publication_date': '2014-08-01', 'ids': {'openalex': 'https://openalex.org/W2106675345', 'doi': 'https://doi.org/10.14778/2732977.2732982', 'mag': '2106675345'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://doi.org/10.14778/2732977.2732982', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4210226185', 'display_name': 'Proceedings of the VLDB Endowment', 'issn_l': '2150-8097', 'issn': ['2150-8097'], 'is_oa': False, 'is_in_doaj': False, 'is_core': True, 'host_organization': 'https://openalex.org/P4310319798', 'host_organization_name': 'Association for Computing Machinery', 'host_organization_lineage': ['https://openalex.org/P4310319798'], 'host_organization_lineage_names': ['Association for Computing Machinery'], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'journal-article', 'indexed_in': ['crossref'], 'open_access': {'is_oa': True, 'oa_status': 'green', 'oa_url': 'http://www.vldb.org/pvldb/vol7/p1071-vesdapunt.pdf', 'any_repository_has_fulltext': True}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5000761889', 'display_name': 'Norases Vesdapunt', 'orcid': None}, 'institutions': [{'id': 'https://openalex.org/I97018004', 'display_name': 'Stanford University', 'ror': 'https://ror.org/00f54p054', 'country_code': 'US', 'type': 'education', 'lineage': ['https://openalex.org/I97018004']}], 'countries': ['US'], 'is_corresponding': False, 'raw_author_name': 'Norases Vesdapunt', 'raw_affiliation_strings': ['Stanford University'], 'affiliations': [{'raw_affiliation_string': 'Stanford University', 'institution_ids': ['https://openalex.org/I97018004']}]}, {'author_position': 'middle', 'author': {'id': 'https://openalex.org/A5090835762', 'display_name': 'Kedar Bellare', 'orcid': None}, 'institutions': [{'id': 'https://openalex.org/I2252078561', 'display_name': 'Meta (Israel)', 'ror': 'https://ror.org/02388em19', 'country_code': 'IL', 'type': 'company', 'lineage': ['https://openalex.org/I2252078561', 'https://openalex.org/I4210114444']}], 'countries': ['IL'], 'is_corresponding': False, 'raw_author_name': 'Kedar Bellare', 'raw_affiliation_strings': ['Facebook.'], 'affiliations': [{'raw_affiliation_string': 'Facebook.', 'institution_ids': ['https://openalex.org/I2252078561']}]}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5081323769', 'display_name': 'Nilesh Dalvi', 'orcid': None}, 'institutions': [{'id': 'https://openalex.org/I2252078561', 'display_name': 'Meta (Israel)', 'ror': 'https://ror.org/02388em19', 'country_code': 'IL', 'type': 'company', 'lineage': ['https://openalex.org/I2252078561', 'https://openalex.org/I4210114444']}], 'countries': ['IL'], 'is_corresponding': False, 'raw_author_name': 'Nilesh Dalvi', 'raw_affiliation_strings': ['Facebook.'], 'affiliations': [{'raw_affiliation_string': 'Facebook.', 'institution_ids': ['https://openalex.org/I2252078561']}]}], 'institution_assertions': [], 'countries_distinct_count': 2, 'institutions_distinct_count': 2, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 20.724, 'has_fulltext': True, 'fulltext_origin': 'ngrams', 'cited_by_count': 167, 'citation_normalized_percentile': {'value': 0.999923, 'is_in_top_1_percent': True, 'is_in_top_10_percent': True}, 'cited_by_percentile_year': {'min': 98, 'max': 99}, 'biblio': {'volume': '7', 'issue': '12', 'first_page': '1071', 'last_page': '1082'}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T11719', 'display_name': 'Data Quality Assessment and Improvement', 'score': 0.9996, 'subfield': {'id': 'https://openalex.org/subfields/1803', 'display_name': 'Management Science and Operations Research'}, 'field': {'id': 'https://openalex.org/fields/18', 'display_name': 'Decision Sciences'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}, 'topics': [{'id': 'https://openalex.org/T11719', 'display_name': 'Data Quality Assessment and Improvement', 'score': 0.9996, 'subfield': {'id': 'https://openalex.org/subfields/1803', 'display_name': 'Management Science and Operations Research'}, 'field': {'id': 'https://openalex.org/fields/18', 'display_name': 'Decision Sciences'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}, {'id': 'https://openalex.org/T11704', 'display_name': 'Crowdsourcing for Research and Data Collection', 'score': 0.9994, 'subfield': {'id': 'https://openalex.org/subfields/1706', 'display_name': 'Computer Science Applications'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T10764', 'display_name': 'Privacy-Preserving Techniques for Data Analysis and Machine Learning', 'score': 0.999, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/entity-resolution', 'display_name': 'Entity Resolution', 'score': 0.613035}, {'id': 'https://openalex.org/keywords/crowdsourcing', 'display_name': 'Crowdsourcing', 'score': 0.55498}, {'id': 'https://openalex.org/keywords/duplicate-detection', 'display_name': 'Duplicate Detection', 'score': 0.545534}, {'id': 'https://openalex.org/keywords/federated-learning', 'display_name': 'Federated Learning', 'score': 0.506623}, {'id': 'https://openalex.org/keywords/sequence', 'display_name': 'Sequence (biology)', 'score': 0.41398907}], 'concepts': [{'id': 'https://openalex.org/C62230096', 'wikidata': 'https://www.wikidata.org/wiki/Q275969', 'display_name': 'Crowdsourcing', 'level': 2, 'score': 0.7685698}, {'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.73101354}, {'id': 'https://openalex.org/C191399111', 'wikidata': 'https://www.wikidata.org/wiki/Q64861', 'display_name': 'Transitive relation', 'level': 2, 'score': 0.63245374}, {'id': 'https://openalex.org/C162307627', 'wikidata': 'https://www.wikidata.org/wiki/Q204833', 'display_name': 'Enhanced Data Rates for GSM Evolution', 'level': 2, 'score': 0.53549105}, {'id': 'https://openalex.org/C138268822', 'wikidata': 'https://www.wikidata.org/wiki/Q1051925', 'display_name': 'Resolution (logic)', 'level': 2, 'score': 0.50185347}, {'id': 'https://openalex.org/C132525143', 'wikidata': 'https://www.wikidata.org/wiki/Q141488', 'display_name': 'Graph', 'level': 2, 'score': 0.4826408}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.42242017}, {'id': 'https://openalex.org/C119857082', 'wikidata': 'https://www.wikidata.org/wiki/Q2539', 'display_name': 'Machine learning', 'level': 1, 'score': 0.4209364}, {'id': 'https://openalex.org/C2778112365', 'wikidata': 'https://www.wikidata.org/wiki/Q3511065', 'display_name': 'Sequence (biology)', 'level': 2, 'score': 0.41398907}, {'id': 'https://openalex.org/C80444323', 'wikidata': 'https://www.wikidata.org/wiki/Q2878974', 'display_name': 'Theoretical computer science', 'level': 1, 'score': 0.39357305}, {'id': 'https://openalex.org/C11413529', 'wikidata': 'https://www.wikidata.org/wiki/Q8366', 'display_name': 'Algorithm', 'level': 1, 'score': 0.39347857}, {'id': 'https://openalex.org/C33923547', 'wikidata': 'https://www.wikidata.org/wiki/Q395', 'display_name': 'Mathematics', 'level': 0, 'score': 0.16799608}, {'id': 'https://openalex.org/C136764020', 'wikidata': 'https://www.wikidata.org/wiki/Q466', 'display_name': 'World Wide Web', 'level': 1, 'score': 0.08075836}, {'id': 'https://openalex.org/C114614502', 'wikidata': 'https://www.wikidata.org/wiki/Q76592', 'display_name': 'Combinatorics', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C86803240', 'wikidata': 'https://www.wikidata.org/wiki/Q420', 'display_name': 'Biology', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C54355233', 'wikidata': 'https://www.wikidata.org/wiki/Q7162', 'display_name': 'Genetics', 'level': 1, 'score': 0.0}], 'mesh': [], 'locations_count': 2, 'locations': [{'is_oa': False, 'landing_page_url': 'https://doi.org/10.14778/2732977.2732982', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4210226185', 'display_name': 'Proceedings of the VLDB Endowment', 'issn_l': '2150-8097', 'issn': ['2150-8097'], 'is_oa': False, 'is_in_doaj': False, 'is_core': True, 'host_organization': 'https://openalex.org/P4310319798', 'host_organization_name': 'Association for Computing Machinery', 'host_organization_lineage': ['https://openalex.org/P4310319798'], 'host_organization_lineage_names': ['Association for Computing Machinery'], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, {'is_oa': True, 'landing_page_url': 'http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.636.2594', 'pdf_url': 'http://www.vldb.org/pvldb/vol7/p1071-vesdapunt.pdf', 'source': {'id': 'https://openalex.org/S4306400349', 'display_name': 'CiteSeer X (The Pennsylvania State University)', 'issn_l': None, 'issn': None, 'is_oa': True, 'is_in_doaj': False, 'is_core': False, 'host_organization': 'https://openalex.org/I130769515', 'host_organization_name': 'Pennsylvania State University', 'host_organization_lineage': ['https://openalex.org/I130769515'], 'host_organization_lineage_names': ['Pennsylvania State University'], 'type': 'repository'}, 'license': None, 'license_id': None, 'version': 'submittedVersion', 'is_accepted': False, 'is_published': False}], 'best_oa_location': {'is_oa': True, 'landing_page_url': 'http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.636.2594', 'pdf_url': 'http://www.vldb.org/pvldb/vol7/p1071-vesdapunt.pdf', 'source': {'id': 'https://openalex.org/S4306400349', 'display_name': 'CiteSeer X (The Pennsylvania State University)', 'issn_l': None, 'issn': None, 'is_oa': True, 'is_in_doaj': False, 'is_core': False, 'host_organization': 'https://openalex.org/I130769515', 'host_organization_name': 'Pennsylvania State University', 'host_organization_lineage': ['https://openalex.org/I130769515'], 'host_organization_lineage_names': ['Pennsylvania State University'], 'type': 'repository'}, 'license': None, 'license_id': None, 'version': 'submittedVersion', 'is_accepted': False, 'is_published': False}, 'sustainable_development_goals': [{'score': 0.59, 'display_name': 'Peace, justice, and strong institutions', 'id': 'https://metadata.un.org/sdg/16'}], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 14, 'referenced_works': ['https://openalex.org/W108763474', 'https://openalex.org/W135913927', 'https://openalex.org/W1842616801', 'https://openalex.org/W1988560072', 'https://openalex.org/W2050867684', 'https://openalex.org/W2053653724', 'https://openalex.org/W2056748234', 'https://openalex.org/W2113878109', 'https://openalex.org/W2140890285', 'https://openalex.org/W2145492473', 'https://openalex.org/W2163051926', 'https://openalex.org/W2225677724', 'https://openalex.org/W2295665070', 'https://openalex.org/W2400013274'], 'related_works': ['https://openalex.org/W4384486036', 'https://openalex.org/W4318823662', 'https://openalex.org/W4286908577', 'https://openalex.org/W3207526114', 'https://openalex.org/W3032998312', 'https://openalex.org/W2886410948', 'https://openalex.org/W2337920774', 'https://openalex.org/W2025875869', 'https://openalex.org/W1503094549', 'https://openalex.org/W135177976'], 'abstract_inverted_index': {'In': [0], 'this': [1, 170], 'paper,': [2], 'we': [3, 155, 201], 'study': [4], 'a': [5, 27, 46, 53, 59, 98, 115, 122, 162, 173], 'hybrid': [6], 'human-machine': [7], 'approach': [8], 'for': [9, 138, 169], 'solving': [10], 'the': [11, 32, 50, 71, 77, 88, 95, 103, 106, 111, 132, 145, 196], 'problem': [12, 133, 171], 'of': [13, 19, 40, 73, 97, 100, 105, 134, 148], 'Entity': [14], 'Resolution': [15], '(ER).': [16], 'The': [17], 'goal': [18], 'ER': [20], 'is': [21, 45, 84], 'to': [22, 31, 85, 93, 109, 141], 'identify': [23], 'all': [24, 49, 87], 'records': [25, 51, 74], 'in': [26, 52, 172, 180, 208], 'database': [28], 'that': [29, 70, 143, 161, 203], 'refer': [30], 'same': [33], 'underlying': [34], 'entity,': [35], 'and': [36, 125, 159], 'are': [37, 80, 206], 'therefore': [38], 'duplicates': [39, 89], 'each': [41, 56], 'other.': [42], 'Our': [43, 82], 'input': [44], 'graph': [47], 'over': [48], 'database,': [54], 'where': [55], 'edge': [57, 79], 'has': [58], 'probability': [60], 'denoting': [61], 'our': [62, 152, 204], 'prior': [63], 'belief': [64], '(based': [65], 'on': [66], 'Machine': [67], 'Learning': [68], 'models)': [69], 'pair': [72], 'represented': [75], 'by': [76, 90], 'given': [78, 121], 'duplicates.': [81], 'objective': [83], 'resolve': [86], 'asking': [91, 139], 'humans': [92, 142], 'verify': [94], 'equality': [96, 107], 'subset': [99], 'edges,': [101], 'leveraging': [102], 'transitivity': [104], 'relation': [108], 'infer': [110], 'remaining': [112], 'edges': [113], '(e.g.': [114], '=': [116, 123, 127], 'c': [117, 128], 'can': [118, 176], 'be': [119], 'inferred': [120], 'b': [124, 126], ').': [129], 'We': [130, 182], 'consider': [131], 'designing': [135], 'optimal': [136, 167], 'strategies': [137, 185], 'questions': [140, 149], 'minimize': [144], 'expected': [146], 'number': [147], 'asked.': [150], 'Using': [151, 189], 'theoretical': [153, 187], 'framework,': [154], 'analyze': [156], 'several': [157], 'strategies,': [158], 'show': [160, 202], 'strategy,': [163], 'claimed': [164], 'as': [165, 193, 195], '"': [166, 168], 'recent': [174], 'work,': [175], 'perform': [177], 'arbitrarily': [178], 'bad': [179], 'theory.': [181], 'propose': [183], 'alternate': [184], 'with': [186], 'guarantees.': [188], 'both': [190], 'public': [191], 'datasets': [192], 'well': [194], 'production': [197], 'system': [198], 'at': [199], 'Facebook,': [200], 'techniques': [205], 'effective': [207], 'practice.': [209]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2106675345', 'counts_by_year': [{'year': 2024, 'cited_by_count': 1}, {'year': 2023, 'cited_by_count': 6}, {'year': 2022, 'cited_by_count': 11}, {'year': 2021, 'cited_by_count': 27}, {'year': 2020, 'cited_by_count': 21}, {'year': 2019, 'cited_by_count': 16}, {'year': 2018, 'cited_by_count': 28}, {'year': 2017, 'cited_by_count': 28}, {'year': 2016, 'cited_by_count': 15}, {'year': 2015, 'cited_by_count': 10}, {'year': 2014, 'cited_by_count': 3}, {'year': 2013, 'cited_by_count': 1}], 'updated_date': '2024-09-17T16:17:40.344285', 'created_date': '2016-06-24'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works