Setting Up for Corpus Lexicography

Adam Kilgarriff; Jan Pomikálek; Miloš Jakubíček; Pete Whitelock
{'id': 'https://openalex.org/W2594131347', 'doi': None, 'title': 'Setting Up for Corpus Lexicography', 'display_name': 'Setting Up for Corpus Lexicography', 'publication_year': 2012, 'publication_date': '2012-01-01', 'ids': {'openalex': 'https://openalex.org/W2594131347', 'mag': '2594131347'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://www.euralex.org/elx_proceedings/Euralex2012/pp778-785%20Kilgarriff,%20Pomikalek,%20Jakubicek%20and%20Whitelock.pdf', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4306523542', 'display_name': 'Proceedings of the 15th EURALEX International Congress', 'issn_l': None, 'issn': None, 'is_oa': False, 'is_in_doaj': False, 'is_core': False, 'host_organization': None, 'host_organization_name': None, 'host_organization_lineage': [], 'host_organization_lineage_names': [], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'journal-article', 'indexed_in': [], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5064159344', 'display_name': 'Adam Kilgarriff', 'orcid': None}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': 'Adam Kilgarriff', 'raw_affiliation_strings': [], 'affiliations': []}, {'author_position': 'middle', 'author': {'id': 'https://openalex.org/A5071911474', 'display_name': 'Jan Pomikálek', 'orcid': None}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': 'Jan Pomikálek', 'raw_affiliation_strings': [], 'affiliations': []}, {'author_position': 'middle', 'author': {'id': 'https://openalex.org/A5056288251', 'display_name': 'Miloš Jakubíček', 'orcid': 'https://orcid.org/0000-0002-6208-7602'}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': 'Miloš Jakubíček', 'raw_affiliation_strings': [], 'affiliations': []}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5063973281', 'display_name': 'Pete Whitelock', 'orcid': None}, 'institutions': [], 'countries': [], 'is_corresponding': False, 'raw_author_name': 'Pete Whitelock', 'raw_affiliation_strings': [], 'affiliations': []}], 'institution_assertions': [], 'countries_distinct_count': 0, 'institutions_distinct_count': 0, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 3.747, 'has_fulltext': False, 'cited_by_count': 6, 'citation_normalized_percentile': {'value': 0.921691, 'is_in_top_1_percent': False, 'is_in_top_10_percent': True}, 'cited_by_percentile_year': {'min': 81, 'max': 83}, 'biblio': {'volume': None, 'issue': None, 'first_page': '606', 'last_page': '612'}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T12353', 'display_name': 'Lexicography and Dictionary Development', 'score': 0.9998, 'subfield': {'id': 'https://openalex.org/subfields/1203', 'display_name': 'Language and Linguistics'}, 'field': {'id': 'https://openalex.org/fields/12', 'display_name': 'Arts and Humanities'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}, 'topics': [{'id': 'https://openalex.org/T12353', 'display_name': 'Lexicography and Dictionary Development', 'score': 0.9998, 'subfield': {'id': 'https://openalex.org/subfields/1203', 'display_name': 'Language and Linguistics'}, 'field': {'id': 'https://openalex.org/fields/12', 'display_name': 'Arts and Humanities'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}, {'id': 'https://openalex.org/T10181', 'display_name': 'Statistical Machine Translation and Natural Language Processing', 'score': 0.9997, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T12881', 'display_name': 'Theoretical and Applied Studies in Terminology and Specialized Language', 'score': 0.9917, 'subfield': {'id': 'https://openalex.org/subfields/1203', 'display_name': 'Language and Linguistics'}, 'field': {'id': 'https://openalex.org/fields/12', 'display_name': 'Arts and Humanities'}, 'domain': {'id': 'https://openalex.org/domains/2', 'display_name': 'Social Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/lexical-database', 'display_name': 'Lexical database', 'score': 0.5204932}, {'id': 'https://openalex.org/keywords/dependency-parsing', 'display_name': 'Dependency Parsing', 'score': 0.495053}, {'id': 'https://openalex.org/keywords/lexicography', 'display_name': 'Lexicography', 'score': 0.47391614}, {'id': 'https://openalex.org/keywords/sketch', 'display_name': 'Sketch', 'score': 0.43426704}, {'id': 'https://openalex.org/keywords/dependency-grammar', 'display_name': 'Dependency grammar', 'score': 0.4134753}], 'concepts': [{'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.801476}, {'id': 'https://openalex.org/C204321447', 'wikidata': 'https://www.wikidata.org/wiki/Q30642', 'display_name': 'Natural language processing', 'level': 1, 'score': 0.73933274}, {'id': 'https://openalex.org/C35219183', 'wikidata': 'https://www.wikidata.org/wiki/Q5146', 'display_name': 'Portuguese', 'level': 2, 'score': 0.6962573}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.65232337}, {'id': 'https://openalex.org/C186644900', 'wikidata': 'https://www.wikidata.org/wiki/Q194152', 'display_name': 'Parsing', 'level': 2, 'score': 0.559817}, {'id': 'https://openalex.org/C90805587', 'wikidata': 'https://www.wikidata.org/wiki/Q10944557', 'display_name': 'Word (group theory)', 'level': 2, 'score': 0.5375205}, {'id': 'https://openalex.org/C2780451532', 'wikidata': 'https://www.wikidata.org/wiki/Q759676', 'display_name': 'Task (project management)', 'level': 2, 'score': 0.5240317}, {'id': 'https://openalex.org/C2780403423', 'wikidata': 'https://www.wikidata.org/wiki/Q6537700', 'display_name': 'Lexical database', 'level': 3, 'score': 0.5204932}, {'id': 'https://openalex.org/C2778121359', 'wikidata': 'https://www.wikidata.org/wiki/Q8096', 'display_name': 'Lexicon', 'level': 2, 'score': 0.5202281}, {'id': 'https://openalex.org/C192209626', 'wikidata': 'https://www.wikidata.org/wiki/Q190909', 'display_name': 'Focus (optics)', 'level': 2, 'score': 0.47875065}, {'id': 'https://openalex.org/C80976798', 'wikidata': 'https://www.wikidata.org/wiki/Q184524', 'display_name': 'Lexicography', 'level': 2, 'score': 0.47391614}, {'id': 'https://openalex.org/C41895202', 'wikidata': 'https://www.wikidata.org/wiki/Q8162', 'display_name': 'Linguistics', 'level': 1, 'score': 0.4427066}, {'id': 'https://openalex.org/C2779231336', 'wikidata': 'https://www.wikidata.org/wiki/Q7534724', 'display_name': 'Sketch', 'level': 2, 'score': 0.43426704}, {'id': 'https://openalex.org/C2780719617', 'wikidata': 'https://www.wikidata.org/wiki/Q1030752', 'display_name': 'Salient', 'level': 2, 'score': 0.43110466}, {'id': 'https://openalex.org/C164883195', 'wikidata': 'https://www.wikidata.org/wiki/Q674834', 'display_name': 'Dependency grammar', 'level': 3, 'score': 0.4134753}, {'id': 'https://openalex.org/C157659113', 'wikidata': 'https://www.wikidata.org/wiki/Q533822', 'display_name': 'WordNet', 'level': 2, 'score': 0.17299506}, {'id': 'https://openalex.org/C138885662', 'wikidata': 'https://www.wikidata.org/wiki/Q5891', 'display_name': 'Philosophy', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C121332964', 'wikidata': 'https://www.wikidata.org/wiki/Q413', 'display_name': 'Physics', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C187736073', 'wikidata': 'https://www.wikidata.org/wiki/Q2920921', 'display_name': 'Management', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C11413529', 'wikidata': 'https://www.wikidata.org/wiki/Q8366', 'display_name': 'Algorithm', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C120665830', 'wikidata': 'https://www.wikidata.org/wiki/Q14620', 'display_name': 'Optics', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C162324750', 'wikidata': 'https://www.wikidata.org/wiki/Q8134', 'display_name': 'Economics', 'level': 0, 'score': 0.0}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'https://www.euralex.org/elx_proceedings/Euralex2012/pp778-785%20Kilgarriff,%20Pomikalek,%20Jakubicek%20and%20Whitelock.pdf', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S4306523542', 'display_name': 'Proceedings of the 15th EURALEX International Congress', 'issn_l': None, 'issn': None, 'is_oa': False, 'is_in_doaj': False, 'is_core': False, 'host_organization': None, 'host_organization_name': None, 'host_organization_lineage': [], 'host_organization_lineage_names': [], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [{'display_name': 'Quality education', 'score': 0.77, 'id': 'https://metadata.un.org/sdg/4'}], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 10, 'referenced_works': ['https://openalex.org/W1518866956', 'https://openalex.org/W1546097390', 'https://openalex.org/W1757541102', 'https://openalex.org/W2115865995', 'https://openalex.org/W2118727757', 'https://openalex.org/W2155870214', 'https://openalex.org/W2248696035', 'https://openalex.org/W2488300595', 'https://openalex.org/W2758639250', 'https://openalex.org/W623622508'], 'related_works': ['https://openalex.org/W69408855', 'https://openalex.org/W37706941', 'https://openalex.org/W3111143273', 'https://openalex.org/W3030872233', 'https://openalex.org/W2801820180', 'https://openalex.org/W2799927817', 'https://openalex.org/W2766745579', 'https://openalex.org/W2600469671', 'https://openalex.org/W2592276823', 'https://openalex.org/W2588350997', 'https://openalex.org/W2407051582', 'https://openalex.org/W2251432772', 'https://openalex.org/W2148822332', 'https://openalex.org/W2140899286', 'https://openalex.org/W2118622213', 'https://openalex.org/W2043635350', 'https://openalex.org/W2031773859', 'https://openalex.org/W1983774632', 'https://openalex.org/W1981379484', 'https://openalex.org/W1495542223'], 'abstract_inverted_index': {'There': [0], 'are': [1, 147], 'many': [2], 'benefits': [3], 'to': [4, 9, 53, 116, 126, 134, 149], 'using': [5], 'corpora.': [6], 'In': [7], 'order': [8], 'reap\nthose': [10], 'rewards,': [11], 'how': [12], 'should': [13], 'someone': [14], 'who': [15], 'is': [16], 'setting': [17], 'up': [18], 'a\ndictionary': [19], 'project': [20], 'proceed?': [21], 'We': [22, 40, 114], 'describe': [23], 'a': [24, 31, 57, 109], 'practical': [25], 'experience\nof': [26], 'such': [27], '‘setting': [28], 'up’': [29], 'for': [30, 78, 80, 120, 145], 'new': [32], 'Portuguese-English,\nEnglish-Portuguese': [33], 'dictionary': [34], 'being': [35], 'written': [36], 'at': [37], 'Oxford\nUniversity': [38], 'Press.': [39], 'focus': [41], 'on': [42], 'the': [43, 54, 65, 75, 85, 94, 100, 135, 140, 152], 'Portuguese': [44, 50, 79], 'side,': [45], 'as': [46, 97], 'OUP': [47], 'did\nnot': [48], 'have': [49], 'resources': [51], 'prior': [52], 'project.': [55], 'We\ncollected': [56], 'very': [58, 86], 'large': [59, 87], '(3.5': [60], 'billion': [61], 'word)': [62], 'corpus': [63, 155], 'from': [64], 'web,\nincluding': [66], 'removing': [67], 'all': [68], 'unwanted': [69], 'material': [70], 'and': [71, 83, 111, 128], 'duplicates.': [72], 'We\nthen': [73], 'identified': [74], 'best': [76], 'tools': [77, 144], 'lemmatizing\nand': [81], 'parsing,': [82], 'undertook': [84], 'task': [88], 'of': [89, 108, 139], 'parsing': [90], 'it.\nWe': [91], 'then': [92], 'used': [93], 'dependency': [95], 'parses,': [96], 'output': [98], 'by': [99], 'parser,': [101], 'to\ncreate': [102], 'word': [103, 136], 'sketches': [104], '(one': [105], 'page': [106], 'summaries': [107], 'word’s\ngrammatical': [110], 'collocational': [112], 'behavior).': [113], 'plan': [115], 'customize\nan': [117], 'existing': [118], 'system': [119], 'automatically': [121], 'identifying': [122], 'good': [123], 'candidate\ndictionary': [124], 'examples,': [125], 'Portuguese,': [127], 'add': [129], 'salient': [130], 'information\nabout': [131], 'regional': [132], 'words': [133], 'sketches.': [137], 'All': [138], 'data': [141], 'and\nassociated': [142], 'support': [143], 'lexicography': [146], 'available': [148], 'the\nlexicographer': [150], 'in': [151], 'Sketch': [153], 'Engine': [154], 'query': [156], 'system.': [157]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2594131347', 'counts_by_year': [{'year': 2017, 'cited_by_count': 1}, {'year': 2016, 'cited_by_count': 2}, {'year': 2014, 'cited_by_count': 1}, {'year': 2013, 'cited_by_count': 1}, {'year': 2012, 'cited_by_count': 1}], 'updated_date': '2024-09-16T22:08:34.796916', 'created_date': '2017-03-16'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works