A DATA-DRIVEN DOCUMENT SIMILARITY MEASURE BASED ON CLASSIFICATION ALGORITHMS

Su Gon Cho; Seoung Bum Kim
{'id': 'https://openalex.org/W2765418216', 'doi': None, 'title': 'A DATA-DRIVEN DOCUMENT SIMILARITY MEASURE BASED ON CLASSIFICATION ALGORITHMS', 'display_name': 'A DATA-DRIVEN DOCUMENT SIMILARITY MEASURE BASED ON CLASSIFICATION ALGORITHMS', 'publication_year': 2017, 'publication_date': '2017-10-29', 'ids': {'openalex': 'https://openalex.org/W2765418216', 'mag': '2765418216'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://journals.sfu.ca/ijietap/index.php/ijie/article/view/2451', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S959686537', 'display_name': 'International journal of industrial engineering', 'issn_l': '1072-4761', 'issn': ['1072-4761'], 'is_oa': False, 'is_in_doaj': False, 'is_core': True, 'host_organization': 'https://openalex.org/P4310316454', 'host_organization_name': 'University of Texas at El Paso', 'host_organization_lineage': ['https://openalex.org/P4310316454'], 'host_organization_lineage_names': ['University of Texas at El Paso'], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'journal-article', 'indexed_in': [], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5008044052', 'display_name': 'Su Gon Cho', 'orcid': None}, 'institutions': [], 'countries': ['KR'], 'is_corresponding': False, 'raw_author_name': 'Su Gon Cho', 'raw_affiliation_strings': ['Korea University'], 'affiliations': [{'raw_affiliation_string': 'Korea University', 'institution_ids': []}]}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5058258354', 'display_name': 'Seoung Bum Kim', 'orcid': 'https://orcid.org/0000-0002-2205-8516'}, 'institutions': [], 'countries': ['KR'], 'is_corresponding': False, 'raw_author_name': 'Seoung Bum Kim', 'raw_affiliation_strings': ['Korea University'], 'affiliations': [{'raw_affiliation_string': 'Korea University', 'institution_ids': []}]}], 'institution_assertions': [], 'countries_distinct_count': 1, 'institutions_distinct_count': 0, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 0.0, 'has_fulltext': False, 'cited_by_count': 3, 'citation_normalized_percentile': {'value': 0.0, 'is_in_top_1_percent': False, 'is_in_top_10_percent': False}, 'cited_by_percentile_year': {'min': 75, 'max': 78}, 'biblio': {'volume': '24', 'issue': '3', 'first_page': '328', 'last_page': '339'}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T13083', 'display_name': 'Automatic Keyword Extraction from Textual Data', 'score': 0.9919, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, 'topics': [{'id': 'https://openalex.org/T13083', 'display_name': 'Automatic Keyword Extraction from Textual Data', 'score': 0.9919, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T11550', 'display_name': 'Multi-label Text Classification in Machine Learning', 'score': 0.9886, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T10028', 'display_name': 'Natural Language Processing', 'score': 0.9798, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/similarity', 'display_name': 'Similarity (geometry)', 'score': 0.7310852}, {'id': 'https://openalex.org/keywords/similarity-measure', 'display_name': 'Similarity measure', 'score': 0.60276604}, {'id': 'https://openalex.org/keywords/semantic-similarity', 'display_name': 'Semantic Similarity', 'score': 0.57546}, {'id': 'https://openalex.org/keywords/text-classification', 'display_name': 'Text Classification', 'score': 0.562879}, {'id': 'https://openalex.org/keywords/document-categorization', 'display_name': 'Document Categorization', 'score': 0.562005}, {'id': 'https://openalex.org/keywords/word-representation', 'display_name': 'Word Representation', 'score': 0.542922}, {'id': 'https://openalex.org/keywords/document-classification', 'display_name': 'Document classification', 'score': 0.532583}, {'id': 'https://openalex.org/keywords/topic-modeling', 'display_name': 'Topic Modeling', 'score': 0.528124}], 'concepts': [{'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.73403835}, {'id': 'https://openalex.org/C103278499', 'wikidata': 'https://www.wikidata.org/wiki/Q254465', 'display_name': 'Similarity (geometry)', 'level': 3, 'score': 0.7310852}, {'id': 'https://openalex.org/C2780009758', 'wikidata': 'https://www.wikidata.org/wiki/Q6804172', 'display_name': 'Measure (data warehouse)', 'level': 2, 'score': 0.6764467}, {'id': 'https://openalex.org/C2776517306', 'wikidata': 'https://www.wikidata.org/wiki/Q29017317', 'display_name': 'Similarity measure', 'level': 2, 'score': 0.60276604}, {'id': 'https://openalex.org/C61797465', 'wikidata': 'https://www.wikidata.org/wiki/Q1188986', 'display_name': 'Term (time)', 'level': 2, 'score': 0.5684252}, {'id': 'https://openalex.org/C204323151', 'wikidata': 'https://www.wikidata.org/wiki/Q905424', 'display_name': 'Range (aeronautics)', 'level': 2, 'score': 0.53494304}, {'id': 'https://openalex.org/C2780479914', 'wikidata': 'https://www.wikidata.org/wiki/Q302088', 'display_name': 'Document classification', 'level': 2, 'score': 0.532583}, {'id': 'https://openalex.org/C81917197', 'wikidata': 'https://www.wikidata.org/wiki/Q628760', 'display_name': 'Selection (genetic algorithm)', 'level': 2, 'score': 0.51513183}, {'id': 'https://openalex.org/C2777530160', 'wikidata': 'https://www.wikidata.org/wiki/Q41796', 'display_name': 'Sentence', 'level': 2, 'score': 0.4999342}, {'id': 'https://openalex.org/C124101348', 'wikidata': 'https://www.wikidata.org/wiki/Q172491', 'display_name': 'Data mining', 'level': 1, 'score': 0.49651343}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.48168716}, {'id': 'https://openalex.org/C23123220', 'wikidata': 'https://www.wikidata.org/wiki/Q816826', 'display_name': 'Information retrieval', 'level': 1, 'score': 0.41314277}, {'id': 'https://openalex.org/C204321447', 'wikidata': 'https://www.wikidata.org/wiki/Q30642', 'display_name': 'Natural language processing', 'level': 1, 'score': 0.37235722}, {'id': 'https://openalex.org/C11413529', 'wikidata': 'https://www.wikidata.org/wiki/Q8366', 'display_name': 'Algorithm', 'level': 1, 'score': 0.34210968}, {'id': 'https://openalex.org/C153180895', 'wikidata': 'https://www.wikidata.org/wiki/Q7148389', 'display_name': 'Pattern recognition (psychology)', 'level': 2, 'score': 0.32602686}, {'id': 'https://openalex.org/C121332964', 'wikidata': 'https://www.wikidata.org/wiki/Q413', 'display_name': 'Physics', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C192562407', 'wikidata': 'https://www.wikidata.org/wiki/Q228736', 'display_name': 'Materials science', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C159985019', 'wikidata': 'https://www.wikidata.org/wiki/Q181790', 'display_name': 'Composite material', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C62520636', 'wikidata': 'https://www.wikidata.org/wiki/Q944', 'display_name': 'Quantum mechanics', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C115961682', 'wikidata': 'https://www.wikidata.org/wiki/Q860623', 'display_name': 'Image (mathematics)', 'level': 2, 'score': 0.0}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'https://journals.sfu.ca/ijietap/index.php/ijie/article/view/2451', 'pdf_url': None, 'source': {'id': 'https://openalex.org/S959686537', 'display_name': 'International journal of industrial engineering', 'issn_l': '1072-4761', 'issn': ['1072-4761'], 'is_oa': False, 'is_in_doaj': False, 'is_core': True, 'host_organization': 'https://openalex.org/P4310316454', 'host_organization_name': 'University of Texas at El Paso', 'host_organization_lineage': ['https://openalex.org/P4310316454'], 'host_organization_lineage_names': ['University of Texas at El Paso'], 'type': 'journal'}, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [{'display_name': 'Quality education', 'score': 0.73, 'id': 'https://metadata.un.org/sdg/4'}], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 0, 'referenced_works': [], 'related_works': ['https://openalex.org/W88663061', 'https://openalex.org/W3194219952', 'https://openalex.org/W3135281810', 'https://openalex.org/W3123482205', 'https://openalex.org/W3023321459', 'https://openalex.org/W2906685695', 'https://openalex.org/W2899304488', 'https://openalex.org/W2799855306', 'https://openalex.org/W2798413968', 'https://openalex.org/W2785390220', 'https://openalex.org/W2742152190', 'https://openalex.org/W2595510158', 'https://openalex.org/W2553341663', 'https://openalex.org/W2183518317', 'https://openalex.org/W2182204604', 'https://openalex.org/W2129292942', 'https://openalex.org/W2107131706', 'https://openalex.org/W2000531704', 'https://openalex.org/W1980966326', 'https://openalex.org/W1915050146'], 'abstract_inverted_index': {'Measuring': [0], 'document': [1, 94], 'similarity': [2, 27, 95, 126], 'has': [3], 'shown': [4], 'its': [5], 'fundamental': [6], 'utilization': [7], 'in': [8, 43], 'various': [9], 'text': [10], 'mining': [11], 'application': [12], 'problems.': [13], 'This': [14], 'paper': [15], 'propose': [16], 'a': [17, 32, 44, 79], 'new': [18], 'method': [19, 117], 'based': [20, 61], 'on': [21, 62, 90], 'classification': [22, 53, 81], 'algorithms': [23], 'for': [24], 'measuring': [25], 'the': [26, 37, 52, 63, 103, 108, 115, 123, 129], 'between': [28, 83], 'two': [29, 56], 'texts.': [30, 57, 85], 'Specifically,': [31], 'sentence-term': [33], 'matrix': [34], 'that': [35, 41, 65, 114], 'describes': [36], 'frequency': [38], 'of': [39, 46, 55, 110, 132], 'terms': [40], 'occur': [42], 'collection': [45], 'sentences': [47], 'was': [48], 'created': [49], 'to': [50, 70, 78, 120], 'measure': [51], 'accuracy': [54, 82], 'Our': [58], 'idea': [59], 'is': [60, 118], 'fact': [64], 'similar': [66, 84], 'texts': [67], 'are': [68], 'difficult': [69], 'distinguish': [71], 'from': [72, 102], 'each': [73], 'other,': [74], 'which': [75], 'should': [76], 'lead': [77], 'low': [80], 'By': [86], 'making': [87], 'comparative': [88], 'experiments': [89], 'several': [91], 'widely': [92], 'used': [93], 'measures,': [96], 'analysis': [97], 'results': [98], 'with': [99], 'real': [100], 'data': [101], 'Machine': [104], 'Learning': [105], 'Repository': [106], 'at': [107], 'University': [109], 'California,': [111], 'Irvine': [112], 'demonstrate': [113], 'proposed': [116], 'able': [119], 'achieve': [121], 'outperformed': [122], 'other': [124], 'existing': [125], 'measures': [127], 'across': [128], 'entire': [130], 'range': [131], 'term': [133], 'selection': [134], 'filters.': [135]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2765418216', 'counts_by_year': [{'year': 2020, 'cited_by_count': 1}, {'year': 2019, 'cited_by_count': 2}], 'updated_date': '2024-09-20T00:48:26.027388', 'created_date': '2017-11-10'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works