Improved Syllable Based Acoustic Modeling by Inter-Syllable Transition Model for Continuous Chinese Speech Recognition

Chao Hao; Wenju Liu
{'id': 'https://openalex.org/W2169455968', 'doi': 'https://doi.org/10.1109/ccpr.2009.5344019', 'title': 'Improved Syllable Based Acoustic Modeling by Inter-Syllable Transition Model for Continuous Chinese Speech Recognition', 'display_name': 'Improved Syllable Based Acoustic Modeling by Inter-Syllable Transition Model for Continuous Chinese Speech Recognition', 'publication_year': 2009, 'publication_date': '2009-11-01', 'ids': {'openalex': 'https://openalex.org/W2169455968', 'doi': 'https://doi.org/10.1109/ccpr.2009.5344019', 'mag': '2169455968'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://doi.org/10.1109/ccpr.2009.5344019', 'pdf_url': None, 'source': None, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'proceedings-article', 'indexed_in': ['crossref'], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5021932420', 'display_name': 'Chao Hao', 'orcid': 'https://orcid.org/0000-0001-6700-9446'}, 'institutions': [{'id': 'https://openalex.org/I4210094879', 'display_name': 'Shandong Institute of Automation', 'ror': 'https://ror.org/00qdtba35', 'country_code': 'CN', 'type': 'facility', 'lineage': ['https://openalex.org/I4210094879', 'https://openalex.org/I4210142748']}], 'countries': ['CN'], 'is_corresponding': False, 'raw_author_name': 'Hao Chao', 'raw_affiliation_strings': ['Institute of Automation, Chinese Academy and Sciences, Beijing, China'], 'affiliations': [{'raw_affiliation_string': 'Institute of Automation, Chinese Academy and Sciences, Beijing, China', 'institution_ids': ['https://openalex.org/I4210094879']}]}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5039635290', 'display_name': 'Wenju Liu', 'orcid': 'https://orcid.org/0000-0001-9088-8282'}, 'institutions': [{'id': 'https://openalex.org/I4210094879', 'display_name': 'Shandong Institute of Automation', 'ror': 'https://ror.org/00qdtba35', 'country_code': 'CN', 'type': 'facility', 'lineage': ['https://openalex.org/I4210094879', 'https://openalex.org/I4210142748']}], 'countries': ['CN'], 'is_corresponding': False, 'raw_author_name': 'Wenju Liu', 'raw_affiliation_strings': ['Institute of Automation, Chinese Academy and Sciences, Beijing, China'], 'affiliations': [{'raw_affiliation_string': 'Institute of Automation, Chinese Academy and Sciences, Beijing, China', 'institution_ids': ['https://openalex.org/I4210094879']}]}], 'institution_assertions': [], 'countries_distinct_count': 1, 'institutions_distinct_count': 1, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 0.543, 'has_fulltext': True, 'fulltext_origin': 'ngrams', 'cited_by_count': 5, 'citation_normalized_percentile': {'value': 0.610725, 'is_in_top_1_percent': False, 'is_in_top_10_percent': False}, 'cited_by_percentile_year': {'min': 79, 'max': 80}, 'biblio': {'volume': None, 'issue': None, 'first_page': None, 'last_page': None}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T10201', 'display_name': 'Speech Recognition Technology', 'score': 0.9999, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, 'topics': [{'id': 'https://openalex.org/T10201', 'display_name': 'Speech Recognition Technology', 'score': 0.9999, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T10860', 'display_name': 'Speech Enhancement Techniques', 'score': 0.9983, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T11309', 'display_name': 'Audio Signal Classification and Analysis', 'score': 0.998, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/coarticulation', 'display_name': 'Coarticulation', 'score': 0.92266315}, {'id': 'https://openalex.org/keywords/acoustic-modeling', 'display_name': 'Acoustic Modeling', 'score': 0.563721}, {'id': 'https://openalex.org/keywords/speaker-diarization', 'display_name': 'Speaker Diarization', 'score': 0.550308}, {'id': 'https://openalex.org/keywords/end-to-end-speech-recognition', 'display_name': 'End-to-End Speech Recognition', 'score': 0.528473}, {'id': 'https://openalex.org/keywords/audio-visual-speech-recognition', 'display_name': 'Audio-Visual Speech Recognition', 'score': 0.519939}, {'id': 'https://openalex.org/keywords/speech-enhancement', 'display_name': 'Speech Enhancement', 'score': 0.514826}, {'id': 'https://openalex.org/keywords/articulation', 'display_name': 'Articulation (sociology)', 'score': 0.47670954}, {'id': 'https://openalex.org/keywords/mandarin-chinese', 'display_name': 'Mandarin Chinese', 'score': 0.4751444}], 'concepts': [{'id': 'https://openalex.org/C130727458', 'wikidata': 'https://www.wikidata.org/wiki/Q1639109', 'display_name': 'Coarticulation', 'level': 3, 'score': 0.92266315}, {'id': 'https://openalex.org/C109089402', 'wikidata': 'https://www.wikidata.org/wiki/Q8188', 'display_name': 'Syllable', 'level': 2, 'score': 0.86355484}, {'id': 'https://openalex.org/C28490314', 'wikidata': 'https://www.wikidata.org/wiki/Q189436', 'display_name': 'Speech recognition', 'level': 1, 'score': 0.80924606}, {'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.68064237}, {'id': 'https://openalex.org/C2779343474', 'wikidata': 'https://www.wikidata.org/wiki/Q3109175', 'display_name': 'Context (archaeology)', 'level': 2, 'score': 0.57940555}, {'id': 'https://openalex.org/C2779337067', 'wikidata': 'https://www.wikidata.org/wiki/Q4800961', 'display_name': 'Articulation (sociology)', 'level': 3, 'score': 0.47670954}, {'id': 'https://openalex.org/C138954614', 'wikidata': 'https://www.wikidata.org/wiki/Q9192', 'display_name': 'Mandarin Chinese', 'level': 2, 'score': 0.4751444}, {'id': 'https://openalex.org/C23224414', 'wikidata': 'https://www.wikidata.org/wiki/Q176769', 'display_name': 'Hidden Markov model', 'level': 2, 'score': 0.44137955}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.36874196}, {'id': 'https://openalex.org/C2779581591', 'wikidata': 'https://www.wikidata.org/wiki/Q36244', 'display_name': 'Vowel', 'level': 2, 'score': 0.17276531}, {'id': 'https://openalex.org/C41895202', 'wikidata': 'https://www.wikidata.org/wiki/Q8162', 'display_name': 'Linguistics', 'level': 1, 'score': 0.09801039}, {'id': 'https://openalex.org/C17744445', 'wikidata': 'https://www.wikidata.org/wiki/Q36442', 'display_name': 'Political science', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C199539241', 'wikidata': 'https://www.wikidata.org/wiki/Q7748', 'display_name': 'Law', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C86803240', 'wikidata': 'https://www.wikidata.org/wiki/Q420', 'display_name': 'Biology', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C151730666', 'wikidata': 'https://www.wikidata.org/wiki/Q7205', 'display_name': 'Paleontology', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C138885662', 'wikidata': 'https://www.wikidata.org/wiki/Q5891', 'display_name': 'Philosophy', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C94625758', 'wikidata': 'https://www.wikidata.org/wiki/Q7163', 'display_name': 'Politics', 'level': 2, 'score': 0.0}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'https://doi.org/10.1109/ccpr.2009.5344019', 'pdf_url': None, 'source': None, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [{'id': 'https://metadata.un.org/sdg/4', 'score': 0.56, 'display_name': 'Quality education'}], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 9, 'referenced_works': ['https://openalex.org/W1893226766', 'https://openalex.org/W2138530627', 'https://openalex.org/W2141970127', 'https://openalex.org/W2167200294', 'https://openalex.org/W2888226713', 'https://openalex.org/W4285719527', 'https://openalex.org/W88081813', 'https://openalex.org/W88864901', 'https://openalex.org/W93148613'], 'related_works': ['https://openalex.org/W4299854585', 'https://openalex.org/W3304542', 'https://openalex.org/W27484908', 'https://openalex.org/W2355417428', 'https://openalex.org/W2272290179', 'https://openalex.org/W2222951281', 'https://openalex.org/W2119371555', 'https://openalex.org/W2068412075', 'https://openalex.org/W196866866', 'https://openalex.org/W156219719'], 'abstract_inverted_index': {'Accurately': [0], 'modeling': [1, 23], 'the': [2, 45, 82, 93, 102, 112, 119, 124, 131], 'acoustic': [3, 47, 77, 120], 'variabilities': [4], 'caused': [5], 'by': [6, 86, 106], 'coarticulation': [7], 'is': [8, 51, 127], 'important': [9], 'in': [10, 22, 129], 'continuous': [11, 32], 'speech': [12, 34], 'recognition.': [13], 'Recent': [14], 'research': [15], 'indicates': [16], 'that': [17, 118], 'syllable': [18, 65, 75], 'units': [19], 'do': [20], 'better': [21], 'intra-syllable': [24, 87], 'co-articulation': [25, 104], 'effect': [26, 105], 'than': [27], 'sub-syllable': [28], 'units.': [29, 60], 'However,': [30], 'most': [31], 'Mandarin': [33], 'recognition': [35, 113, 132], 'systems': [36], 'use': [37], 'context': [38, 73], 'dependent': [39], 'phones': [40], 'or': [41], 'initial/finals': [42], '(IFs)': [43], 'as': [44], 'basic': [46], 'unit': [48], 'because': [49], 'it': [50], 'difficult': [52], 'to': [53, 57, 91], 'collect': [54], 'sufficient': [55], 'data': [56, 97], 'train': [58], 'longer': [59], 'Here': [61], 'we': [62, 100], 'present': [63], 'a': [64], 'based': [66, 76, 89, 122], 'approach': [67, 126], 'which': [68], 'includes': [69], 'two': [70], 'steps.': [71], 'Firstly,': [72], 'independent': [74], 'models': [78, 83, 110], 'are': [79, 84], 'trained,': [80], 'and': [81], 'initialized': [85], 'IFs': [88], 'diphones': [90], 'solve': [92], 'problem': [94], 'of': [95], 'training': [96], 'sparsity.': [98], 'Secondly,': [99], 'capture': [101], 'inter-syllable': [103, 108], 'incorporating': [107], 'transition': [109], 'into': [111], 'system.': [114], 'Experiment': [115], 'results': [116], 'show': [117], 'model': [121], 'on': [123], 'presented': [125], 'effective': [128], 'improving': [130], 'performance.': [133]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2169455968', 'counts_by_year': [{'year': 2021, 'cited_by_count': 1}, {'year': 2017, 'cited_by_count': 1}, {'year': 2013, 'cited_by_count': 1}], 'updated_date': '2024-09-20T01:19:29.913364', 'created_date': '2016-06-24'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works