Deep learning for monaural speech separation

Name: Work Video:
Duration: 3 min 30 s
Po Sen Huang; Minje Kim; Mark Hasegawa–Johnson; Paris Smaragdis
{'id': 'https://openalex.org/W2031647436', 'doi': 'https://doi.org/10.1109/icassp.2014.6853860', 'title': 'Deep learning for monaural speech separation', 'display_name': 'Deep learning for monaural speech separation', 'publication_year': 2014, 'publication_date': '2014-05-01', 'ids': {'openalex': 'https://openalex.org/W2031647436', 'doi': 'https://doi.org/10.1109/icassp.2014.6853860', 'mag': '2031647436'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://doi.org/10.1109/icassp.2014.6853860', 'pdf_url': None, 'source': None, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'proceedings-article', 'indexed_in': ['crossref'], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5113589954', 'display_name': 'Po Sen Huang', 'orcid': None}, 'institutions': [{'id': 'https://openalex.org/I157725225', 'display_name': 'University of Illinois Urbana-Champaign', 'ror': 'https://ror.org/047426m28', 'country_code': 'US', 'type': 'education', 'lineage': ['https://openalex.org/I157725225']}], 'countries': ['US'], 'is_corresponding': False, 'raw_author_name': 'Po-Sen Huang', 'raw_affiliation_strings': ['Dept of Electr. & Comput. Engg, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA'], 'affiliations': [{'raw_affiliation_string': 'Dept of Electr. & Comput. Engg, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA', 'institution_ids': ['https://openalex.org/I157725225']}]}, {'author_position': 'middle', 'author': {'id': 'https://openalex.org/A5064582903', 'display_name': 'Minje Kim', 'orcid': 'https://orcid.org/0000-0003-3513-8328'}, 'institutions': [{'id': 'https://openalex.org/I157725225', 'display_name': 'University of Illinois Urbana-Champaign', 'ror': 'https://ror.org/047426m28', 'country_code': 'US', 'type': 'education', 'lineage': ['https://openalex.org/I157725225']}], 'countries': ['US'], 'is_corresponding': False, 'raw_author_name': 'Minje Kim', 'raw_affiliation_strings': ['[Dept. of Computer Science, University of Illinois at Urbana-Champaign, Urbana, IL, USA]'], 'affiliations': [{'raw_affiliation_string': '[Dept. of Computer Science, University of Illinois at Urbana-Champaign, Urbana, IL, USA]', 'institution_ids': ['https://openalex.org/I157725225']}]}, {'author_position': 'middle', 'author': {'id': 'https://openalex.org/A5004778663', 'display_name': 'Mark Hasegawa–Johnson', 'orcid': 'https://orcid.org/0000-0002-5631-2893'}, 'institutions': [{'id': 'https://openalex.org/I157725225', 'display_name': 'University of Illinois Urbana-Champaign', 'ror': 'https://ror.org/047426m28', 'country_code': 'US', 'type': 'education', 'lineage': ['https://openalex.org/I157725225']}], 'countries': ['US'], 'is_corresponding': False, 'raw_author_name': 'Mark Hasegawa-Johnson', 'raw_affiliation_strings': ['Dept of Electr. & Comput. Engg, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA'], 'affiliations': [{'raw_affiliation_string': 'Dept of Electr. & Comput. Engg, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA', 'institution_ids': ['https://openalex.org/I157725225']}]}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5038903729', 'display_name': 'Paris Smaragdis', 'orcid': None}, 'institutions': [{'id': 'https://openalex.org/I157725225', 'display_name': 'University of Illinois Urbana-Champaign', 'ror': 'https://ror.org/047426m28', 'country_code': 'US', 'type': 'education', 'lineage': ['https://openalex.org/I157725225']}], 'countries': ['US'], 'is_corresponding': False, 'raw_author_name': 'Paris Smaragdis', 'raw_affiliation_strings': ['Dept of Electr. & Comput. Engg, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA'], 'affiliations': [{'raw_affiliation_string': 'Dept of Electr. & Comput. Engg, Univ. of Illinois at Urbana-Champaign, Urbana, IL, USA', 'institution_ids': ['https://openalex.org/I157725225']}]}], 'institution_assertions': [], 'countries_distinct_count': 1, 'institutions_distinct_count': 1, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 27.177, 'has_fulltext': True, 'fulltext_origin': 'ngrams', 'cited_by_count': 423, 'citation_normalized_percentile': {'value': 0.9996, 'is_in_top_1_percent': True, 'is_in_top_10_percent': True}, 'cited_by_percentile_year': {'min': 99, 'max': 100}, 'biblio': {'volume': None, 'issue': None, 'first_page': '1562', 'last_page': '1566'}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T10860', 'display_name': 'Speech and Audio Processing', 'score': 1.0, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, 'topics': [{'id': 'https://openalex.org/T10860', 'display_name': 'Speech and Audio Processing', 'score': 1.0, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T10201', 'display_name': 'Speech Recognition and Synthesis', 'score': 0.9991, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T11309', 'display_name': 'Music and Audio Processing', 'score': 0.9968, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/monaural', 'display_name': 'Monaural', 'score': 0.94545877}, {'id': 'https://openalex.org/keywords/timit', 'display_name': 'TIMIT', 'score': 0.68955183}, {'id': 'https://openalex.org/keywords/discriminative-model', 'display_name': 'Discriminative model', 'score': 0.56962305}, {'id': 'https://openalex.org/keywords/separation', 'display_name': 'Separation (statistics)', 'score': 0.52121365}, {'id': 'https://openalex.org/keywords/source-separation', 'display_name': 'Source Separation', 'score': 0.50507385}], 'concepts': [{'id': 'https://openalex.org/C102894143', 'wikidata': 'https://www.wikidata.org/wiki/Q1323979', 'display_name': 'Monaural', 'level': 2, 'score': 0.94545877}, {'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.7952387}, {'id': 'https://openalex.org/C2778724510', 'wikidata': 'https://www.wikidata.org/wiki/Q7670405', 'display_name': 'TIMIT', 'level': 3, 'score': 0.68955183}, {'id': 'https://openalex.org/C108583219', 'wikidata': 'https://www.wikidata.org/wiki/Q197536', 'display_name': 'Deep learning', 'level': 2, 'score': 0.6414765}, {'id': 'https://openalex.org/C28490314', 'wikidata': 'https://www.wikidata.org/wiki/Q189436', 'display_name': 'Speech recognition', 'level': 1, 'score': 0.62800264}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.5812562}, {'id': 'https://openalex.org/C97931131', 'wikidata': 'https://www.wikidata.org/wiki/Q5282087', 'display_name': 'Discriminative model', 'level': 2, 'score': 0.56962305}, {'id': 'https://openalex.org/C50644808', 'wikidata': 'https://www.wikidata.org/wiki/Q192776', 'display_name': 'Artificial neural network', 'level': 2, 'score': 0.5286066}, {'id': 'https://openalex.org/C2776061190', 'wikidata': 'https://www.wikidata.org/wiki/Q7451805', 'display_name': 'Separation (statistics)', 'level': 2, 'score': 0.52121365}, {'id': 'https://openalex.org/C2776864781', 'wikidata': 'https://www.wikidata.org/wiki/Q52617913', 'display_name': 'Source separation', 'level': 2, 'score': 0.50507385}, {'id': 'https://openalex.org/C2776036281', 'wikidata': 'https://www.wikidata.org/wiki/Q48769818', 'display_name': 'Constraint (computer-aided design)', 'level': 2, 'score': 0.4175651}, {'id': 'https://openalex.org/C119857082', 'wikidata': 'https://www.wikidata.org/wiki/Q2539', 'display_name': 'Machine learning', 'level': 1, 'score': 0.36921403}, {'id': 'https://openalex.org/C153180895', 'wikidata': 'https://www.wikidata.org/wiki/Q7148389', 'display_name': 'Pattern recognition (psychology)', 'level': 2, 'score': 0.3347417}, {'id': 'https://openalex.org/C23224414', 'wikidata': 'https://www.wikidata.org/wiki/Q176769', 'display_name': 'Hidden Markov model', 'level': 2, 'score': 0.09422472}, {'id': 'https://openalex.org/C127413603', 'wikidata': 'https://www.wikidata.org/wiki/Q11023', 'display_name': 'Engineering', 'level': 0, 'score': 0.07874107}, {'id': 'https://openalex.org/C78519656', 'wikidata': 'https://www.wikidata.org/wiki/Q101333', 'display_name': 'Mechanical engineering', 'level': 1, 'score': 0.0}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'https://doi.org/10.1109/icassp.2014.6853860', 'pdf_url': None, 'source': None, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [{'display_name': 'Reduced inequalities', 'id': 'https://metadata.un.org/sdg/10', 'score': 0.72}], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 18, 'referenced_works': ['https://openalex.org/W1513606575', 'https://openalex.org/W1902027874', 'https://openalex.org/W1994935303', 'https://openalex.org/W2013598660', 'https://openalex.org/W2016589492', 'https://openalex.org/W2100495367', 'https://openalex.org/W2107743791', 'https://openalex.org/W2115730999', 'https://openalex.org/W2127851351', 'https://openalex.org/W2133340843', 'https://openalex.org/W2135151673', 'https://openalex.org/W2136189984', 'https://openalex.org/W2141411743', 'https://openalex.org/W2156387975', 'https://openalex.org/W2164098335', 'https://openalex.org/W2168379380', 'https://openalex.org/W2290318471', 'https://openalex.org/W4233135949'], 'related_works': ['https://openalex.org/W3097681199', 'https://openalex.org/W3013896298', 'https://openalex.org/W2987870598', 'https://openalex.org/W2955471771', 'https://openalex.org/W2929481141', 'https://openalex.org/W2902298602', 'https://openalex.org/W2892198678', 'https://openalex.org/W2103031592', 'https://openalex.org/W2098198482', 'https://openalex.org/W1967226023'], 'abstract_inverted_index': {'Monaural': [0], 'source': [1], 'separation': [2, 68, 83], 'is': [3, 11], 'useful': [4], 'for': [5, 22, 60, 79], 'many': [6], 'real-world': [7], 'applications': [8], 'though': [9], 'it': [10], 'a': [12, 50, 56, 80], 'challenging': [13], 'problem.': [14], 'In': [15], 'this': [16], 'paper,': [17], 'we': [18, 54], 'study': [19], 'deep': [20, 33], 'learning': [21, 34], 'monaural': [23, 81], 'speech': [24, 77, 82], 'separation.': [25], 'We': [26, 70], 'propose': [27], 'the': [28, 32, 61, 67, 75], 'joint': [29], 'optimization': [30], 'of': [31], 'models': [35, 87], '(deep': [36], 'neural': [37, 41, 62], 'networks': [38, 63], 'and': [39, 102], 'recurrent': [40], 'networks)': [42], 'with': [43], 'an': [44], 'extra': [45], 'masking': [46], 'layer,': [47], 'which': [48], 'enforces': [49], 'reconstruction': [51], 'constraint.': [52], 'Moreover,': [53], 'explore': [55], 'discriminative': [57], 'training': [58], 'criterion': [59], 'to': [64, 95], 'further': [65], 'enhance': [66], 'performance.': [69], 'evaluate': [71], 'our': [72], 'approaches': [73], 'using': [74], 'TIMIT': [76], 'corpus': [78], 'task.': [84], 'Our': [85], 'proposed': [86], 'achieve': [88], 'about': [89], '3.8∼4.9': [90], 'dB': [91], 'SIR': [92], 'gain': [93], 'compared': [94], 'NMF': [96], 'models,': [97], 'while': [98], 'maintaining': [99], 'better': [100], 'SDRs': [101], 'SARs.': [103]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2031647436', 'counts_by_year': [{'year': 2024, 'cited_by_count': 18}, {'year': 2023, 'cited_by_count': 24}, {'year': 2022, 'cited_by_count': 32}, {'year': 2021, 'cited_by_count': 52}, {'year': 2020, 'cited_by_count': 55}, {'year': 2019, 'cited_by_count': 54}, {'year': 2018, 'cited_by_count': 56}, {'year': 2017, 'cited_by_count': 46}, {'year': 2016, 'cited_by_count': 38}, {'year': 2015, 'cited_by_count': 37}, {'year': 2014, 'cited_by_count': 7}], 'updated_date': '2024-12-14T08:30:38.900104', 'created_date': '2016-06-24'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works