Speaker Segmentation and Adaptation for Speech Recognition on Multiple-Speaker Audio Conference Data

Zhu Liu; Murat Saraçlar
{'id': 'https://openalex.org/W2144208207', 'doi': 'https://doi.org/10.1109/icme.2007.4284619', 'title': 'Speaker Segmentation and Adaptation for Speech Recognition on Multiple-Speaker Audio Conference Data', 'display_name': 'Speaker Segmentation and Adaptation for Speech Recognition on Multiple-Speaker Audio Conference Data', 'publication_year': 2007, 'publication_date': '2007-07-01', 'ids': {'openalex': 'https://openalex.org/W2144208207', 'doi': 'https://doi.org/10.1109/icme.2007.4284619', 'mag': '2144208207'}, 'language': 'en', 'primary_location': {'is_oa': False, 'landing_page_url': 'https://doi.org/10.1109/icme.2007.4284619', 'pdf_url': None, 'source': None, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}, 'type': 'article', 'type_crossref': 'proceedings-article', 'indexed_in': ['crossref'], 'open_access': {'is_oa': False, 'oa_status': 'closed', 'oa_url': None, 'any_repository_has_fulltext': False}, 'authorships': [{'author_position': 'first', 'author': {'id': 'https://openalex.org/A5100380643', 'display_name': 'Zhu Liu', 'orcid': 'https://orcid.org/0000-0003-4326-5335'}, 'institutions': [{'id': 'https://openalex.org/I1283103587', 'display_name': 'AT&T (United States)', 'ror': 'https://ror.org/02bbd5539', 'country_code': 'US', 'type': 'company', 'lineage': ['https://openalex.org/I1283103587']}], 'countries': ['US'], 'is_corresponding': False, 'raw_author_name': 'Zhu Liu', 'raw_affiliation_strings': ['AT&T Lab.-Res., Middletown'], 'affiliations': [{'raw_affiliation_string': 'AT&T Lab.-Res., Middletown', 'institution_ids': ['https://openalex.org/I1283103587']}]}, {'author_position': 'last', 'author': {'id': 'https://openalex.org/A5055086464', 'display_name': 'Murat Saraçlar', 'orcid': 'https://orcid.org/0000-0002-7435-8510'}, 'institutions': [{'id': 'https://openalex.org/I4405392', 'display_name': 'Boğaziçi University', 'ror': 'https://ror.org/03z9tma90', 'country_code': 'TR', 'type': 'education', 'lineage': ['https://openalex.org/I4405392']}], 'countries': ['TR'], 'is_corresponding': False, 'raw_author_name': 'Murat Saraclar', 'raw_affiliation_strings': ['Bogazici University, Dept. of Electrical and Electronic Engineering, Bebek 34342 Istanbul, Turkey. [email protected]'], 'affiliations': [{'raw_affiliation_string': 'Bogazici University, Dept. of Electrical and Electronic Engineering, Bebek 34342 Istanbul, Turkey. [email protected]', 'institution_ids': ['https://openalex.org/I4405392']}]}], 'institution_assertions': [], 'countries_distinct_count': 2, 'institutions_distinct_count': 2, 'corresponding_author_ids': [], 'corresponding_institution_ids': [], 'apc_list': None, 'apc_paid': None, 'fwci': 0.993, 'has_fulltext': True, 'fulltext_origin': 'ngrams', 'cited_by_count': 5, 'citation_normalized_percentile': {'value': 0.384352, 'is_in_top_1_percent': False, 'is_in_top_10_percent': False}, 'cited_by_percentile_year': {'min': 78, 'max': 79}, 'biblio': {'volume': None, 'issue': None, 'first_page': None, 'last_page': None}, 'is_retracted': False, 'is_paratext': False, 'primary_topic': {'id': 'https://openalex.org/T10201', 'display_name': 'Speech Recognition Technology', 'score': 0.9997, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, 'topics': [{'id': 'https://openalex.org/T10201', 'display_name': 'Speech Recognition Technology', 'score': 0.9997, 'subfield': {'id': 'https://openalex.org/subfields/1702', 'display_name': 'Artificial Intelligence'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T10860', 'display_name': 'Speech Enhancement Techniques', 'score': 0.9991, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}, {'id': 'https://openalex.org/T11309', 'display_name': 'Audio Signal Classification and Analysis', 'score': 0.9988, 'subfield': {'id': 'https://openalex.org/subfields/1711', 'display_name': 'Signal Processing'}, 'field': {'id': 'https://openalex.org/fields/17', 'display_name': 'Computer Science'}, 'domain': {'id': 'https://openalex.org/domains/3', 'display_name': 'Physical Sciences'}}], 'keywords': [{'id': 'https://openalex.org/keywords/speaker-diarisation', 'display_name': 'Speaker diarisation', 'score': 0.84225297}, {'id': 'https://openalex.org/keywords/normalization', 'display_name': 'Normalization (sociology)', 'score': 0.6916491}, {'id': 'https://openalex.org/keywords/word-error-rate', 'display_name': 'Word error rate', 'score': 0.63721573}, {'id': 'https://openalex.org/keywords/automatic-speech-recognition', 'display_name': 'Automatic Speech Recognition', 'score': 0.634588}, {'id': 'https://openalex.org/keywords/audio-visual-speech-recognition', 'display_name': 'Audio-Visual Speech Recognition', 'score': 0.613257}, {'id': 'https://openalex.org/keywords/speaker-diarization', 'display_name': 'Speaker Diarization', 'score': 0.612751}, {'id': 'https://openalex.org/keywords/speech-enhancement', 'display_name': 'Speech Enhancement', 'score': 0.610084}, {'id': 'https://openalex.org/keywords/speaker-verification', 'display_name': 'Speaker Verification', 'score': 0.601893}, {'id': 'https://openalex.org/keywords/speech-segmentation', 'display_name': 'Speech segmentation', 'score': 0.5619103}, {'id': 'https://openalex.org/keywords/vocal-tract', 'display_name': 'Vocal tract', 'score': 0.5466793}], 'concepts': [{'id': 'https://openalex.org/C28490314', 'wikidata': 'https://www.wikidata.org/wiki/Q189436', 'display_name': 'Speech recognition', 'level': 1, 'score': 0.8571661}, {'id': 'https://openalex.org/C149838564', 'wikidata': 'https://www.wikidata.org/wiki/Q7574248', 'display_name': 'Speaker diarisation', 'level': 3, 'score': 0.84225297}, {'id': 'https://openalex.org/C41008148', 'wikidata': 'https://www.wikidata.org/wiki/Q21198', 'display_name': 'Computer science', 'level': 0, 'score': 0.80510044}, {'id': 'https://openalex.org/C133892786', 'wikidata': 'https://www.wikidata.org/wiki/Q1145189', 'display_name': 'Speaker recognition', 'level': 2, 'score': 0.7647211}, {'id': 'https://openalex.org/C136886441', 'wikidata': 'https://www.wikidata.org/wiki/Q926129', 'display_name': 'Normalization (sociology)', 'level': 2, 'score': 0.6916491}, {'id': 'https://openalex.org/C89600930', 'wikidata': 'https://www.wikidata.org/wiki/Q1423946', 'display_name': 'Segmentation', 'level': 2, 'score': 0.64856046}, {'id': 'https://openalex.org/C40969351', 'wikidata': 'https://www.wikidata.org/wiki/Q3516228', 'display_name': 'Word error rate', 'level': 2, 'score': 0.63721573}, {'id': 'https://openalex.org/C207030507', 'wikidata': 'https://www.wikidata.org/wiki/Q2266173', 'display_name': 'Speech segmentation', 'level': 3, 'score': 0.5619103}, {'id': 'https://openalex.org/C47401133', 'wikidata': 'https://www.wikidata.org/wiki/Q748953', 'display_name': 'Vocal tract', 'level': 2, 'score': 0.5466793}, {'id': 'https://openalex.org/C139807058', 'wikidata': 'https://www.wikidata.org/wiki/Q352374', 'display_name': 'Adaptation (eye)', 'level': 2, 'score': 0.4690975}, {'id': 'https://openalex.org/C154945302', 'wikidata': 'https://www.wikidata.org/wiki/Q11660', 'display_name': 'Artificial intelligence', 'level': 1, 'score': 0.4288766}, {'id': 'https://openalex.org/C153180895', 'wikidata': 'https://www.wikidata.org/wiki/Q7148389', 'display_name': 'Pattern recognition (psychology)', 'level': 2, 'score': 0.34430093}, {'id': 'https://openalex.org/C121332964', 'wikidata': 'https://www.wikidata.org/wiki/Q413', 'display_name': 'Physics', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C144024400', 'wikidata': 'https://www.wikidata.org/wiki/Q21201', 'display_name': 'Sociology', 'level': 0, 'score': 0.0}, {'id': 'https://openalex.org/C19165224', 'wikidata': 'https://www.wikidata.org/wiki/Q23404', 'display_name': 'Anthropology', 'level': 1, 'score': 0.0}, {'id': 'https://openalex.org/C120665830', 'wikidata': 'https://www.wikidata.org/wiki/Q14620', 'display_name': 'Optics', 'level': 1, 'score': 0.0}], 'mesh': [], 'locations_count': 1, 'locations': [{'is_oa': False, 'landing_page_url': 'https://doi.org/10.1109/icme.2007.4284619', 'pdf_url': None, 'source': None, 'license': None, 'license_id': None, 'version': None, 'is_accepted': False, 'is_published': False}], 'best_oa_location': None, 'sustainable_development_goals': [], 'grants': [], 'datasets': [], 'versions': [], 'referenced_works_count': 14, 'referenced_works': ['https://openalex.org/W1482605500', 'https://openalex.org/W1591300715', 'https://openalex.org/W1971784203', 'https://openalex.org/W2066561607', 'https://openalex.org/W2099111195', 'https://openalex.org/W2099333848', 'https://openalex.org/W2100969003', 'https://openalex.org/W2106119541', 'https://openalex.org/W2146871184', 'https://openalex.org/W2165861304', 'https://openalex.org/W2170695863', 'https://openalex.org/W2319660501', 'https://openalex.org/W2405439032', 'https://openalex.org/W3149617113'], 'related_works': ['https://openalex.org/W4310979479', 'https://openalex.org/W4247736853', 'https://openalex.org/W2206035908', 'https://openalex.org/W2175373321', 'https://openalex.org/W2162158162', 'https://openalex.org/W2144208207', 'https://openalex.org/W2125642021', 'https://openalex.org/W2099333848', 'https://openalex.org/W1999004162', 'https://openalex.org/W1493012537'], 'abstract_inverted_index': {'In': [0], 'this': [1], 'paper,': [2], 'we': [3, 47], 'address': [4], 'the': [5, 11, 35, 64, 69], 'problem': [6], 'of': [7, 61, 68], 'how': [8], 'to': [9], 'improve': [10], 'automatic': [12], 'speech': [13], 'recognition': [14], '(ASR)': [15], 'performance': [16], 'on': [17], 'audio': [18], 'conference': [19], 'data': [20], 'by': [21], 'speaker': [22, 25, 29, 36, 39, 45], 'segmentation': [23, 30], 'and': [24, 38, 53], 'adaptation.': [26], 'A': [27], 'new': [28], 'method': [31], 'is': [32], 'proposed,': [33], 'where': [34], 'turns': [37], 'labels': [40], 'are': [41], 'automatically': [42], 'determined.': [43], 'For': [44], 'adaptation,': [46], 'use': [48], 'Vocal': [49], 'Tract': [50], 'Length': [51], 'Normalization': [52], 'Maximum': [54], 'Likelihood': [55], 'Linear': [56], 'Regression.': [57], 'On': [58], 'a': [59], 'corpus': [60], 'multi-speaker': [62], 'teleconferences,': [63], 'word': [65], 'error': [66], 'rate': [67], 'ASR': [70], 'system': [71], 'improves': [72], 'over': [73], '4%': [74], 'absolute.': [75]}, 'cited_by_api_url': 'https://api.openalex.org/works?filter=cites:W2144208207', 'counts_by_year': [], 'updated_date': '2024-09-16T22:02:42.167467', 'created_date': '2016-06-24'}
Publication Information

Basic Information

Access and Citation

AI Researcher Chatbot

Primary Location

Authors

Topics

Keywords

Related Works