Whisper는 웹에서 수집된 680,000시간의 다국어 및 멀티태스킹 데이터에 대해 학습된 자동 음성 인식(ASR) 시스템입니다. 우리는 이렇게 크고 다양한 데이터 세트를 사용하면 악센트, 배경 소음 및 기술 언어에 대한 견고성이 향상된다는 것을 보여줍니다. 또한 여러 언어로 전사하고 해당 언어를 영어로 번역할 수 있습니다. 우리는 유용한 응용 프로그램을 구축하고 강력한 음성 처리에 대한 추가 연구를 위한 기반 역할을 하는 오픈 소싱 모델 및 추론 코드입니다.
* ASR: Automatic Speech Recognition
Whisper 아키텍처는 인코더-디코더 Transformer로 구현되는 간단한 종단 간(end-to-end) 접근 방식입니다. 입력 오디오는 30초 단위로 분할되어 log-Mel 스펙트로그램으로 변환된 다음 인코더로 전달됩니다. 디코더는 단일 모델이 언어 식별, 구문 수준 타임스탬프, 다국어 음성 전사 및 영어 음성 번역과 같은 작업을 수행하도록 지시하는 특수 토큰과 혼합된 해당 텍스트 캡션을 예측하도록 훈련됩니다.
기존의 다른 접근 방식은 더 작고 더 밀접하게 짝을 이루는 오디오-텍스트 교육 데이터 세트를 자주 사용합니다.1 2 ,삼또는 광범위하지만 감독되지 않은 오디오 사전 교육을 사용합니다.4 ,5 ,6 Whisper는 크고 다양한 데이터 세트에서 교육을 받았고 특정 데이터 세트로 미세 조정되지 않았기 때문에 음성 인식에서 유명한 경쟁 벤치마크인 LibriSpeech 성능을 전문으로 하는 모델을 능가하지 않습니다. 그러나 다양한 데이터 세트에서 Whisper의 제로 샷 성능을 측정하면 훨씬 더 강력하고 해당 모델보다 오류가 50% 적다는 것을 알 수 있습니다.
Whisper의 오디오 데이터 세트의 약 1/3은 영어가 아니며 원어로 기록하거나 영어로 번역하는 작업이 번갈아 주어집니다. 우리는 이 접근 방식이 음성에서 텍스트로의 번역을 학습하는 데 특히 효과적이며 CoVoST2에서 영어 번역 제로 샷으로 감독된 SOTA를 능가한다는 것을 알았습니다.
Whisper의 높은 정확도와 사용 편의성을 통해 개발자가 훨씬 더 광범위한 애플리케이션 세트에 음성 인터페이스를 추가할 수 있기를 바랍니다. 자세한 내용을 알아보고 Whisper를 사용해 보려면 종이 , 모델 카드 및 코드를 확인하십시오 .
https://openai.com/research/whisper
'Web Development' 카테고리의 다른 글
[읽어줘] 한국어 TTS API 서비스 비교 분석 - 서비스 기획(1) (4) | 2024.05.29 |
---|---|
[기술문서] 디자인 시스템, 패턴 라이브러리, 스타일 가이드와 컴포넌트 라이브러리의 차이점 (0) | 2024.05.28 |
[기술문서] 리액트 headless 컴포넌트와 디자인시스템을 위해 UI 라이브러리 사용을 중단한 이유 (0) | 2023.06.10 |
styled-icon color가 변경 삽질기 & 해결방법 (0) | 2022.03.15 |
[JS] Event loop 문제 도전하기 + 풀이 (0) | 2022.01.17 |