Conference Paper

Fuzzy voice segment classifier for voice pathology classification

Sch. of Mechatron. Eng., Univ. Malaysia Perlis, Arau, Malaysia
DOI: 10.1109/CSPA.2010.5545316 Conference: Signal Processing and Its Applications (CSPA), 2010 6th International Colloquium on
Source: IEEE Xplore

ABSTRACT Speech is one of the common modes of communication and it is a process of transferring information from one entity to another. In recent years there has been much research on unvoiced/voiced classification and voice pathology classification. In this research work a simple fuzzy classifier has been designed to segment the voiced and unvoiced portions of a speech signal. A simple feature extraction algorithm is proposed to extract the Tri Mean relative average perturbation (Tri Mean-RAP) features from the segmented voice portion of the signal. Further, using PCA transformation the significant Tri Mean-RAP features are extracted and a simple neural network model is developed. In the proposed fuzzy classifier, the energy per frame and change in energy level between the adjacent frames are fuzzified and rules are formulated to segment the voiced portion. The Tri Mean-RAP features are then extracted from the segmented voice portion. The proposed methods are validated through simulation.

0 Bookmarks
 · 
118 Views
  • [Show abstract] [Hide abstract]
    ABSTRACT: An accurate database documentation at phonetic level is very important for speech research: however, manual segmentation and labeling is a time consuming and error prone task. This article describes an automatic procedure for the segmentation of speech: given either the linguistic or the phonetic content of a speech utterance, the system provides phone boundaries. The technique is based on the use of an acoustic-phonetic unit Hidden Markov Model (HMM) recognizer: both the recognizer and the segmentation system have been designed exploiting the DARPA-TIMIT acoustic-phonetic continuous speech database of American English. Segmentation and labeling experiments have been conducted in different conditions to check the reliability of the resulting system. Satisfactory results have been obtained, especially when the system is trained with some manually presegmented material. The size of this material is a crucial factor; system performance has been evaluated with respect to this parameter. It turns out that the system provides 88.3% correct boundary location, given a tolerance of 20 ms, when only 256 phonetically balanced sentences are used for its training.ZusammenfassungEine Sorgfältige phonetische Datensammlung ist für die Spracherkennung sehr wichtig: die manuelle Segmentierung und Etikettierung ist jedoch eine zeitraubende und Fehlern unterworpene Aufgabe. Diesel Artikel beschreibt ein automatisches Verfahren zur Sprachsegmentierung: wenn entweder sprachliche oder der phonetische Inhalt des Sprachsignals gegeben sind, liefert das System phonetische Segmente. Basis dieser Technik ist ein Spracherkennungssystem, das die akustisch-phonetischen Einheiten zunächst mit Hilfe eines Hidden-Markov-Models (HMM) identifiziert: sowohl der Spacherkenner als auch das Segmentierungssystem wurden anhand der akustisch-phonetischen Datensammlung der englisch-amerikanischen stetigen Sprache DARPA-TIMIT entwickelt. Segmentierungs- und Etikettierungs-experimente wurden unter verschiedenen Bedingungen angestellt, um die mit diesem System erreichten Ergebnissen zu erproben. Befriedigende Ergebnisse wurden erzielt, vor allem wenn das System auf manuell presegmentiertes Material trainiert wurde. Daraus ergibt sich, dass das System die Position der Segmeente mit 88.3% Genauigkeit berechnet, mit einer Toleranz von 20 ms, wenn nur 256 phonetisch ausgewogene Sätze für das Training benützt werden.RésuméDisposer de descriptions phonétiques précises de bases de données de parole est essentiel pour la recherche en traitement automatique de la parole: toutefois, la segmentation et l'étiquetage manuels sont des tâches longues et sujettes à erreurs. Dans cet article, nous présentons une méthode de segmentation automatique de la parole. Etant donnée une transcription phonétique ou une transcription orthographique, notre système fournit la segmentation phonétique correspondante. Cette méthode est basée sur l'utilisation d'un système.de reconnaissance de parole utilisant les chaînes de Markov cachées (Hidden Markov Models, HMM) pour modéliser les unités acoustico-phonétiques. La base de données américaines DARPA-TIMIT a été utilisée pour l'apprentissage et le test du système. Pour évaluer notre système,d es expériences de segmentation et de transcription phonétique ont été effectuées dans différentes conditions. Des résultats satisfaisants ont été obtenus, en particulier lorsque le système est entrainé avec des signaux préalablement segmentés manuellement. La taille de ce corpus d'apprentissage joue un rôle important: les performances du système ont été évaluées en fonction de ce paramètre. Lorsque l'apprentissage est effectué avec seulement 256 phonétiquement équilibrées, le taux de frontières phonétiques correctement positionnées, avec une marge de 20 ms, est de 88.3%.
    Speech Communication. 01/1993; 12:357-370.
  • Appl. Soft Comput. 01/2007; 7:828-839.
  • [Show abstract] [Hide abstract]
    ABSTRACT: Speech recognition is one of the important areas in digital speech processing. The study of speech recognition is a part of a quest for artificially intelligent machines that can hear and understand spoken information. The conventional methods for speech recognition are very complicated and time consuming. To apply fuzzy logic to speech recognition is a new attempt in digital speech processing. The approach proposed in the paper simplifies the algorithm in speech recognition and makes the real-time processing time shorter. The situation considered in this paper is the simplest, i.e., the situation of speaker dependence, small vocabulary and isolated words
    Neural Networks, 1999. IJCNN '99. International Joint Conference on; 02/1999

Full-text (2 Sources)

View
12 Downloads
Available from
May 16, 2014