This page in English

Perkins

El ayudante del fonetista

Versión 1.0.6

Perkins: El ayudante del fonetista es un programa que transcribe fonémicamente, silabiza y asigna acentos y pausas a textos ortográficos en castellano. También puede analizar los textos en términos de CV, punto de articulación y modo de articulación, entre otros. Perkins es altamente configurable, mediante las opciones que se le proporcionan en el terminal (la línea de comandos).

Perkins está escrito en Perl. Para ejecutarlo probablemente vas a tener que instalar algunos módulos de CPAN. Si quieres evitar este paso, puedes utilizar la versión .exe para Windows o la versión binaria para Linux.

Favor de informar de errores o problemas a esta dirección de e-mail.

Cómo citarlo: Sadowsky, Scott. 2016. Perkins - The Phonetician's Assistant. Versión 1.0.6. Software. http://sadowsky.cl/perkins.html

Bajar desde GitHub

Versiones antiguas

Publicado bajo la licencia GNU AGPLv3

Instalación y uso

Para procesar un texto utilizando las opciones preconfiguradas de Perkins, descomprime el archivo ZIP y haz lo siguiente:

Script de Perl (.pl)

Hacer ejecutable el archivo perkins-1.0.5.pl
Copiarlo al directorio donde se encuentra el texto a procesar (o a un directorio que esté en la ruta de tu sistema operativo).
Abrir un terminal y navegar hasta el directorio que contiene Perkins y el archivo a procesar.
Ejecutar el siguiente comando: ./perkins-1.0.5.pl -i textofuente.txt

Ejecutable de Windows (.exe)

Copiar el programa ( perkins-win-x86-1.0.5.exe o perkins-win-x64-1.0.5.exe) a la carpeta donde se ubica el texto que se quiere procesar (o a una carpeta que esté en la ruta de Windows, como C:\Windows o C:\Windows\System32, para evitar esta molestia).
Abrir la línea de comandos (terminal, consola) pulsando WINDOWS+R y tipeando cmd.exe (también se puede tipear esto en el cuadro de búsqueda del menú de inicio en Vista o Windows 7).
En la línea de comandos, navegar a la carpeta que contiene Perkins y el archivo que contiene el texto a procesar, con el comando cd.
Tipear lo siguiente: perkins-win-x86-1.0.5.exe -i textofuente.txt (o, si es el caso, perkins-win-x64-1.0.5.exe -i textofuente.txt).

Binario GNU/Linux (.bin)

Hacer ejecutable el archivo perkins.bin (o perkins-beta.bin).
Copiarlo al directorio donde se encuentra el texto a procesar (o a un directorio que esté en el path de tu versión de GNU/Linux).
Abrir un terminal y navegar hasta el directorio que contiene Perkins y el archivo a procesar.
Ejecutar el siguiente comando: ./perkins-x86-1.0.5.bin -i textofuente.txt (o, si estás usando la versión de 64 bits, ./perkins-x64-1.0.5.bin -i textufuente.txt).

Para cambiar el idioma de la interfaz del programa, ejecútalo con -eng o -esp para inglés o español, respectivamente.

Cómo obtener ayuda

Ejecuta Perkins con la opción -h para leer la ayuda del programa, y con la opción -u para ver información sobre su uso.

Ten en cuenta que la línea de comandos de Windows no es capaz de mostrar texto en Unicode, por lo cual los símbolos fonéticos y los caracteres con tilde que figuran en la ayuda e información de uso del programa no se muestran correctamente en Windows. En estos casos, es recomendable guardar una copia de la presente página web.

Debe señalarse que este comportamiento NO afecta las transcripciones de Perkins de manera alguna.

Requisitos adicionales

Los archivos a transcribir deben ser texto plano codificado en ISO-8859-1 (Latin-1). Las transcripciones son archivos de texto plano codificados en UTF-8 (Unicode). Para visualizar las transcripciones de Perkins de manera correcta, se necesita lo siguiente:

Una fuente tipográfica Unicode con símbolos AFI, como Charis SIL o Doulos SIL. MS Arial Unicode también funciona, aunque tiene problemas para mostrar ciertos símbolos fonéticos y muchos diacríticos.
Un programa que tenga la capacidad de mostrar texto Unicode. En Linux, casi no hay programas que no tengan esta capacidad. En Windows, se puede utilizar Notepad++ (un excelente editor de textos de fuente abierta), o bien se puede abrir la transcripción en una versión moderna de MS Word.
Independiente del software que se utiliza, es necesario asignar la fuente Unicode arriba señalada al texto de la transcripción.

Información general sobre el uso

En el resto de este documento, se usa perkins-1.0.5.pl en los ejemplos; cámbialo al nombre de la versión del programa que estás usando.

Las opciones pueden ingresarse con - o --, indistintamente. El signo = es optativo. De este modo, los siguientes comandos producen exactamente el mismo resultado:
- perkins-1.0.5.pl --i=inputfile.txt
- perkins-1.0.5.pl -i=inputfile.txt
- perkins-1.0.5.pl -i inputfile.txt
El orden de las opciones y de los nombres de archivos es irrelevante.
La mayoría de las opciones binarias pueden invertirse insertando no entre el guión y la opción misma (e.g. -mc puede desactivarse con -nomc).
El número de opciones que se pueden especificar no tiene límite.
Si el nombre de un archivo contiene espacios o ciertos caracteres especiales, debe ingresarse entre comillas.
Si no se especifica un nombre para el archivo de salida (la transcripción), se genera un nombre automáticamente, a partir del nombre base del archivo de input y con una extensión que refleja el modo de transcripción.

Cómo seleccionar un modo de transcripción

El modo o formato de transcripción puede elegirse desde la línea de comandos de dos maneras: -f=MODO y -MODO.
Los modos válidos son: F, CV, CVG, CVN, M, P, S (para mayores detalles, ver abajo) .

Opciones de procesamiento

Opciones principales
-i fuente.txt --input=fuente.txt		Especificar el archivo a procesar. OBLIGATORIO.
-o trans.txt --output=trans.txt		Especificar el archivo en el cual se guarda el output de Perkins (es decir, la transcripción). Si no se especifica, se genera un nombre automáticamente, a partir del nombre base del archivo de input y con una extensión apropiada (e.g. .phnm).
-en		Seleccionar la interfaz en inglés.
-es		Seleccionar la interfaz en español.

Opciones relacionadas con el formato o tipo de transcripción
-MODO -f MODO --formato=MODO		Especificar el formato o tipo de la transcripción. NO distingue mayúsculas de minúsculas. Las posibilidades son las siguientes:
		F o PH (transcripción fonémica)
		CV (transcripción consonante/vocal)
		CVG (transcripción consonante/vocal/glide)
		CVN (consonante/vocal/nasal/líquida/rótica/glide)
		M o MODO (modo de articulación)
		P o PUNTO (lugar de articulación)
		S o SON (sonoridad)

Opciones para fonemas específicos
-multi, -mc, -ms		Usar múltiples símbolos AFI para algunos fonemas.
-tg		Tratar /tr/ como fonema (usar ligadura o representarlo como fricativa retrofleja áfona /ʂ/, según la configuración de -mc).
-yf		Representar el fonema "ye" como fricativa /ʝ/.
-ya		Representar el fonema "ye" como africada /d͡ʒ/.
-ar		Utilizar el diacrítico "retraído" en determinadas africadas (e.g. t̠͡ʃ).
-och		Representar el fonema "ch" con el símbolo de un solo carácter /ʧ/. Tiene primacía sobre toda otra opción que afecte este fonema.
-oye		Representar el fonema "ye" con el símbolo de un solo carácter /ʝ/. Tiene primacía sobre toda otra opción que afecte este fonema.

Opciones para glides (semivocales)
-gd		Representar glides como vocal + diacrítico "no silábico" (/i̯/ y /u̯/).
-nogd		Representar glides como /j/ y /w/.
-wv		Representar wau como u + diacrítico "no silábico" (/u̯/).
-yv		Representar yod como i + diacrítico "no silábico" (/i̯/).

Opciones para el acento tónico
-at		Representar el acento con tilde en vez del apóstrofo AFI.
-ao		Representar el acento con un apóstrofo ortográfico (no AFI).

Opciones de silabificación / silabización / silabación
-sp, --sil-puntos		Representar las divisiones silábicas con puntos.
-se, --sil-esp		Representar las divisiones silábicas con espacios.
-nosp		No indicar las divisiones silábicas de ninguna manera.
-spe		Silabificar por enunciado/oración, y no por palabra ("los hombres" se convierte en /lo.som.bres/ en vez de /los om.bres/).
-nospe		Silabificar por palabra, y no por enunciado/oración ("los hombres" se convierte en /los om.bres/ en vez de /lo.som.bres/).

Opciones para pausas / grupos
-pi, --pausas-afi		Representar pausas con los símbolos AFI \| y \|\|.
-pco		Tratar comas como pausas.
-pdp		Tratar el símbolo : como pausa.
-ppc		Tratar el símbolo ; como pausa.
-por		Tratar el final de una oración como pausa.
-ppa		Tratar el final de un párrafo como pausa.
-pel		Tratar elipsis ... como pausa.
-pcr		Convertir corchetes [] en pausas.
-ppn		Convertir paréntesis en pausas.

Opciones de sustitución
-nap		Convertir numerales en palabras ("4" > "cuatro").
-sn=SÍMBOLO		Reemplazar numerales por el SÍMBOLO que se especifica aquí.
-mon=TEXTO		Reemplazar el símbolo $ por lo que se especifica como TEXTO.
-sl=TEXTO		Reemplazar el símbolo "/" por lo que se especifica como TEXTO.
-nma		No marcar el acento tónico.
-pu		Procesar los URL lingüísticamente. De otro modo, se eliminan. Si se tratan lingüísticamente, ítemes comunes como "Gmail", "Facebook", "http" y "www" se transcriben como se suelen pronunciar, mientras que otros ítemes se transcriben como se deletrean.
-pe		Procesar los URL lingüísticamente. De otro modo, se eliminan.

Opciones de presentación
-upl		Una palabra por línea (dividir en palabras).
-usl		Una sílaba por línea (dividir en sílabas).
-mp		Mantener la separación de párrafos. De lo contrario, la transcripción será un solo gran muro de texto.
-epc		Eliminar palabras comunes (para fines de testeo).

Opciones para el procesamiento de números
-rae		Procesar dos grupos de 4 dígitos con "-" entre medio como un rango de años ("1900-2000" > "1900 a 2000" y no "1900 menos 2000").
-raa		Procesar dos grupos de 1-4 dígitos con "-" entre medio como un rango de años ("43-103" > "43 a 103").
-tra		Procesar todos los grupos de 1-4 dígitos con un "-" entre medio como un rango de años.
-aac		Procesar también los años A.C.

Metaconfiguraciones
-tc, --corpus		Configuración para procesar un corpus como texto corrido.
-ls, --lista-sil		Configuración para generar transcripciones que pueden procesarse fácilmente a nivel de sílaba.
-vrt		Configuración para generar archivos verticales (.vrt) compatibles con IMS CWB. No puede realizar todos los análisis (e.g. expansión de abreviaturas).
-lp, --lista-pal		Configuración que trata el texto como una lista de palabras: silabiza a nivel de palabra en vez de enunciado.

Ejemplos de uso

A continuación se presentan algunos ejemplos de los distintos tipos de transcripciones que Perkins puede realizar. Para visualizar correctamente los símbolos AFI, es necesario utilizar un navegador compatible con Unicode y tener una fuente Unicode apropiada instalada. El texto que se transcribe en todos los casos es:

En Concepción, se trata de aguantar la lluvia durante 5 meses del año. ¿Cachái?

Comando:		perkins-1.0.5.pl -i=source.txt
Transcripción:		en.kon.sep.ˈsjon \| se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈʝu.bja. d̪u.ˈɾan.t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj
Descripción:		Opciones por defecto. Transcripción fonémica. Africadas con ligadura. Yod y wau se representan como /j/ y /w/. Apóstrofo AFI marca acento tónico. Dentales con diacrítico. Símbolos de múltiples caracteres (e.g. /t͡ʃ/). Procesamiento a nivel de enunciado. El fonema "ye" se representa como /ʝ/.

Comando:		perkins-1.0.5.pl -i=source.txt -at
Transcripción:		en.kon.sep.sjón \| se.t̪ɾá.t̪a.d̪e.a.gwan.t̪áɾ.la.ʝú.bja. d̪u.ɾán. t̪e.sín.ko.mé.ses.d̪e.lá.ɲo ‖ ka.t͡ʃáj
Descripción:		El acento tónico se señala con una tilde sobre la vocal, en vez del apóstrofe AFI antes de la sílaba correspondiente.

Comando:		perkins-1.0.5.pl -i=source.txt -ya
Transcripción:		en.kon.sep.ˈsjon \| se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd͡ʒu.bja. d̪u.ˈɾan.t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj
Descripción:		El fonema "ye" se transcribe con la africada /d͡ʒ/.

Comando:		perkins-1.0.5.pl -i=source.txt -ya -ar
Transcripción:		en.kon.sep.ˈsjon \| se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd̠͡ʒu.bja.d̪u.ˈɾan. t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt̠͡ʃaj
Descripción:		Se emplea el diacrítico "retraído" al representar las africadas /d̠͡ʒ/ y /t̠͡ʃ/.

Comando:		perkins-1.0.5.pl -i=source.txt -ya -tg
Transcripción:		en.kon.sep.ˈsjon \| se.ˈt̪͡ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd͡ʒu.bja.d̪u.ˈɾan. t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj
Descripción:		El grupo "tr" se trata como fonema (tal como se comporta en muchos hablantes chilenos).

Comando:		perkins-1.0.5.pl -i=source.txt -ya -tg -nomc
Transcripción:		en.kon.sep.ˈsjon \| se.ˈʂa.ta.de.a.gwan.ˈtaɾ.la.ˈʤu.bja.du.ˈɾan.te. ˈsin.ko.ˈme.ses.de.ˈla.ɲo ‖ ka.ˈʧaj
Descripción:		Los fonemas se representan exclusivamente con símbolos de un solo carácter (/ʤ/; /ʧ/; /ʂ/ en vez de /t̪͡ɾ/), salvo en el caso de los glides, que pueden configurarse de manera independiente a través de las opciones -gd y -nogd.

Comando:		perkins-1.0.5.pl -i=source.txt -gd
Transcripción:		en.kon.sep.ˈsi̯on \| se.ˈt̪ɾa.t̪a.d̪e.a.gu̯an.ˈt̪aɾ.la.ˈʝu.bi̯a.d̪u.ˈɾan.t̪e. ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃai̯
Descripción:		Transcribe los glides como vocal + diacrítico "no silábico " (/i̯/, /u̯/) en vez de /j/ y /w/.

Comando:		perkins-1.0.5.pl -i=source.txt -nospe
Transcripción:		en kon.sep.ˈsjon \| se ˈt̪ɾa.t̪a d̪e a.gwan.ˈt̪aɾ la ˈʝu.bja d̪u.ˈɾan.t̪e ˈsin.ko ˈme.ses d̪el ˈa.ɲo ‖ ka.ˈt͡ʃaj
Descripción:		Silabizar a nivel de palabra, en vez de enunciado / oración.

Comando:		perkins-1.0.5.pl -i=source.txt -cv
Transcripción:		VC.CVC.CVC.ˈCVVC \| CV.ˈCCV.CV.CV.V.CVVC.ˈCVC.CV.ˈCV.CVV.CV.ˈCVC. CV.ˈCVC.CV.ˈCV.CVC.CVC.ˈV.CV ‖ CV.ˈCVV
Descripción:		Analizar el input en términos de consonante / vocal.

Comando:		perkins-1.0.5.pl -i=source.txt -cvg
Transcripción:		VC.CVC.CVC.ˈCGVC \| CV.ˈCCV.CV.CV.V.CGVC.ˈCVC.CV.ˈCV.CGV.CV.ˈCVC. CV.ˈCVC.CV.ˈCV.CVC.CVC.ˈV.CV ‖ CV.ˈCVG
Descripción:		Analizar el input en términos de consonante/vocal/glide.

Comando:		perkins-1.0.5.pl -i=source.txt -cvn
Transcripción:		VN.CVN.CVC.ˈCGVN \| CV.ˈCRV.CV.CV.V.CGVN.ˈCVR.LV.ˈCV.CGV.CV.ˈRVN. CV.ˈCVN.CV.ˈNV.CVC.CVL.ˈV.NV ‖ CV.ˈCVG
Descripción:		Analizar el input en términos de consonante/vocal/glide/nasal/líquida/rótica.

Comando:		perkins-1.0.5.pl -i=source.txt -m
Transcripción:		VN.PVN.FVP.ˈFXVN \| FV.ˈPTV.PV.PV.V.PXVN.ˈPVT.LV.ˈFV.PXV.PV.ˈTVN. PV.ˈFVN.PV.ˈNV.FVF.PVL.ˈV.NV ‖ PV.ˈAVX
Descripción:		Analizar input en términos del MODO de articulación (P=plosiva, N=nasal, R=multivibrante, T=vibrante simple, F=fricativa, L=lateral, A=africada, X=aproximante, V=vocal).

Comando:		perkins-1.0.5.pl -i=source.txt -p
Transcripción:		-A.V-A.A-B.ˈAP-A \| A-.ˈDA-.D-.D-.-.VW-A.ˈD-A.A-.ˈP-.BP-.D-.ˈA-A.D-. ˈA-A.V-.ˈB-.A-A.D-A.ˈ-.P- ‖ V-.ˈT-P
Descripción:		Analizar input en términos del PUNTO de articulación (B=bilabial, L=labiodental, D=dental, A=alveolar, T=postalveolar, P=palatal, V=velar, W=labiovelar, -=vocal).

Problemas conocidos

En todos los modos excepto el fonémico (i.e. CV, CVG, etc.), la silabificación se realiza siempre a nivel de palabra.

Versiones antiguas

1.0.5

1.0.0

Código fuente / script de Perl
Windows x64 (.exe)
Windows x86 (.exe)
Linux x64 (binario)
Linux x86 (binario)
Mac OSX (experimental)

0.4.6.3

Windows x86 (exe)
Windows x64 (exe)
Linux x86 (binario)
Linux x64 (binario)
Mac OS

ENGLISH

CASTELLANO

Optional Sidebar Info

This page in English

Perkins

El ayudante del fonetista

Versión 1.0.6

Instalación y uso

Script de Perl (.pl)

Ejecutable de Windows (.exe)

Binario GNU/Linux (.bin)

Cómo obtener ayuda

Requisitos adicionales

Información general sobre el uso

Cómo seleccionar un modo de transcripción

Opciones de procesamiento

Opciones principales

Opciones relacionadas con el formato o tipo de transcripción

Opciones para fonemas específicos

Opciones para glides (semivocales)

Opciones para el acento tónico

Opciones de silabificación / silabización / silabación

Opciones para pausas / grupos

Opciones de sustitución

Opciones de presentación

Opciones para el procesamiento de números

Metaconfiguraciones

Ejemplos de uso

Problemas conocidos

Versiones antiguas