This page in English
Perkins
El ayudante del fonetista
Versión 1.0.6
Perkins: El ayudante del fonetista es un programa que transcribe fonémicamente, silabiza y asigna acentos y pausas a textos ortográficos en castellano. También puede analizar los textos en términos de CV, punto de articulación y modo de articulación, entre otros. Perkins es altamente configurable, mediante las opciones que se le proporcionan en el terminal (la línea de comandos).
Perkins está escrito en Perl. Para ejecutarlo probablemente vas a tener que instalar algunos módulos de CPAN. Si quieres evitar este paso, puedes utilizar la versión .exe para Windows o la versión binaria para Linux.
Favor de informar de errores o problemas a esta dirección de e-mail.
Cómo citarlo: Sadowsky, Scott. 2016. Perkins - The Phonetician's Assistant. Versión 1.0.6. Software. http://sadowsky.cl/perkins.html
Publicado bajo la licencia GNU AGPLv3 |
Instalación y uso
Para procesar un texto utilizando las opciones preconfiguradas de Perkins, descomprime el archivo ZIP y haz lo siguiente:
Script de Perl (.pl)
- Hacer ejecutable el archivo perkins-1.0.5.pl
- Copiarlo al directorio donde se encuentra el texto a procesar (o a un directorio que esté en la ruta de tu sistema operativo).
- Abrir un terminal y navegar hasta el directorio que contiene Perkins y el archivo a procesar.
- Ejecutar el siguiente comando: ./perkins-1.0.5.pl -i textofuente.txt
Ejecutable de Windows (.exe)
- Copiar el programa ( perkins-win-x86-1.0.5.exe o perkins-win-x64-1.0.5.exe) a la carpeta donde se ubica el texto que se quiere procesar (o a una carpeta que esté en la ruta de Windows, como C:\Windows o C:\Windows\System32, para evitar esta molestia).
- Abrir la línea de comandos (terminal, consola) pulsando WINDOWS+R y tipeando cmd.exe (también se puede tipear esto en el cuadro de búsqueda del menú de inicio en Vista o Windows 7).
- En la línea de comandos, navegar a la carpeta que contiene Perkins y el archivo que contiene el texto a procesar, con el comando cd.
- Tipear lo siguiente: perkins-win-x86-1.0.5.exe -i textofuente.txt (o, si es el caso, perkins-win-x64-1.0.5.exe -i textofuente.txt).
Binario GNU/Linux (.bin)
- Hacer ejecutable el archivo perkins.bin (o perkins-beta.bin).
- Copiarlo al directorio donde se encuentra el texto a procesar (o a un directorio que esté en el path de tu versión de GNU/Linux).
- Abrir un terminal y navegar hasta el directorio que contiene Perkins y el archivo a procesar.
- Ejecutar el siguiente comando: ./perkins-x86-1.0.5.bin -i textofuente.txt (o, si estás usando la versión de 64 bits, ./perkins-x64-1.0.5.bin -i textufuente.txt).
Para cambiar el idioma de la interfaz del programa, ejecútalo con -eng o -esp para inglés o español, respectivamente.
Cómo obtener ayuda
Ejecuta Perkins con la opción -h para leer la ayuda del programa, y con la opción -u para ver información sobre su uso.
Ten en cuenta que la línea de comandos de Windows no es capaz de mostrar texto en Unicode, por lo cual los símbolos fonéticos y los caracteres con tilde que figuran en la ayuda e información de uso del programa no se muestran correctamente en Windows. En estos casos, es recomendable guardar una copia de la presente página web.
Debe señalarse que este comportamiento NO afecta las transcripciones de Perkins de manera alguna.
Requisitos adicionales
Los archivos a transcribir deben ser texto plano codificado en ISO-8859-1 (Latin-1). Las transcripciones son archivos de texto plano codificados en UTF-8 (Unicode). Para visualizar las transcripciones de Perkins de manera correcta, se necesita lo siguiente:
- Una fuente tipográfica Unicode con símbolos AFI, como Charis SIL o Doulos SIL. MS Arial Unicode también funciona, aunque tiene problemas para mostrar ciertos símbolos fonéticos y muchos diacríticos.
- Un programa que tenga la capacidad de mostrar texto Unicode. En Linux, casi no hay programas que no tengan esta capacidad. En Windows, se puede utilizar Notepad++ (un excelente editor de textos de fuente abierta), o bien se puede abrir la transcripción en una versión moderna de MS Word.
- Independiente del software que se utiliza, es necesario asignar la fuente Unicode arriba señalada al texto de la transcripción.
Información general sobre el uso
En el resto de este documento, se usa perkins-1.0.5.pl en los ejemplos; cámbialo al nombre de la versión del programa que estás usando.
- Las opciones pueden ingresarse con - o --, indistintamente. El signo = es optativo. De este modo, los siguientes comandos producen exactamente el mismo resultado:
- perkins-1.0.5.pl --i=inputfile.txt
- perkins-1.0.5.pl -i=inputfile.txt
- perkins-1.0.5.pl -i inputfile.txt
- El orden de las opciones y de los nombres de archivos es irrelevante.
- La mayoría de las opciones binarias pueden invertirse insertando no entre el guión y la opción misma (e.g. -mc puede desactivarse con -nomc).
- El número de opciones que se pueden especificar no tiene límite.
- Si el nombre de un archivo contiene espacios o ciertos caracteres especiales, debe ingresarse entre comillas.
- Si no se especifica un nombre para el archivo de salida (la transcripción), se genera un nombre automáticamente, a partir del nombre base del archivo de input y con una extensión que refleja el modo de transcripción.
Cómo seleccionar un modo de transcripción
- El modo o formato de transcripción puede elegirse desde la línea de comandos de dos maneras: -f=MODO y -MODO.
- Los modos válidos son: F, CV, CVG, CVN, M, P, S (para mayores detalles, ver abajo) .
Opciones de procesamiento
Opciones principales |
||
-i fuente.txt --input=fuente.txt |
Especificar el archivo a procesar. OBLIGATORIO. | |
-o trans.txt --output=trans.txt |
Especificar el archivo en el cual se guarda el output de Perkins (es decir, la transcripción). Si no se especifica, se genera un nombre automáticamente, a partir del nombre base del archivo de input y con una extensión apropiada (e.g. .phnm). | |
-en | Seleccionar la interfaz en inglés. | |
-es | Seleccionar la interfaz en español. | |
Opciones relacionadas con el formato o tipo de transcripción |
||
-MODO -f MODO --formato=MODO |
Especificar el formato o tipo de la transcripción. NO distingue mayúsculas de minúsculas. Las posibilidades son las siguientes: | |
F o PH (transcripción fonémica) | ||
CV (transcripción consonante/vocal) | ||
CVG (transcripción consonante/vocal/glide) | ||
CVN (consonante/vocal/nasal/líquida/rótica/glide) | ||
M o MODO (modo de articulación) | ||
P o PUNTO (lugar de articulación) | ||
S o SON (sonoridad) | ||
Opciones para fonemas específicos |
||
-multi, -mc, -ms | Usar múltiples símbolos AFI para algunos fonemas. | |
-tg | Tratar /tr/ como fonema (usar ligadura o representarlo como fricativa retrofleja áfona /ʂ/, según la configuración de -mc). | |
-yf | Representar el fonema "ye" como fricativa /ʝ/. | |
-ya | Representar el fonema "ye" como africada /d͡ʒ/. | |
-ar | Utilizar el diacrítico "retraído" en determinadas africadas (e.g. t̠͡ʃ). | |
-och | Representar el fonema "ch" con el símbolo de un solo carácter /ʧ/. Tiene primacía sobre toda otra opción que afecte este fonema. | |
-oye | Representar el fonema "ye" con el símbolo de un solo carácter /ʝ/. Tiene primacía sobre toda otra opción que afecte este fonema. | |
Opciones para glides (semivocales) |
||
-gd | Representar glides como vocal + diacrítico "no silábico" (/i̯/ y /u̯/). | |
-nogd | Representar glides como /j/ y /w/. | |
-wv | Representar wau como u + diacrítico "no silábico" (/u̯/). | |
-yv | Representar yod como i + diacrítico "no silábico" (/i̯/). | |
Opciones para el acento tónico |
||
-at | Representar el acento con tilde en vez del apóstrofo AFI. | |
-ao | Representar el acento con un apóstrofo ortográfico (no AFI). | |
Opciones de silabificación / silabización / silabación |
||
-sp, --sil-puntos | Representar las divisiones silábicas con puntos. | |
-se, --sil-esp | Representar las divisiones silábicas con espacios. | |
-nosp | No indicar las divisiones silábicas de ninguna manera. | |
-spe | Silabificar por enunciado/oración, y no por palabra ("los hombres" se convierte en /lo.som.bres/ en vez de /los om.bres/). | |
-nospe | Silabificar por palabra, y no por enunciado/oración ("los hombres" se convierte en /los om.bres/ en vez de /lo.som.bres/). | |
Opciones para pausas / grupos |
||
-pi, --pausas-afi | Representar pausas con los símbolos AFI | y ||. | |
-pco | Tratar comas como pausas. | |
-pdp | Tratar el símbolo : como pausa. | |
-ppc | Tratar el símbolo ; como pausa. | |
-por | Tratar el final de una oración como pausa. | |
-ppa | Tratar el final de un párrafo como pausa. | |
-pel | Tratar elipsis ... como pausa. | |
-pcr | Convertir corchetes [] en pausas. | |
-ppn | Convertir paréntesis en pausas. | |
Opciones de sustitución |
||
-nap | Convertir numerales en palabras ("4" > "cuatro"). | |
-sn=SÍMBOLO | Reemplazar numerales por el SÍMBOLO que se especifica aquí. | |
-mon=TEXTO | Reemplazar el símbolo $ por lo que se especifica como TEXTO. | |
-sl=TEXTO | Reemplazar el símbolo "/" por lo que se especifica como TEXTO. | |
-nma | No marcar el acento tónico. | |
-pu | Procesar los URL lingüísticamente. De otro modo, se eliminan. Si se tratan lingüísticamente, ítemes comunes como "Gmail", "Facebook", "http" y "www" se transcriben como se suelen pronunciar, mientras que otros ítemes se transcriben como se deletrean. | |
-pe | Procesar los URL lingüísticamente. De otro modo, se eliminan. | |
Opciones de presentación |
||
-upl | Una palabra por línea (dividir en palabras). | |
-usl | Una sílaba por línea (dividir en sílabas). | |
-mp | Mantener la separación de párrafos. De lo contrario, la transcripción será un solo gran muro de texto. | |
-epc | Eliminar palabras comunes (para fines de testeo). | |
Opciones para el procesamiento de números |
||
-rae | Procesar dos grupos de 4 dígitos con "-" entre medio como un rango de años ("1900-2000" > "1900 a 2000" y no "1900 menos 2000"). | |
-raa | Procesar dos grupos de 1-4 dígitos con "-" entre medio como un rango de años ("43-103" > "43 a 103"). | |
-tra | Procesar todos los grupos de 1-4 dígitos con un "-" entre medio como un rango de años. | |
-aac | Procesar también los años A.C. | |
Metaconfiguraciones |
||
-tc, --corpus | Configuración para procesar un corpus como texto corrido. | |
-ls, --lista-sil | Configuración para generar transcripciones que pueden procesarse fácilmente a nivel de sílaba. | |
-vrt | Configuración para generar archivos verticales (.vrt) compatibles con IMS CWB. No puede realizar todos los análisis (e.g. expansión de abreviaturas). | |
-lp, --lista-pal | Configuración que trata el texto como una lista de palabras: silabiza a nivel de palabra en vez de enunciado. |
Ejemplos de uso
A continuación se presentan algunos ejemplos de los distintos tipos de transcripciones que Perkins puede realizar. Para visualizar correctamente los símbolos AFI, es necesario utilizar un navegador compatible con Unicode y tener una fuente Unicode apropiada instalada. El texto que se transcribe en todos los casos es:
En Concepción, se trata de aguantar la lluvia durante 5 meses del año. ¿Cachái?
Comando: | perkins-1.0.5.pl -i=source.txt | |
Transcripción: | en.kon.sep.ˈsjon | se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈʝu.bja. d̪u.ˈɾan.t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj |
|
Descripción: | Opciones por defecto. Transcripción fonémica. Africadas con ligadura. Yod y wau se representan como /j/ y /w/. Apóstrofo AFI marca acento tónico. Dentales con diacrítico. Símbolos de múltiples caracteres (e.g. /t͡ʃ/). Procesamiento a nivel de enunciado. El fonema "ye" se representa como /ʝ/. | |
Comando: | perkins-1.0.5.pl -i=source.txt -at | |
Transcripción: | en.kon.sep.sjón | se.t̪ɾá.t̪a.d̪e.a.gwan.t̪áɾ.la.ʝú.bja. d̪u.ɾán. t̪e.sín.ko.mé.ses.d̪e.lá.ɲo ‖ ka.t͡ʃáj |
|
Descripción: | El acento tónico se señala con una tilde sobre la vocal, en vez del apóstrofe AFI antes de la sílaba correspondiente. | |
Comando: | perkins-1.0.5.pl -i=source.txt -ya | |
Transcripción: | en.kon.sep.ˈsjon | se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd͡ʒu.bja. d̪u.ˈɾan.t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj |
|
Descripción: | El fonema "ye" se transcribe con la africada /d͡ʒ/. | |
Comando: | perkins-1.0.5.pl -i=source.txt -ya -ar | |
Transcripción: | en.kon.sep.ˈsjon | se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd̠͡ʒu.bja.d̪u.ˈɾan. t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt̠͡ʃaj |
|
Descripción: | Se emplea el diacrítico "retraído" al representar las africadas /d̠͡ʒ/ y /t̠͡ʃ/. | |
Comando: | perkins-1.0.5.pl -i=source.txt -ya -tg | |
Transcripción: | en.kon.sep.ˈsjon | se.ˈt̪͡ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd͡ʒu.bja.d̪u.ˈɾan. t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj |
|
Descripción: | El grupo "tr" se trata como fonema (tal como se comporta en muchos hablantes chilenos). | |
Comando: | perkins-1.0.5.pl -i=source.txt -ya -tg -nomc | |
Transcripción: | en.kon.sep.ˈsjon | se.ˈʂa.ta.de.a.gwan.ˈtaɾ.la.ˈʤu.bja.du.ˈɾan.te. ˈsin.ko.ˈme.ses.de.ˈla.ɲo ‖ ka.ˈʧaj |
|
Descripción: | Los fonemas se representan exclusivamente con símbolos de un solo carácter (/ʤ/; /ʧ/; /ʂ/ en vez de /t̪͡ɾ/), salvo en el caso de los glides, que pueden configurarse de manera independiente a través de las opciones -gd y -nogd. | |
Comando: | perkins-1.0.5.pl -i=source.txt -gd | |
Transcripción: | en.kon.sep.ˈsi̯on | se.ˈt̪ɾa.t̪a.d̪e.a.gu̯an.ˈt̪aɾ.la.ˈʝu.bi̯a.d̪u.ˈɾan.t̪e. ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃai̯ |
|
Descripción: | Transcribe los glides como vocal + diacrítico "no silábico " (/i̯/, /u̯/) en vez de /j/ y /w/. | |
Comando: | perkins-1.0.5.pl -i=source.txt -nospe | |
Transcripción: | en kon.sep.ˈsjon | se ˈt̪ɾa.t̪a d̪e a.gwan.ˈt̪aɾ la ˈʝu.bja d̪u.ˈɾan.t̪e ˈsin.ko ˈme.ses d̪el ˈa.ɲo ‖ ka.ˈt͡ʃaj |
|
Descripción: | Silabizar a nivel de palabra, en vez de enunciado / oración. | |
Comando: | perkins-1.0.5.pl -i=source.txt -cv | |
Transcripción: | VC.CVC.CVC.ˈCVVC | CV.ˈCCV.CV.CV.V.CVVC.ˈCVC.CV.ˈCV.CVV.CV.ˈCVC. CV.ˈCVC.CV.ˈCV.CVC.CVC.ˈV.CV ‖ CV.ˈCVV |
|
Descripción: | Analizar el input en términos de consonante / vocal. | |
Comando: | perkins-1.0.5.pl -i=source.txt -cvg | |
Transcripción: | VC.CVC.CVC.ˈCGVC | CV.ˈCCV.CV.CV.V.CGVC.ˈCVC.CV.ˈCV.CGV.CV.ˈCVC. CV.ˈCVC.CV.ˈCV.CVC.CVC.ˈV.CV ‖ CV.ˈCVG |
|
Descripción: | Analizar el input en términos de consonante/vocal/glide. | |
Comando: | perkins-1.0.5.pl -i=source.txt -cvn | |
Transcripción: | VN.CVN.CVC.ˈCGVN | CV.ˈCRV.CV.CV.V.CGVN.ˈCVR.LV.ˈCV.CGV.CV.ˈRVN. CV.ˈCVN.CV.ˈNV.CVC.CVL.ˈV.NV ‖ CV.ˈCVG |
|
Descripción: | Analizar el input en términos de consonante/vocal/glide/nasal/líquida/rótica. | |
Comando: | perkins-1.0.5.pl -i=source.txt -m | |
Transcripción: | VN.PVN.FVP.ˈFXVN | FV.ˈPTV.PV.PV.V.PXVN.ˈPVT.LV.ˈFV.PXV.PV.ˈTVN. PV.ˈFVN.PV.ˈNV.FVF.PVL.ˈV.NV ‖ PV.ˈAVX |
|
Descripción: | Analizar input en términos del MODO de articulación (P=plosiva, N=nasal, R=multivibrante, T=vibrante simple, F=fricativa, L=lateral, A=africada, X=aproximante, V=vocal). | |
Comando: | perkins-1.0.5.pl -i=source.txt -p | |
Transcripción: | -A.V-A.A-B.ˈAP-A | A-.ˈDA-.D-.D-.-.VW-A.ˈD-A.A-.ˈP-.BP-.D-.ˈA-A.D-. ˈA-A.V-.ˈB-.A-A.D-A.ˈ-.P- ‖ V-.ˈT-P |
|
Descripción: | Analizar input en términos del PUNTO de articulación (B=bilabial, L=labiodental, D=dental, A=alveolar, T=postalveolar, P=palatal, V=velar, W=labiovelar, -=vocal). |
Problemas conocidos
En todos los modos excepto el fonémico (i.e. CV, CVG, etc.), la silabificación se realiza siempre a nivel de palabra.
Versiones antiguas
1.0.5
1.0.0- Código fuente / script de Perl
Windows x64 (.exe)
Windows x86 (.exe)
Linux x64 (binario)
Linux x86 (binario)
Mac OSX (experimental)
0.4.6.3