La comprensión básica de los algoritmos utilizados en los correctores ortográficos

aprendizaje adaptativo

El primer corrector ortográfico se llamó WordCheck y se lanzó en 1981 en los sistemas informáticos Commodore. Cuarenta años después, Grammarly está eliminando partes de la competencia con su gama de características, pero incluso esta herramienta está mirando por encima del hombro ahora, ya que el texto generado por IA busca sacar a los humanos de la ecuación por completo.

Cualquier redactor de ensayos le dirá que un corrector ortográfico es una herramienta invaluable para su oficio. Las máquinas son excelentes para detectar errores basados ​​en simples errores de ortografía. A medida que el poder de la computación ha crecido, se ha hecho posible que los correctores ortográficos evolucionen hacia correctores gramaticales e incluso de tono.

Los algoritmos son conjuntos de instrucciones ejecutadas por computadoras. Entonces, si está usando uno, está ahorrando tiempo y esfuerzo, pero se hizo un gran esfuerzo para producir un buen conjunto de algoritmos que pueden lidiar con las vagabundeos del lenguaje humano. Aquí hay una vista básica de lo que hacen los algoritmos al verificar sus textos.

Un nivel de sofisticación

Un corrector ortográfico legítimo debe tener cierta sofisticación; un poema de Jerrold H. Zar escrito en 1992 ilustra esto bastante bien.


Recomendado: ¿Qué es el Big data?.


Ojo, ten un corrector ortográfico,

Vino con mi Pea Sea.

Es plano Lee marca cuatro mi revista

Señorita Steaks, puedo anudar el mar.

Un corrector ortográfico que utilice solo un algoritmo que examine cada palabra individual no encontrará ningún problema con esa estrofa. De hecho, cuando lo leemos, captamos la broma de inmediato. Los correctores ortográficos sofisticados deben incluir un modelo de lenguaje que pueda verificar cada palabra no solo por el orden de las letras, sino por el contexto en el que aparece una palabra.

Varios idiomas

Hoy en día, los programas de corrección ortográfica están disponibles para una amplia gama de idiomas, casi todos de hecho, y cada idioma trae su propio conjunto de peculiaridades que requieren ajustes algorítmicos. Los lenguajes altamente sintéticos, como el alemán, deben incluir un análisis muy morfológico, que es la forma en que se forman las palabras.

En alemán, las palabras se construyen a partir de la raíz de las palabras agregando letras adicionales en un proceso llamado inflexión o aglutinación. Todos los idiomas utilizan este proceso hasta cierto punto, pero algunos mucho más que otros. Así es como puedes terminar con palabras muy largas como ‘rechtsschutzversicherungsgesellschaften’. Las variaciones de idioma como el inglés americano o británico son mucho más fáciles de manejar que este tipo de problemas.

Los correctores ortográficos nativos tienen una ventaja cuando el idioma en cuestión es complejo, ya que las personas que desarrollan el programa son más conscientes de su implementación. Algunos correctores ortográficos utilizan un enfoque basado únicamente en datos, que puede ahorrar tiempo pero puede aumentar el número de errores antes de que la versión final esté lista para usarse.

minería de big data

Algunos algoritmos clave

Ciertos algoritmos son tan exitosos que tienen nombres, en lugar de ser abstractamente simples y tienen un “propósito general”. Por ejemplo, la distancia de Levenshtein es una forma de emparejamiento de cuerdas que mide las diferencias de dos o más cuerdas. Para aquellos que no lo saben, una cadena es el término informático para un conjunto de caracteres.

Los árboles BK son un desarrollo más reciente; es una estructura de datos basada en Levenshtein. Calcula la cantidad de cambios que debe realizar una palabra para que se convierta en otra palabra. Puede reconocer esto como un acertijo popular en la sección de juegos de los periódicos, en el que debe convertir gradualmente una palabra en otra. ¡Sí, como un algoritmo!

Markov Chains es otro algoritmo popular utilizado en software de corrección ortográfica. Una cadena de Markov utiliza el análisis de corpus para predecir qué personaje debe aparecer a continuación en la secuencia. Este algoritmo se utiliza no solo en los correctores ortográficos, sino también en el análisis del mercado de valores y otros problemas basados ​​en series de tiempo, como los resultados de fútbol.

Comprobando tu tono

En esencia, los correctores ortográficos parecen simples. Dividen su texto en palabras y esas palabras se comparan con un diccionario. Sin embargo, es la capacidad de sugerir cambios precisos lo que distingue a un buen corrector ortográfico de un simple “verificador”.

El desarrollo y avance de los correctores ortográficos también plantea la cuestión de dónde se encuentra el límite de la ortografía “correcta”. Con correctores ortográficos que califican su tono y voz, el software evalúa si está escribiendo o no de una manera que se ajuste al propósito del trabajo.

Todos los correctores ortográficos deben utilizar un corpus para tener mucho éxito. Estamos agregando a este corpus todo el tiempo y podemos crear herramientas que desdibujan la línea entre verificar la formulación de las palabras y escribir contenido.

Los N-gramos, también conocidos como cadenas de Markov, son esenciales en los campos de la lingüística computacional; se ocupan de la probabilidad en secuencias y son herramientas muy poderosas. Sin embargo, el algoritmo principal en cuestión sigue siendo la distancia de Levenshtein. Si puede familiarizarse con los enfoques necesarios detrás de este algoritmo, estará rápidamente en el camino de construir su propio corrector ortográfico e incluso gramatical.