Tratamiento de Texto en Unix

Unix y Linux son sistemas operativos que tiene muchas herramientas útiles para hacer una infinidad de tareas, para ello uno de sus secretos es que deberemos perderle el miedo a usar la consola o terminal, para realizar estas tareas deberemos ingresar comandos de consola para la manipulación de archivos de texto plano. En esta sección aprenderemos algunos trucos útiles.

Como convertir HTML a PDF

No vamos a comentar en que circunstancias es necesario hacer esto, pero es evidente, sobre todo cuando existen manuales en html queremos pasarlo a un formato mas universal como pdf.

Si editamos un html, nos encontraremos con un texto rodeado de un montón de sentancias y simbolos que si tratamos de leerlo difícilmente entenderemos algo, pero si el mismo archivo lo llevamos en PDF, veremos una gran diferencia.

Para realizar esta conversión con una sola linea en una consola deberemos instalar en nuestra máquina el paquete htmldoc.

# aptitude install htmldoc --> Para Debian

Ahora ya que lo tenemos instalado usaremos el siguiente comando, suponiendo que tenemos un archivo HTML (origen.html) en el mismo directorio en donde estamos parados.

$ htmldoc -t pdf14  origen.html --size letter  --title  --links \
 --linkstyle plain  --linkcolor blue --left 10mm  \
--right  10mm  > destino.pdf

Con esto le hemos indicado al comando htmldoc que:

  • La salida del documento usará pdf14.
  • El tamaño de la pagina es Carta.
  • Que ponga las URL en color azul.
  • Que use 10mm para el borde derecho e izquierdo.
  • Genere un archivo de salida llamado destino.pdf

Hay una opción que permite convertir una pagina WEB a un formato PDF, esto es especialmente útil si sacamos el código HTML de la página y lo guardamos en un archivo, posteriormente editamos ese archivo y podemos modificar su contenido, pero el htmldoc requiere que se le informe que el html es de una pagina web, esto se hace por ejemplo con el mismo comando anterior pero agregando la opción –webpage.

$ htmldoc -t pdf14  origen.html --webpage --size letter  --title  --links \
 --linkstyle plain  --linkcolor blue --left 10mm  \
--right  10mm  > destino.pdf

Como convertir Texto plano a PS o PDF

Podemos encontrar en muchas partes el texto plano, de hecho fue uno de las primeros formatos de texto, el problema con esto es que carecen de formato, no tiene alineación de texto, no tiene fonts, sólo el por default lo que no hace del todo grato su uso frente a otras herramientas, pero como lo importante es su contenido, es indispensable tratarlo un poco para mejorar su aspecto.

Para el tratamiento de texto plano a ps (postscript), usaremos una estupenda herramienta llamada a2ps, para mayor detalle ver página del proyecto. Esta herramienta que en realidad en un programa con un montón de opciones interesantes, permite imprimir un texto plano de origen a un formato más enriquecido, buscando la mejor forma de imprimirlo, a un archivo a la impresora. Uno de los usos más interesantes es cuando quiero imprimir código fuente de un programa, ya que permite resaltar las palabras claves del lenguaje dejando mucho más atractiva su lectura o impresión.

Personalizar el Encabezado y Pie de Página

Si por ejemplo deseamos imprimir un programa que tenemos en código fuente, y deseamos enriquecer un poco más el texto, podemos imprimirle información de encabezado y pié de página, con datos de fecha, autor o números de línea. Esto lo hacemos con el siguiente comando en consola:

$ a2ps -1 --header=“Electrolinux” --footer=“Desarrollo proyecto válvula” \
--line-numbers 1 valvula.c -o valvula.ps 

Debemos indicar también que a2ps, aún no maneja bien el encoding UTF-8 por lo que los archivos de texto plano deben ser evitados en la medida de lo posible los acentos o tildes o eñes.

Es inevitable usar Tildes o Eñes

En los casos en que requieramos usar los acentos o tildes y las eñes de nuestro lenguaje, también existe solución para ese problema, que requiere sólo algunos segundos más de tiempo, lo que deberemos hacer es un paso previo que es el siguiente:

$ recode UTF-8..ISO-8859-1  main_origen.c

Con esto hemos convertido de UTF-8 que es el encoding de prácticamente todos los Unix o Linux actuales al encoding ISO-8859-1. Este paso es previo para codificar correctamente el archivo plano y pasarlo al formato que maneja bien a2ps.

Y ahora ejecutamos el comando a2ps de la siguiente forma:

a2ps -1 --header="www.electrolinux.cl" --footer="Proyecto SmartValvule" \
main_origen.c -o salida_main.ps

Como Convertimos de PS a PDF

Ahora tendremos un archivo PostScript llamado salida_main.ps, y por último lo convertimos a PDF, con el comando siguiente, para nuestro ejemplo:

$ ps2pdf14  salida_main.ps

Como unir archivos rar en Linux

Muchos usuarios linux se preguntan eso, sobre todo cuando están recien llegados y no conocen las poderosas herramientas disponibles en Linux o en algún Unix. Para ello deberemos disponer de los paquetes instalados en nuestro sistema, con este comando en consola:

# aptitude update
# aptitude install rar && aptitude install unrar

Una vez que hemos instalado estos paquetes en forma correcta, lo que deberemos hacer para juntar varios archivos rar en un sólo archivo es con el siguiente comando en consola:

$ unrar x archivo_rar.parte1.rar

Lo que la aplicación hace es descomprimir la primera parte del archivo y sucesivamente va por las siguientes partes, ya que la información de la parte siguiente se encuentra en el formato rar de la primera parte.

servicios/informaticos/tratexto.txt · Última modificación: 2009/12/09 16:01 por ricardo
Recent changes RSS feed Creative Commons License Donate Minima Template by Wikidesign Driven by DokuWiki