1 Segmentacja
Znaczniki morfosyntaktyczne, tzw. tagi, przypisane są segmentom
(tokenom, w przybliżeniu słowom). Segmenty nie są dłuższe niż słowa
ortograficzne (słowa 'od spacji do spacji'), ale w niektórych wypadkach
segmenty mogą być krótsze niż takie słowa:
- Jako odrębne segmenty traktowane są formy aglutynacyjne
leksemu BYĆ, a zatem następujące
słowa reprezentują po dwa segmenty:
[łgał][eś], [długo][śmy],
[tak][em].
- Za odrębne segmenty uznane są partykuły by, -ż(e)
i -li, a zatem następujące słowa reprezentują po kilka
segmentów: [przyszedł][by],
[napisała][by][m], [chodź][że],
[potrzebował][że][by][ś],
[znasz][li].
- Odrębnym segmentem jest poprzyimkowa nieakcentowana forma zaimka
-ń: [do][ń], [ze][ń].
- Dzielone na segmenty są niektóre słowa zawierające
łącznik, a mianowicie:
- słowa typu [polsko][-][niemiecki],
- podwójne nazwiska,
np. [Kowalska][-][Nowakowska],
nie są natomiast dzielone skrótowce zawierające łącznik
sygnalizujący odmianę, np. PRL-u.
- Dzielone na segmenty są także występujące na końcu zdania formy
kończące się kropką, np. skróty typu itd.,
itp., liczby pisane cyframi w znaczeniu porządkowym
i inicjały, np. [itp][.],
[George] [W][.] itp. Dzielenie form z kropką
kończących zdanie jest uzasadnione podwójną rolą kropki w takiej
pozycji: jest ona częścią formy i jednocześnie sygnalizuje koniec
zdania. W wypadku, gdy takie formy nie występują na końcu
zdania, są one uznawane za pojedyncze segmenty.
Z powyższych zasad wynika, że segmentacja tekstu w 1. wygląda tak, jak to przedstawiono w 2.
- Pojechalibyśmy z Janem M. Rokitą i Janem
Nowakiem-Jeziorańskim na sesję polsko-amerykańską, gdyby nas
zaprosił George W. Byłaby to nasza już 2. doń podróż od czasów
PRL-u, a może i 3., czy nawet 4.
- [Pojechali][by][śmy]
[z] [Janem] [M.] [Rokitą] [i] [Janem]
[Nowakiem][-][Jeziorańskim] [na] [sesję]
[polsko][-][amerykańską][,] [gdyby] [nas]
[zaprosił] [George] [W][.]
[Była][by] [to] [nasza] [już] [2.]
[do][ń] [podróż] [od] [czasów]
[PRL-u][,] [a] [może] [i] [3.][,]
[czy] [nawet] [4][.]