Re: Lekko OT - wykaz polskich s
  Home FAQ Contact Sign in
pl.comp.os.linux.programowanie only
 
Advanced search
POPULAR GROUPS

more...

 Up
Re: Lekko OT - wykaz polskich s         

Group: pl.comp.os.linux.programowanie · Group Profile
Author: ethanak
Date: Aug 19, 2008 22:32

Dnia Tue, 19 Aug 2008 19:28:07 +0000, Michał Wasiak napisał(a):
> On Tue, 19 Aug 2008 11:36:11 +0000 (UTC), ethanak wrote:
[...]
>> Ale? okre?li?em - te które wymawiane s? zgodnie ze sztywnymi zasadami
>> wymowy.
>
> Słowa sześćset lub pięćdziesiąt nie będą pewnie według Ciebie czysto
> polskie.

A niby to dlaczego?
>
> Zasady wymowy każą czytać inaczej literę 'ę' w słowach: 'więc', 'gęś' i
> 'chcę'. Syntezator potrafi to odróżnić? A co ze słowami, które mają
> więcej niż jedną poprawną wymowę?

Czekaj, ale ja operuję na wyższym poziomie - syntezator (a właściwie TTS)
potrafi to odróżnić. Zresztą zobacz sam.

Fragment pliku pl_rules eSpeaka:

.group Ä™
Ä™ E~
Ä™ (_ E
Ä™ (_A E_
Ä™ (p Em
Ä™ (b Em
Ä™ (t En
Ä™ (c En
Ä™ (d En
ęć (dzie En^
Ä™ (dzi En^
Ä™ (ci En^
ę (ć En^
Ä™ (si En^
Ä™ (Å› En^
ę (dź En^
Ä™ (k EN
Ä™ (g EN
Ä™ (l E
Ä™ (Å‚ E
i) Ä™ (tna E

Odpowiedni fragment mojej Mileny (niedokończonej niestety):

letter Ä™ E
wi,pi:tnaÅ› e
wi,pi:ćdzie en'$ ; pominięta następna litera
:#A e_
:l,Å‚,# e
:t,d en
:p,b em
:k,g eN
:ś,si,ć,ci,dź,dzi en'
\

Z uwagi na zamknięty kod nie wiem jak to jest technicznie zrobione w
Ivonie czy Loquendo ale podejrzewam, że podobnie.

Tak że - jak sam widzisz - syntezator nie ma problemu z różną wymową tej
samej litery, masz to na sztywno wbite w reguły translacji. Popularne
wyjątki (wspomniane "sześćset") też są uwzględnione.

Mi chodzi o wykluczenie ze słownika słów które wymawiane są niezgodnie z
owymi sztywnymi regułami i albo zapisanie słowa do słownika wyjątków,
albo (jeśli translacja nie może być określona) pominięcie danego słowa.

Aplikacja (w uproszczeniu) analizuje każde słowo tekstu zamieniając je na
jednoznaczną formę fonetyczną - np. dla Ivony (która stara się być pełnym
TTS ale niespecjalnie jej to wychodzi) będzie to:

obmierzły => obmier~'zły
zmierzyć => zmieżyć
díaz => dijaz
silnik => śilnik
buick => błik

W przypadku napotkania homogramu aplikacja (znając wszystkie prawidłowe
formy) proponuje wybór:

fizyka => fiz~!yka, f~!izyka
lady => lady, lejdi
jacka => jacka, dżeka

W przypadku napotkania nieznanego słowa aplikacja próbuje ustalić jego
wymowę i zaproponować zastosowanie, dając możliwość wprowadzenia własnej:

haraldsen => h~!araldsen ?
mentemozis => mentemoz~'is, mentemoźis ?

Aplikacja jako taka jest (jak wspomniałem) częściowo ukończona, nawet w
tej bardzo roboczej postaci nadaje się do użytku (kilkadziesiąt MB tekstu
na mp3 przerobiłem) - największą bolączką jest właśnie słownik, z którego
nie usunąłem wszystkich wyrazów wymawianych niezgodnie ze sztywnymi
regułami. A przy słowniku zawierającym 200k słów miałem chyba prawo coś
przeoczyć ;)

Stąd właśnie moje pytanie - bo być może ktoś taki słownik już opracował i
bez sensu byłoby ponowne wynajdowanie koła. Ale jeśli nie - trudno, po
prostu słuchając książki będę sobie notował co mi Ivonka źle przeczytała
i pewnie po jakiejś pięćdziesiątej słownik się będzie nadawał do użytku.
Ewentualnie (jeśli kogoś to interesuje) postaram się doprowadzić aktualną
aplikację do stanu jako takiej użyteczności i gdzieś wystawię, może jeśli
więcej osób znajdzie błędy słownik powstanie szybciej... tyle że na razie
niespecjalnie ma to sens, bo od dawna obiecywana wersja Ivony Desktop dla
Linuksa istnieje na razie tylko w wersji demo, która to wersja absolutnie
się do użytku nie nadaje:( A słuchanie czegokolwiek tym głosikiem mbroli
uważam za czysty masochizm :)

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
http://www.blubuntu.polip.com/ - a jednak sie da :)
no comments
diggit! del.icio.us! reddit!