Lekko OT - wykaz polskich s
  Home FAQ Contact Sign in
pl.comp.os.linux.programowanie only
 
Advanced search
POPULAR GROUPS

more...

pl.comp.os.linux.programowanie Profile…
 Up
Lekko OT - wykaz polskich s         


Author: ethanak
Date: Aug 19, 2008 03:12

Witam.

Ktoś mi tu kiedyś podał Morfologika jako bardzo ładne źródło, fakt -
śliczne, udało mi się w paru miejscach go wykorzystać, tym razem problem
mam nieco inny.

Otóż Morfologik zawiera również słowa nie będące czysto polskimi (np.
'commedia'), a ja potrzebuję wyłącznie słów które są czysto polskie (tzn.
które mogę puścić na syntezator bez żadnych słowników).

Ma ktoś może namiary na coś takiego?

Próbowałem robić to na zasadzie jakiegoś automagicznego odrzucania słów
które wydały mi się podejrzane (np. słowa występujące w angielskim
słowniku) ale niestety automat przepuścił mi zbyt wiele, a ręczna analiza
jakoś mi niespecjalnie się uśmiecha...

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
http://www.blubuntu.polip.com/ - a jednak sie da :)
8 Comments
Re: Lekko OT - wykaz polskich słów?         


Author: Daniel Janus
Date: Aug 19, 2008 03:48

Dnia 19.08.2008 ethanak napisał/a:
> Witam.
>
> Ktoś mi tu kiedyś podał Morfologika jako bardzo ładne źródło, fakt -
> śliczne, udało mi się w paru miejscach go wykorzystać, tym razem problem
> mam nieco inny.
>
> Otóż Morfologik zawiera również słowa nie będące czysto polskimi (np.
> 'commedia'), a ja potrzebuję wyłącznie słów które są czysto polskie (tzn.
> które mogę puścić na syntezator bez żadnych słowników).

Nie bardzo wiadomo, co jest ,,czysto polskim'' słowem. Czy na przykład
,,brąz'' nim jest? Etymologicznie nie powinien, bo to od francuskiego
/bronze/. A może chodzi o słowa, które intuicyjnie ,,czyta się tak jak
się pisze''? Co w takim razie ze słowami ,,sinus'', ,,obmierzły'' i
,,implicite''? Czy chcielibyśmy je zostawić, czy wykreślić?
Show full article (1.15Kb)
no comments
Re: Lekko OT - wykaz polskich s         


Author: ethanak
Date: Aug 19, 2008 04:36

Dnia Tue, 19 Aug 2008 10:48:33 +0000, Daniel Janus napisał(a):
> [...]
>> Otóż Morfologik zawiera również słowa nie będące czysto polskimi (np.
>> 'commedia'), a ja potrzebuję wyłącznie słów które są czysto polskie
>> (tzn. które mogę puścić na syntezator bez żadnych słowników).
>
> Nie bardzo wiadomo, co jest ,,czysto polskim'' słowem. Czy na przykład
> ,,brąz'' nim jest? Etymologicznie nie powinien, bo to od francuskiego
> /bronze/.

Ależ określiłem - te które wymawiane są zgodnie ze sztywnymi zasadami
wymowy.
> A może chodzi o słowa, które intuicyjnie ,,czyta się tak jak
> się pisze''?

Nie tyle "intuicyjnie" co "mechanicznie", ale owszem, dokładnie o to
chodzi.
> Co w takim razie ze słowami ,,sinus'', ,,obmierzły'' i
> ,,implicite''? Czy chcielibyśmy je zostawić, czy wykreślić?
Show full article (1.76Kb)
no comments
Re: Lekko OT - wykaz polskich słów?         


Author: bofh
Date: Aug 19, 2008 06:22

ethanak napisał(a):
>
> Otóż Morfologik zawiera również słowa nie będące czysto polskimi (np.
> 'commedia'), a ja potrzebuję wyłącznie słów które są czysto polskie (tzn.
> które mogę puścić na syntezator bez żadnych słowników).
>
> Ma ktoś może namiary na coś takiego?
>
> Próbowałem robić to na zasadzie jakiegoś automagicznego odrzucania słów
> które wydały mi się podejrzane (np. słowa występujące w angielskim
> słowniku) ale niestety automat przepuścił mi zbyt wiele, a ręczna analiza
> jakoś mi niespecjalnie się uśmiecha...

Raczej nie ma czegoś takiego. Zbyt długa lista, poza tym co znaczy czysto polskie?

- Te synek, skocz po halba!
- Panie majster, a co to jest halba?
- Masz recht, kup dwie.
Show full article (1.10Kb)
no comments
Re: Lekko OT - wykaz polskich s         


Author: ethanak
Date: Aug 19, 2008 06:31

Dnia Tue, 19 Aug 2008 15:22:05 +0200, bofh@nano.pl napisał(a):
> ethanak napisał(a):
>>
>> Otóż Morfologik zawiera również słowa nie będące czysto polskimi (np.
>> 'commedia'), a ja potrzebuję wyłącznie słów które są czysto polskie
>> (tzn. które mogę puścić na syntezator bez żadnych słowników).
>>
[...]
>
> Raczej nie ma czegoś takiego. Zbyt długa lista, poza tym co znaczy
> czysto polskie?
>
> - Te synek, skocz po halba!
> - Panie majster, a co to jest halba?
> - Masz recht, kup dwie.

W podanym przykładzie mam dwa nieznane słowa: halba i recht. Oba
zatwierdzam do wymowy wciśnięciem "enter" ;)
Show full article (1.44Kb)
no comments
Re: Lekko OT - wykaz polskich słów?         


Author: Micha³ Wasiak
Date: Aug 19, 2008 12:28

On Tue, 19 Aug 2008 11:36:11 +0000 (UTC), ethanak wrote:
> Dnia Tue, 19 Aug 2008 10:48:33 +0000, Daniel Janus napisa?(a):
>
>> [...]
>>> Otó? Morfologik zawiera równie? s?owa nie b?d?ce czysto polskimi (np.
>>> 'commedia'), a ja potrzebuj? wy??cznie s?ów które s? czysto polskie
>>> (tzn. które mog? pu?ci? na syntezator bez ?adnych s?owników).
>>
>> Nie bardzo wiadomo, co jest ,,czysto polskim'' s?owem. Czy na przyk?ad
>> ,,br?z'' nim jest? Etymologicznie nie powinien, bo to od francuskiego
>> /bronze/.
>
> Ale? okre?li?em - te które wymawiane s? zgodnie ze sztywnymi zasadami
> wymowy.

Słowa sześćset lub pięćdziesiąt nie będą pewnie według
Ciebie czysto polskie.
Show full article (0.91Kb)
no comments
Re: Lekko OT - wykaz polskich s         


Author: ethanak
Date: Aug 19, 2008 22:32

Dnia Tue, 19 Aug 2008 19:28:07 +0000, Michał Wasiak napisał(a):
> On Tue, 19 Aug 2008 11:36:11 +0000 (UTC), ethanak wrote:
[...]
>> Ale? okre?li?em - te które wymawiane s? zgodnie ze sztywnymi zasadami
>> wymowy.
>
> Słowa sześćset lub pięćdziesiąt nie będą pewnie według Ciebie czysto
> polskie.

A niby to dlaczego?
>
> Zasady wymowy każą czytać inaczej literę 'ę' w słowach: 'więc', 'gęś' i
> 'chcę'. Syntezator potrafi to odróżnić? A co ze słowami, które mają
> więcej niż jedną poprawną wymowę?

Czekaj, ale ja operuję na wyższym poziomie - syntezator (a właściwie TTS)
potrafi to odróżnić. Zresztą zobacz sam.

Fragment pliku pl_rules eSpeaka:
Show full article (3.80Kb)
no comments
Mocno OT - wykaz polskich słów?         


Author: Lech Lorens
Date: Aug 20, 2008 13:40

Dnia 20.08.2008 ethanak napisał/a:
>
> buick => błik

To się akurat czyta bjuik. Na poparcie mojej tezy:
http://answers.yahoo.com/question/index?qid=20080609020425AAZtbLm

--
Pozdrawiam,
Lech Lorens - lp.pw@snerol_hcel
no comments
Re: Mocno OT - wykaz polskich s         


Author: ethanak
Date: Aug 20, 2008 19:07

Dnia Wed, 20 Aug 2008 20:40:02 +0000, Lech Lorens napisał(a):
> Dnia 20.08.2008 ethanak napisał/a:
>>
>> buick => błik
>
> To się akurat czyta bjuik. Na poparcie mojej tezy:
> http://answers.yahoo.com/question/index?qid=20080609020425AAZtbLm

A dziękuję! Już poprawiam w słowniku :)

ethanak
--
mailto=window.atob('ZXRoYW5ha0Bwb2xpcC5jb20=');
http://www.blubuntu.polip.com/ - a jednak sie da :)
no comments