Применила Toolbox для пары десятков изучаемых языков. Есть некоторые сложности в письменностях. тебующих юникода. В нем можно выбрать UTF-8, но всё же идейно прога задумана еще в 80-е, и сложности есть. Кроме того, это ж прога для изучения неизученных языков, т.е. чаще бесписьменных, а если и письменностью, то не с иероглифами же - китайский как-то сам себя давно изучил. Так что к иероглифам он не до конца приспособлен. Однако и с китайщиной удалось добиться всякой красоты.
читать дальшеИдейные проблемы:
- трудно разбирает текст без пробелов. Вернее считает, что между пробелами - одно слово: разрбрать может, но считая части не отдельными словами, а корнесложением.
- требуется перечислить весь "алфавит" - как бы в порядке сортировки, но на деле неуказанные символы Тулбокс проглатывает и не считает частью слов. Тут даже главная проблема не в иероглифх: ввожу только те, что использовала, и плюю на попыту их упорядочить. А вот с корейским хангыдем вышло вот что. Букв у них конечно, немного, но та же Википедия написана не быквами, а преднабранными слого-блоками. Впихнула в Тулбокс все слогоблоки, и вот тут идейная проблема перешла в технический глюк: Тулбокс жалуется на кобы повторы, но, по-моему, их нет, по-моему, это глюк, а просто список вышел слишком большим, пришлось часть слогоблоков удалить. Но ведь они существуют! Всего их несколько тысяч, так что, наверное, это со временем вылезет и в китайском с японским.
Технические глюки:
- В некоторых письменностях, если заглавное поле лексемы написать этой письменностью, возникают уродующие глюки при разборе текста - все поля сразу вместо одного, в остальных - фигня. Приходится писать заглавие лексемы транслитом. С некоторыми языками - ну и пожалуйста! поди их прочти без транслита. С японским даже удобнее, т.к. одно и то же слово может писаться с раным процентным соотношений иероглифов и азбуки. Для хиндустани тоже, возможно, пригодиться, чтобы иметь у каждого слова два написания: деванагари для хинди и арабицей для урду.
- В абугидах (алфавиты, где согласная и гласная сплавляются в единый сложный знак), аффиксы оттыдыкиваются от корня в строке текста, что портит последующие попытки разбора. И выглядит особенно отвратно, если граница между морфемами проходит между согласным и гласным, В некоторых случаях помогает, если маркировать корень, как префикс, но это идейно странно. А главное, иногда это ситуацию ухудшает. Вообще прикольно, что ситуация обратна японскому.А много языков сразу хорошо вот почему. В любом в какой-нибудь момент натыкаешься на "Мать-моя-женщина-ужас-то-какой! Это я никогда и ни за что!" Если язык один, то так недолго и вовсе деморализоваться. А если переключишься на другой, на что-нить попонятнее, то вернешь уверенность, что к языкам способен, да и за пару недель тот ужас-ужас как-то пообвыкнется в голове и перестанет пугать - можно будет и еще раз на него одним глазком взглянуть. =).