• Актуальнае
  • Медыяправа
  • Карыснае
  • Кірункі і кампаніі
  • Агляды і маніторынгі
  • Рэкамендацыі па бяспецы калег

    З Корпусу беларускай мовы прыбралі публікацыі незалежных медыяў

    Праз паўгода бяздзеяння часткова аднавіў працу Беларускі N-корпус. Афіцыйнай прычынай спынення працы называліся тэхнічныя праблемы, але выглядае, што праект стаў ахвярай палітычнай цэнзуры. З корпусу зніклі амаль 90% тэкстаў, у тым ліку публікацыі нелазежных беларускіх СМІ, піша «Наша Ніва».

    Беларускі N‑корпус нечакана спыніў сваю працу ў ліпені 2023 года. На адпаведнай старонцы было размешчана паведамленне пра тое, што ў распрацоўшчыкаў «узніклі праблемы з корпусам»:

    «На жаль, атрымалася так, што мы не можам яго падтрымліваць далей з розных прычын. Рухавік корпуса застаецца пад вольнай ліцэнзіяй. Астатнія праекты будуць працягвацца як і раней».

    Больш дакладных тлумачэнняў не было ні на самім сайце, ні ў сацсетках, захоўвалі публічнае маўчанне і мовазнаўцы-стваральнікі Корпуса.

    Як стала пасля вядома, афіцыйнай прычынай была названая «недастатковая магутнасць сервераў». Але, відаць, адной гэтай прычынай спыненне працы не абмяжоўваецца.

    Корпус складаўся з некалькіх падкорпусаў: асноўнага, неразабраных тэкстаў, газет і сайтаў, беларускіх Вікіпедый абодвух правапісаў. Такім чынам Корпус уключаў велізарную колькасць сучасных тэкстаў на беларускай мове, у тым ліку публікацыі беларускамоўных СМІ, прадукцыя большасці з якіх была прызнаная рэжымам Лукашэнкі «экстрэмісцкімі» матэрыяламі. Менавіта падкорпус газет і сайтаў першым знік з выдачы яшчэ да поўнага адключэння Корпуса. 

    Няспыннае пашырэнне «забароненай» прадукцыі працягвала значна скарачаць кола сучасных тэкстаў на беларускай мове, якія можа выкарыстоўваць у Корпусе, а канвеернасць прызнання ўсяго «экстрэмісцкім», рабіла немагчымым пастаяннае адсочванне і ўнясенне адпаведных зменаў у велізарную базу. 

    Крамольную для рэжыму па сэнсе і падачы інфармацыю маглі змяшчаць і тэксты без «экстрэмісцкага» статусу. Цэнзураванне зместу тэкстаў не з’яўляецца задачай Корпуса і супярэчыць яго сутнасці, фізічна і тэхнічна немагчыма выявіць небяспечныя фрагменты ў мільярдзе словаўжыванняў. 

    У такім разе спыненне працы Корпуса з меркаванняў уласнай бяспекі выглядае цалкам лагічным.

    Праца Корпуса была адноўлена 19 студзеня, але ў моцна скарочаным выглядзе. Калі ў пачатку 2023 года агулам корпус налічаў каля 1 млрд слоў, то сёння засталося толькі 124 млн, або 12%. 

    З аднаго боку, гэта добра кладзецца ў афіцыйную версію пра магутнасці сервераў. Але ў адноўленым Корпусе не проста скараціліся, а цалкам зніклі цэлыя падкорпусы: Корпус неапрацаваных тэкстаў (907 млн слоў), які ўключаў тэксты з сайтаў kamunikat.org (465 млн слоў) і knihi.com (432 млн слоў), канкарданс беларускай мовы XIX ст., які ўключаў практычна ўсе захаваныя творы мастацкай літаратуры, напісаныя ў названы перыяд на беларускай мове (287 тыс. слоў), і корпус абедзвюх беларускіх Вікіпедый (124 млн слоў).

    Гэтыя змены лёгка патлумачыць: Вікіпедыя застаецца свабодным і непадцэнзурным рэсурсам, канкарданс XIX ст. змяшчае антырасійскія творы Дуніна-Марцінкевіча, Багушэвіча, Каратынскага і іншых дзеячаў, якія або прызнаныя экстрэмісцкімі, або з’яўляюцца аб’ектам нападкаў прарасійскіх блогераў, а сайт kamunikat.org заблакаваны па рашэнні Міністэрства інфармацыі.

    Адроджаны корпус вэб-рэсурсаў сёння ўключае толькі сайты дзяржаўных «БелТА», газеты «Звязда», Белтэлерадыёкампаніі і афіцыйны сайт Лукашэнкі, цалкам ігнаруючы велізарны і разнастайны масіў тэкстаў, які дзесяцігоддзямі ствараўся незалежнымі медыя. Агулам атрымалася 106 млн слоў — кропля на месцы колішняга мора.

    Магчыма, корпус яшчэ будзе дапоўнены іншымі матэрыяламі, але многія туды ўжо не вернуцца праз ідэалогію сённяшняга беларускага рэжыму.

    Чытайце яшчэ:

    Штучны інтэлект пакуль не заменіць журналістаў, затое можа ім дапамагчы. Даем лайфхакі

    Сярод 20 беларускіх экспертаў, у дачыненні да якіх адкрытая «спецвытворчасць», — тры прадстаўнікі медыясферы

    В Беларуси решили бороться с VPN, чтобы ограничить доступ к независимым источникам информации

    Самыя важныя навіны і матэрыялы ў нашым Тэлеграм-канале — падпісвайцеся!
    @bajmedia
    Найбольш чытанае
    Акцэнты

    Как найти и удалить свои старые комментарии в Instagram, Telegram, YouTube, TikTok и «Вконтакте»

    12.02.2024
    Акцэнты

    30-годдзе за кратамі — сёння ў зняволенай журналісткі Кацярыны Андрэевай дзень народзінаў

    Кацярына Андрэева мусіла сустрэць «круглую» дату на волі — 5 верасня 2022 года сканчаўся яе несправядлівы тэрмін у калоніі. Але не. 7 красавіка 2022-га сям’і палітзняволенай журналісткі стала вядома, што ёй выставілі новае абвінавачанне. 13 ліпеня 2022 года Кацярыну прызналі вінаватай «у выдачы замежнай дзяржаве, міжнароднай альбо замежнай арганізацыі ці іх прадстаўніку дзяржаўных сакрэтаў Рэспублікі Беларусь». Суддзя Гомельскага абласнога суда Алег Харошка прызначыў ёй яшчэ 8 год пазбаўлення волі.
    02.11.2023
    Акцэнты

    «Юмор может работать как подорожник». Топ самых ярких сатирических проектов Беларуси

    Юмор считают лакмусовой бумажкой общества. Чем оно здоровее, тем спокойнее реагирует на шутки и иронию, направленные на внутренние проблемы. Белорусам, три года пребывающим в затяжном, беспросветном политическом и экономическом кризисе, сатира помогает выстоять и уцелеть. А вот диктатура боится смеха как огня. «Не Славой Комиссаренко единым», — подумал БАЖ и сделал обзор самых улетных юмористических проектов, высмеивающих сегодняшнюю страшную реальность.
    12.12.2023
    Кожны чацвер мы дасылаем на электронную пошту магчымасці (гранты, вакансіі, конкурсы, стыпендыі), анонсы мерапрыемстваў (лекцыі, дыскусіі, прэзентацыі), а таксама самыя важныя навіны і тэндэнцыі ў свеце медыя.
    Падпісваючыся на рассылку, вы згаджаецеся з Палітыкай канфідэнцыйнасці