Gaano Kahirap Dapat Nating Itulak ang Generative AI ChatGPT sa Pagbubuga ng Mapoot na Pagsasalita, Nagtatanong sa AI Ethics At AI Law

Ano ang dapat nating gawin tungkol sa generative AI na gumagawa ng nakakasakit na content gaya ng hate speech?

Getty

Ang bawat tao'y may kanya-kanyang breaking point.

Sa palagay ko ay maaari mo ring sabihin iyon lahat ng bagay may breaking point nito.

Alam natin na ang mga tao, halimbawa, ay maaaring minsang magbigkas at magsabi ng mga pahayag na hindi naman nila sinasadyang sabihin. Gayundin, maaari kang makakuha ng isang aparato o makina na talagang pumutok, tulad ng pagtulak ng iyong sasakyan nang napakalakas at nagsisimula itong humina o lumipad. Kaya, ang paniwala ay ang mga tao o "lahat" ay malamang na may breaking point, at sa katulad na paraan maaari nating igiit na ang mga bagay at bagay, sa pangkalahatan, ay may posibilidad din na magkaroon ng breaking point.

Maaaring may medyo makatwiran at mahahalagang dahilan upang matiyak kung saan umiiral ang breaking point. Halimbawa, walang alinlangang nakita mo ang mga video na iyon na nagpapakita ng isang kotse na inilalagay sa mga takbo nito upang matukoy kung anong mga breaking point ang mayroon ito. Ang mga scientist at tester ay ira-ram ang isang kotse sa isang brick wall upang makita kung gaano kahusay ang bumper at ang istraktura ng sasakyan ay makatiis sa masamang aksyon. Ang iba pang mga pagsubok ay maaaring sumaklaw sa paggamit ng isang espesyal na silid o bodega na gumagawa ng matinding lamig o matinding init upang makita kung ano ang magiging takbo ng isang sasakyan sa ilalim ng magkakaibang kondisyon ng panahon.

Ibinahagi ko ang nakabubusog na paksang ito sa column ngayong araw upang matalakay natin kung paano kasalukuyang itinutulak ng ilan ang Artificial Intelligence (AI) upang tukuyin at malamang na ilantad ang isang partikular na uri ng breaking point, ito ay ang breaking point sa loob ng AI na gumagawa ng mapoot na salita.

Oo, tama, may iba't ibang ad hoc at minsan ay isinasagawa ang mga sistematikong pagsusumikap upang masukat kung posible ba o hindi na makuha ang AI na maglabas ng mapoot na salita. Ito ay naging isang masugid na isport, kung gugustuhin mo, dahil sa tumataas na interes at kasikatan ng generative AI.

Maaaring alam mo na ang isang generative AI app na kilala bilang ChatGPT ay naging outsized talk of the town bilang resulta ng kakayahang makabuo ng mga kamangha-manghang matatas na sanaysay. Ang mga ulo ng balita ay patuloy na umuugong at pumupuri sa kahanga-hangang pagsulat na pinamamahalaan ng ChatGPT na gawin. Ang ChatGPT ay itinuturing na isang generative AI application na kumukuha bilang input ng ilang text mula sa isang user at pagkatapos ay bumubuo o gumagawa ng isang output na binubuo ng isang sanaysay. Ang AI ay isang text-to-text generator, bagama't inilalarawan ko ang AI bilang isang text-to-essay generator dahil mas madaling nililinaw nito kung para saan ito karaniwang ginagamit.

Marami ang nagulat nang banggitin ko na ang ganitong uri ng AI ay matagal nang umiral at ang ChatGPT, na inilabas noong katapusan ng Nobyembre, ay hindi kahit papaano ay nag-claim ng premyo bilang first-mover sa larangang ito ng text-to-essay. pagkahilig. Tinalakay ko sa paglipas ng mga taon ang iba pang katulad na mga generative AI app, tingnan ang aking saklaw sa ang link dito.

Ang dahilan kung bakit maaaring hindi mo alam o maalala ang mga naunang pagkakataon ng generative AI ay marahil dahil sa klasikong "pagkabigong matagumpay na ilunsad" na palaisipan. Narito ang karaniwang nangyayari. Inilabas ng isang AI maker ang kanilang generative AI app, ginagawa ito nang may labis na pananabik at sabik na pag-asa na pahahalagahan ng mundo ang pag-imbento ng isang mas mahusay na mousetrap, maaaring sabihin ng isa. Sa una, lahat ay mukhang maayos. Ang mga tao ay namangha sa kung ano ang magagawa ng AI.

Sa kasamaang palad, ang susunod na hakbang ay ang mga gulong ay magsisimulang lumabas sa kasabihang bus. Ang AI ay gumagawa ng isang sanaysay na naglalaman ng isang napakaruming salita o maaaring isang napakaruming parirala. Ang isang viral tweet o iba pang pag-post sa social media ay kitang-kitang itinatampok na ginawa ito ng AI. Bumangon ang pagkondena. Hindi namin maaaring magkaroon ng AI na umiikot at bumuo ng mga nakakasakit na salita o nakakasakit na komento. Isang napakalaking backlash ang lumabas. Maaaring sinusubukan ng gumagawa ng AI na i-tweak ang mga panloob na gawain ng AI, ngunit ang pagiging kumplikado ng mga algorithm at ang data ay hindi nagpapahiram sa kanilang mga sarili sa mabilis na pag-aayos. Isang stampede ang naganap. Parami nang parami ang mga halimbawa ng AI na naglalabas ng karumihan ay matatagpuan at nai-post online.

Ang AI maker ay nag-aatubili ngunit malinaw na walang pagpipilian kundi alisin ang AI app mula sa paggamit. Nagpapatuloy sila sa ganoon at pagkatapos ay madalas na nag-aalok ng paghingi ng tawad na ikinalulungkot nila kung sinuman ang nasaktan sa mga nabuong AI output.

Bumalik sa drawing board, pumunta ang gumagawa ng AI. Isang aral ang natutunan. Maging maingat sa pagpapalabas ng generative AI na gumagawa ng mga masasamang salita o katulad nito. Ito ay ang halik ng kamatayan para sa AI. Higit pa rito, masisira at madudurog ang reputasyon ng gumagawa ng AI, na maaaring tumagal nang mahabang panahon at maputol ang lahat ng iba pa nilang pagsisikap sa AI kabilang ang mga walang kinalaman sa generative AI per se. Ang pagkuha ng iyong petard gored sa pagpapalabas ng nakakasakit na AI language ay isang pangmatagalang pagkakamali na ngayon. Nangyayari pa rin.

Hugasan, banlawan, at ulitin.

Sa mga unang araw ng ganitong uri ng AI, ang mga gumagawa ng AI ay hindi gaanong tapat o sanay sa pag-scrub sa kanilang AI sa mga tuntunin ng pagsisikap na maiwasan ang mga nakakasakit na emisyon. Ngayon, pagkatapos na makita ang kanilang mga kapantay na ganap na nawasak ng isang bangungot sa relasyon sa publiko, ang karamihan sa mga gumagawa ng AI ay tila nakuha ang mensahe. Kailangan mong maglagay ng maraming guardrail sa lugar hangga't maaari. Sikaping pigilan ang AI na maglabas ng mga masasamang salita o masasamang parirala. Gumamit ng anumang mga diskarte sa pag-muzzling o mga diskarte sa pag-filter na pipigil sa AI mula sa pagbuo at pagpapakita ng mga salita o sanaysay na napag-alamang hindi kanais-nais.

Narito ang panlasa ng verbiage ng headline ng banner na ginamit kapag nahuli ang AI na naglalabas ng mga disreputable na output:

"Ang AI ay nagpapakita ng kakila-kilabot na toxicity"
"Ang AI ay baho ng tahasang pagkapanatiko"
"Ang AI ay nagiging tahasang nakakasakit"
"Ang AI ay naglalabas ng kakila-kilabot at imoral na mapoot na salita"
At iba pa

Para sa kadalian ng talakayan dito, tutukuyin ko ang paglabas ng nakakasakit na nilalaman bilang katumbas ng paggawa ng pananalitang may poot. Iyon ay sinabi, mangyaring magkaroon ng kamalayan na mayroong lahat ng uri ng nakakasakit na nilalaman na maaaring gawin, na lampas sa mga hangganan ng mapoot na salita lamang. Ang mapoot na pananalita ay karaniwang binibigyang kahulugan bilang isang uri lamang ng nakakasakit na nilalaman.

Magtuon tayo sa mapoot na salita para sa talakayang ito, para sa kadalian ng talakayan, bagama't napagtanto natin na ang ibang nakakasakit na nilalaman ay nararapat ding suriin.

Paghuhukay sa Mapoot na Pagsasalita Ng Mga Tao At Ng AI

Tinutukoy ng United Nations pananalitang may poot sa ganitong paraan:

“Sa karaniwang wika, ang 'hate speech' ay tumutukoy sa nakakasakit na diskurso na nagta-target sa isang grupo o isang indibidwal batay sa mga likas na katangian (tulad ng lahi, relihiyon o kasarian) at maaaring magbanta sa kapayapaan ng lipunan. Upang magbigay ng pinag-isang balangkas para sa United Nations upang matugunan ang isyu sa buong mundo, ang UN Strategy and Plan of Action on Hate Speech ay tumutukoy sa mapoot na salita bilang 'anumang uri ng komunikasyon sa pananalita, pagsulat o pag-uugali, na umaatake o gumagamit ng pejorative o discriminatory na pananalita pagtukoy sa isang tao o isang grupo batay sa kung sino sila, sa madaling salita, batay sa kanilang relihiyon, etnisidad, nasyonalidad, lahi, kulay, pinagmulan, kasarian o iba pang kadahilanan ng pagkakakilanlan.' Gayunpaman, hanggang sa kasalukuyan ay walang pangkalahatang kahulugan ng mapoot na salita sa ilalim ng internasyonal na batas sa karapatang pantao. Tinatalakay pa rin ang konsepto, lalo na kaugnay ng kalayaan sa opinyon at pagpapahayag, walang diskriminasyon at pagkakapantay-pantay” (UN website posting na pinamagatang “What is hate speech?”).

Ang AI na gumagawa ng text ay napapailalim sa pagpasok sa hate speech sphere. Masasabi mo rin ang tungkol sa text-to-art, text-to-audio, text-to-video, at iba pang mga mode ng generative AI. Palaging may posibilidad, halimbawa, na ang generative AI ay makagawa ng isang art piece na amoy ng mapoot na salita. Para sa mga layunin ng talakayan dito, magtutuon ako ng pansin sa mga posibilidad ng text-to-text o text-to-essay.

Sa lahat ng ito ay may kasamang mga pagsasaalang-alang sa AI Ethics at AI Law.

Mangyaring magkaroon ng kamalayan na may mga patuloy na pagsusumikap na mainam ang mga prinsipyo ng Etikal na AI sa pagbuo at paglalagay ng mga AI app. Ang isang lumalagong contingent ng nag-aalala at dating mga etika ng AI ay nagsisikap na matiyak na ang mga pagsisikap na mag-isip at magpatibay ng AI ay isinasaalang-alang ang isang pananaw sa paggawa AI For Good at pag-iwas AI Para sa Masama. Gayundin, may mga iminungkahing bagong batas ng AI na inilalagay sa paligid bilang mga potensyal na solusyon upang pigilan ang mga pagsusumikap ng AI na maging amok sa mga karapatang pantao at iba pa. Para sa aking patuloy at malawak na saklaw ng AI Ethics at AI Law, tingnan ang link dito at ang link dito, Lamang upang pangalanan ang ilang.

Ang pagbuo at pagpapalaganap ng Ethical AI precepts ay hinahabol upang sana ay maiwasan ang lipunan na mahulog sa napakaraming bitag na nakaka-induce ng AI. Para sa aking saklaw sa mga prinsipyo ng UN AI Ethics na ginawa at sinusuportahan ng halos 200 bansa sa pamamagitan ng pagsisikap ng UNESCO, tingnan ang link dito. Sa katulad na paraan, ang mga bagong batas ng AI ay ginagalugad upang subukan at panatilihing pantay ang AI. Ang isa sa mga pinakabagong pagkuha ay binubuo ng isang hanay ng mga iminungkahing AI Bill of Rights na inilabas kamakailan ng US White House upang tukuyin ang mga karapatang pantao sa isang edad ng AI, tingnan mo ang link dito. Kailangan ng isang nayon upang panatilihing nasa tamang landas ang mga developer ng AI at AI at hadlangan ang may layunin o di-sinasadyang mga pagsisikap na maaaring makabawas sa lipunan.

Isasama ko ang mga pagsasaalang-alang na nauugnay sa AI Ethics at AI Law sa talakayang ito tungkol sa AI na nagbubuga ng mapoot na salita o iba pang nakakasakit na content.

Ang isang maliit na pagkalito na gusto kong agad na linawin ay ang AI ngayon ay hindi nakakaramdam at samakatuwid ay hindi mo maaaring ipahayag na ang AI ay maaaring makagawa ng mapoot na salita dahil sa isang may layunin na tulad ng tao na may kaluluwang nakapaloob sa AI. Sinasabi ni Zany na ang kasalukuyang AI ay nararamdaman at ang AI ay may sira na kaluluwa, na nagiging dahilan upang ito ay makabuo ng mapoot na salita.

Nakakatawa.

Huwag mahulog dito.

Dahil sa pangunahing utos na iyon, ang ilan ay nagagalit sa gayong mga indikasyon dahil tila pinapabayaan mo ang AI. Sa ilalim ng kakaibang paraan ng pag-iisip, susunod ang pangaral na maliwanag na handa kang magkaroon ang AI ng anumang paraan ng masasamang output. Pabor ka sa AI na nagbubuga ng mapoot na salita.

Yikes, isang medyo baluktot na anyo ng hindi makatwiran. Ang tunay na diwa ng bagay ay kailangan nating panagutin ang mga gumagawa ng AI, kasama ang sinumang naglalagay ng AI o nagpapatakbo ng AI. Napag-usapan ko nang mahaba na wala pa tayo sa punto ng pagbibigay ng legal na pagkatao sa AI, tingnan ang aking mga pagsusuri sa ang link dito, at hanggang sa panahong iyon, ang AI ay lampas sa saklaw ng legal na responsibilidad. Mayroong mga tao kahit na nasa ilalim ng pag-unlad ng AI. Bilang karagdagan, ang mga tao ay nasa ilalim ng paglalagay at pagpapatakbo ng AI. Maaari nating habulin ang mga taong iyon para sa pananagutan ng kanilang AI.

Bilang isang tabi, ito rin ay maaaring maging nakakalito, lalo na kung ang AI ay pinalutang sa Internet at hindi namin matukoy kung sinong tao o tao ang gumawa nito, na isa pang paksa na tinakpan ko sa aking mga column sa ang link dito. Tricky man o hindi, hindi pa rin natin maiproclaim na AI ang guilty party. Huwag hayaan ang mga tao na palihim na gumamit ng maling anthropomorphizing upang itago at takasan ang pananagutan para sa kanilang ginawa.

Bumalik sa usapin sa kamay.

Maaaring nagtataka ka kung bakit hindi lang pinaghihigpitan ng lahat ng mga gumagawa ng AI ang kanilang generative AI na imposible para sa AI na makagawa ng mapoot na salita. Mukhang easy-peasy ito. Sumulat lang ng ilang code o magtatag ng checklist ng mga mapoot na salita, at tiyaking hindi kailanman bubuo ng anumang uri ang AI. Tila marahil kakaiba na ang mga gumagawa ng AI ay hindi pa naiisip ang mabilis na pag-aayos na ito.

Well, ayaw kong sabihin ito sa iyo ngunit ang mga kumplikadong likas sa pagbibigay-kahulugan kung ano o hindi ang mapoot na salita ay lumalabas na mas mahirap kaysa sa maaari mong ipagpalagay na ito ay.

Ilipat ito sa domain ng mga tao at kung paano nakikipag-chat ang mga tao sa isa't isa. Ipagpalagay na mayroon kang isang tao na gustong umiwas sa pagbigkas ng mapoot na salita. Alam na alam ng taong ito ang mapoot na salita at talagang umaasa na iwasang magsabi ng salita o parirala na maaaring maging mapoot na salita. Ang taong ito ay patuloy na nag-iisip na hindi pinapayagan ang isang maliit na salita ng mapoot na salita na lumabas sa kanilang bibig.

Ang taong ito na may utak at alerto sa pag-iwas sa mapoot na salita ay magagawang palaging at walang anumang pagkakataong madulas ay matiyak na hindi sila kailanman naglalabas ng mapoot na salita?

Ang iyong unang salpok ay maaaring sabihin na oo, siyempre, ang isang napaliwanagan na tao ay makakamit ang layuning iyon. Matalino ang mga tao. Kung ilalagay nila ang kanilang isip sa isang bagay, magagawa nila ito. Panahon, pagtatapos ng kwento.

Huwag siguraduhin.

Ipagpalagay na hilingin ko sa taong ito na sabihin sa akin ang tungkol sa mapoot na salita. Higit pa rito, hinihiling ko sa kanila na bigyan ako ng halimbawa ng mapoot na salita. Gusto kong makakita o makarinig ng halimbawa para malaman ko kung ano ang binubuo ng hate speech. Ang aking mga dahilan kung gayon para itanong ito ay nasa itaas.

Ano ang dapat sabihin sa akin ng taong iyon?

Sa tingin ko makikita mo ang bitag na inilatag. Kung ang tao ay bibigyan ako ng isang halimbawa ng mapoot na salita, kabilang ang aktwal na pagsasabi ng masasamang salita o parirala, sila na mismo ang bumigkas ng mapoot na salita. Bam, nakuha namin sila. Bagama't nangako sila na hindi kailanman magsasabi ng mapoot na salita, talagang ginawa na nila ito ngayon.

Unfair, bulalas mo! Sinasabi lang nila ang salitang iyon o ang mga salitang iyon para magbigay ng halimbawa. Sa kanilang puso ng mga puso, hindi sila naniniwala sa salita o salita. Ito ay ganap na wala sa konteksto at kasuklam-suklam na ipahayag na ang tao ay napopoot.

Sigurado akong nakikita mo na ang pagpapahayag ng mapoot na salita ay maaaring hindi nangangahulugang dahil sa isang mapoot na batayan. Sa kaso ng paggamit na ito, sa pag-aakalang hindi "sinadya" ng tao ang mga salita, at binibigkas lamang nila ang mga salita para sa layunin ng pagpapakita, malamang na sasang-ayon kami na hindi nila sinadya na bigyang kapangyarihan ang mapoot na salita. Siyempre, may ilan na maaaring igiit na ang pagbigkas ng mapoot na salita, anuman ang dahilan o batayan, gayunpaman ay mali. Dapat ay tinanggihan ng tao ang kahilingan. Dapat ay nanindigan sila at tumanggi na magsabi ng mga salita o parirala ng mapoot na salita, kahit na bakit o paano sila hiniling na gawin ito.

Maaari itong maging medyo pabilog. Kung hindi mo masabi kung ano ang bumubuo ng mapoot na salita, paano malalaman ng iba kung ano ang dapat iwasan kapag gumawa sila ng anumang uri ng pananalita? Para kaming suplado. Hindi mo masasabi ang hindi dapat sabihin, at hindi rin masasabi ng ibang tao kung ano ang hindi masasabi.

Ang karaniwang paraan sa paligid ng dilemma na ito ay upang ilarawan sa ibang mga salita ang itinuturing na mapoot na salita, ginagawa ito nang hindi ginagamit ang mga salitang mapoot sa salita mismo. Ang paniniwala ay ang pagbibigay ng pangkalahatang indikasyon ay magiging sapat upang ipaalam sa iba kung ano ang kailangan nilang iwasan. Iyon ay tila isang makatwirang taktika, ngunit mayroon din itong mga problema at ang isang tao ay maaari pa ring mahulog sa paggamit ng mapoot na salita dahil hindi nila naunawaan na ang mas malawak na kahulugan ay sumasaklaw sa mga detalye ng kanilang binigkas.

Ang lahat ng iyon ay nakikitungo sa mga tao at kung paano nagsasalita o nakikipag-usap ang mga tao sa isa't isa.

Alalahanin na kami ay nakatutok dito sa AI. Kailangan nating makuha ang AI upang maiwasan o ganap na ihinto ang sarili mula sa paglabas ng mapoot na salita. Maaari kang magtaltalan na maaari naming gawin ito sa pamamagitan ng pagtiyak na ang AI ay hindi kailanman ibinigay o sinanay sa anumang bagay na bumubuo ng mapoot na salita. Voila, kung walang ganoong input, siguro walang ganoong output. Nalutas ang problema.

Tingnan natin kung paano ito gumaganap sa katotohanan. Pinipili namin ang computation na magkaroon ng AI app na lumabas sa Internet at suriin ang libu-libong sanaysay at salaysay na nai-post sa Internet. Sa paggawa nito, sinasanay namin ang AI sa computation at mathematically kung paano maghanap ng mga pattern sa mga salitang ginagamit ng mga tao. Ganyan ginagawa ang pinakabago sa generative AI, at isa ring mahalagang batayan kung bakit ang AI ay tila matatas sa paggawa ng mga natural na sanaysay sa wika.

Sabihin mo sa akin, kung magagawa mo, paano gagawin ang computational training na batay sa milyun-milyon at bilyun-bilyong salita sa Internet sa paraang walang anumang pagkakahawig o kahit katiting na mapoot na salita ang nasaklaw?

Gusto kong maglakas-loob na sabihin na ito ay isang matinik at halos imposibleng hangarin.

Ang posibilidad ay ang mapoot na salita ay malalamon ng AI at ng computational pattern-matching network nito. Ang pagsisikap na pigilan ito ay may problema. Dagdag pa, kahit na pinaliit mo ito, mayroon pa ring ilan na maaaring makalusot. Wala ka nang mapagpipilian kundi ipagpalagay na ang ilan ay iiral sa loob ng pattern-matching network o na ang isang anino ng naturang mga salita ay mananatili.

Magdadagdag pa ako ng twists and turns.

Naniniwala ako na maaaring kilalanin nating lahat na nagbabago ang mapoot na salita sa paglipas ng panahon. Ang maaaring ipagpalagay na hindi mapoot na salita ay maaaring ipasiya sa kultura at lipunan bilang mapoot na salita sa ibang pagkakataon. Kaya, kung sanayin natin ang ating AI sa Internet text at sabihin nating i-freeze ang AI para hindi na magsagawa ng karagdagang pagsasanay sa Internet, maaaring nakatagpo tayo ng mapoot na salita noong panahong iyon, kahit na hindi ito itinuturing na mapoot na salita noong panahong iyon. Pagkatapos lamang ng katotohanan na ang nasabing talumpati ay maaaring ideklara bilang mapoot na salita.

Muli, ang kakanyahan ay ang pagsisikap lamang na lutasin ang problemang ito sa pamamagitan ng pagtiyak na ang AI ay hindi kailanman nalantad sa mapoot na salita ay hindi magiging silver bullet. Kakailanganin pa rin nating maghanap ng paraan upang maiwasan ang AI na maglabas ng mapoot na salita dahil sa halimbawa ng pagbabago ng mga ugali na kasunod ay kinabibilangan ng mapoot na salita na dati ay hindi itinuturing na ganoon.

Ang isa pang twist ay karapat-dapat pag-isipan.

Nabanggit ko kanina na kapag gumagamit ng generative AI tulad ng ChatGPT, ang gumagamit ay nagpasok ng teksto upang pukawin ang AI sa paggawa ng isang sanaysay. Ang inilagay na text ay itinuturing na isang paraan ng prompt o pag-prompt para sa AI app. Ipapaliwanag ko ang higit pa tungkol dito sa ilang sandali.

Sa anumang kaso, isipin na ang isang tao na gumagamit ng generative AI app ay nagpasya na pumasok bilang isang prompt ng ilang dami ng mapoot na salita.

Ano ang dapat mangyari?

Kung kukunin ng AI ang mga salitang iyon at gagawa ng isang sanaysay bilang output batay sa mga salitang iyon, malamang na ang mapoot na salita ay maisasama sa nabuong sanaysay. Kita mo, nakuha namin ang AI na magsabi ng mapoot na salita, kahit na hindi ito sinanay sa mapoot na salita sa simula.

May kailangan ka pang malaman.

Tandaan na nabanggit ko lang na ang isang tao ay maaaring mapagtripan sa pamamagitan ng pagtatanong sa kanila na magbigay ng mga halimbawa ng mapoot na salita. Ang parehong ay maaaring subukan sa AI. Ang isang user ay nagpasok ng isang prompt na humihiling sa AI na magbigay ng mga halimbawa ng mapoot na salita. Dapat bang sumunod ang AI at magbigay ng mga ganitong halimbawa? Pustahan ako na malamang na naniniwala ka na hindi dapat gawin ito ng AI. Sa kabilang banda, kung ang AI ay na-computasyon na hindi gawin ito, ito ba ay bumubuo ng isang potensyal na downside na hindi magagawa ng mga gumagamit ng AI kung sasabihin nating kailanman ay tuturuan ng AI kung ano talaga ang mapoot na salita ( higit sa pag-generalize lamang tungkol dito)?

Mga mahihirap na tanong.

May posibilidad kong ikategorya ang AI-emitted hate speech sa tatlong pangunahing bucket na ito:

Araw-araw na Mode. Ang AI ay naglalabas ng mapoot na salita nang walang anumang tahasang paghihimok ng gumagamit at parang ginagawa ito sa isang "ordinaryo" na paraan.
Sa pamamagitan ng Casual Prodding. Ang AI ay naglalabas ng mapoot na pananalita gaya ng hinikayat ng isang user tungkol sa kanilang ipinasok na prompt o serye ng mga prompt na tila kasama o direktang naghahanap ng mga naturang emisyon.
Bawat Determined Stoking. Ang AI ay naglalabas ng mapoot na salita pagkatapos ng isang napaka-determinado at matibay na serye ng mga prompt na pagtulak at pag-udyok ng isang user na determinadong makuha ang AI upang makagawa ng ganoong output.

Ang mga naunang henerasyon ng generative AI ay madalas na naglalabas ng mapoot na salita sa isang patak ng isang sumbrero; kaya maaari mong uriin ang mga pagkakataong iyon bilang isang uri ng araw-araw na mode instantiation. Ang mga gumagawa ng AI ay umatras at pinaglaruan ang AI para mas maliit ang posibilidad na madaling mahulog sa produksyon ng mapoot na salita.

Sa paglabas ng mas pinong AI, ang posibilidad na makakita ng anuman araw-araw na mode kapansin-pansing nabawasan ang mga pagkakataon ng mapoot na salita. Sa halip, ang mapoot na salita ay malamang na lumitaw lamang kapag ang isang user ay gumawa ng isang bagay bilang isang prompt na maaaring mag-spark sa computation at mathematically isang linkage sa mapoot na pananalita sa pattern-matching network. Magagawa ito ng isang user sa pamamagitan ng pagkakataon at hindi niya napagtanto na ang kanilang ibinigay bilang isang prompt ay partikular na bubuo ng mapoot na salita. Pagkatapos makakuha ng mapoot na salita sa isang nai-output na sanaysay, madalas na napagtanto at nakikita ng user na may isang bagay sa kanilang prompt na maaaring lohikal na humantong sa pagsasama ng mapoot na salita sa output.

Ito ang tinutukoy ko kaswal na pag-uudyok.

Sa ngayon, ang iba't ibang pagsisikap na bawasan ang mapoot na salita na nabuo ng AI ay medyo malakas kumpara sa nakaraan. Dahil dito, halos kailangan mong gumawa ng paraan upang maipalabas ang mapoot na salita. Pinipili ng ilang tao na sadyang makita kung maaari silang makakuha ng mapoot na salita na lumabas sa mga generative na AI app na ito. tawag ko dito determinadong pag-stoking.

Gusto kong bigyang-diin na ang lahat ng tatlo sa mga ipinahiwatig na mode ay maaaring mangyari at hindi sila eksklusibo sa isa't isa. Ang isang generative AI app ay maaaring makabuo ng mapoot na salita nang walang anumang uri ng prompt na tila nag-uudyok sa naturang produksyon. Gayundin, ang isang bagay sa isang prompt ay maaaring lohikal at mathematically maituturing na nauugnay sa kung bakit nai-output ang mapoot na salita. At pagkatapos ay ang pangatlong aspeto, na sadyang naghahangad na makagawa ng mapoot na salita, ay marahil ang pinakamahirap sa mga mode na subukan at iwasan ng AI na mapukaw sa pagtupad. Higit pa tungkol dito sandali.

Mayroon kaming ilang karagdagang pag-unpack na dapat gawin sa nakakatakot na paksang ito.

Una, dapat nating tiyakin na lahat tayo ay nasa parehong pahina tungkol sa kung ano ang binubuo ng Generative AI at kung ano ang tungkol sa ChatGPT. Kapag nasakop na natin ang foundational facet na iyon, maaari tayong magsagawa ng matibay na pagtatasa sa mabigat na bagay na ito.

Kung ikaw ay lubos na pamilyar sa Generative AI at ChatGPT, maaari mong tikman ang susunod na seksyon at magpatuloy sa seksyong kasunod nito. Naniniwala ako na ang iba ay makakahanap ng pagtuturo sa mahahalagang detalye tungkol sa mga bagay na ito sa pamamagitan ng masusing pagbabasa ng seksyon at pagkuha ng up-to-speed.

Isang Mabilis na Primer Tungkol sa Generative AI At ChatGPT

Ang ChatGPT ay isang general-purpose AI interactive conversational-oriented system, na sa esensya ay isang tila hindi nakapipinsalang pangkalahatang chatbot, gayunpaman, ito ay aktibo at masigasig na ginagamit ng mga tao sa mga paraan na nakakaakit ng marami, gaya ng aking ilalarawan sa ilang sandali. Ang AI app na ito ay gumagamit ng isang diskarte at teknolohiya sa AI realm na madalas na tinutukoy bilang Generative AI. Ang AI ay bumubuo ng mga output gaya ng text, na siyang ginagawa ng ChatGPT. Ang iba pang mga generative-based na AI app ay gumagawa ng mga larawan tulad ng mga larawan o likhang sining, habang ang iba ay bumubuo ng mga audio file o video.

Magtutuon ako sa mga text-based na generative AI app sa talakayang ito dahil iyon ang ginagawa ng ChatGPT.

Napakadaling gamitin ng mga generative AI app.

Ang kailangan mo lang gawin ay maglagay ng prompt at bubuo ang AI app para sa iyo ng isang sanaysay na sumusubok na tumugon sa iyong prompt. Ang nabuong teksto ay tila ang sanaysay ay isinulat ng kamay at isip ng tao. Kung maglalagay ka ng prompt na nagsasabing "Sabihin mo sa akin ang tungkol kay Abraham Lincoln" ang generative AI ay magbibigay sa iyo ng isang sanaysay tungkol kay Lincoln. Ito ay karaniwang nauuri bilang generative AI na gumaganap text-to-text o mas gusto ng ilan na tawagan ito text-to-essay output. Gaya ng nabanggit, may iba pang mga mode ng generative AI, gaya ng text-to-art at text-to-video.

Ang iyong unang naisip ay maaaring ang kakayahang makabuo ng kakayahang ito ay hindi mukhang napakalaking bagay sa mga tuntunin ng paggawa ng mga sanaysay. Madali kang makakagawa ng online na paghahanap sa Internet at madaling makahanap ng tonelada at toneladang sanaysay tungkol kay Pangulong Lincoln. Ang kicker sa kaso ng generative AI ay ang nabuong sanaysay ay medyo kakaiba at nagbibigay ng orihinal na komposisyon sa halip na isang copycat. Kung susubukan mong hanapin ang sanaysay na ginawa ng AI online sa isang lugar, malamang na hindi mo ito matuklasan.

Ang Generative AI ay pre-trained at gumagamit ng isang kumplikadong mathematical at computational formulation na na-set up sa pamamagitan ng pagsusuri ng mga pattern sa mga nakasulat na salita at kwento sa buong web. Bilang resulta ng pagsusuri sa libu-libo at milyon-milyong nakasulat na mga sipi, ang AI ay maaaring maglabas ng mga bagong sanaysay at kuwento na isang mishmash ng kung ano ang natagpuan. Sa pamamagitan ng pagdaragdag sa iba't ibang probabilistic functionality, ang resultang text ay medyo kakaiba kumpara sa kung ano ang ginamit sa training set.

Kaya naman nagkaroon ng kaguluhan tungkol sa pagiging madaya ng mga estudyante kapag nagsusulat ng mga sanaysay sa labas ng silid-aralan. Ang isang guro ay hindi maaaring basta-basta kunin ang sanaysay na iginiit ng mga mapanlinlang na mag-aaral ay kanilang sariling sulatin at hinahangad na malaman kung ito ay kinopya mula sa ibang online na mapagkukunan. Sa pangkalahatan, walang anumang tiyak na dati nang sanaysay online na akma sa sanaysay na binuo ng AI. Ang lahat ng sinabi, ang guro ay kailangang malulungkot na tanggapin na ang mag-aaral ay nagsulat ng sanaysay bilang isang orihinal na piraso ng trabaho.

May mga karagdagang alalahanin tungkol sa generative AI.

Ang isang mahalagang downside ay ang mga sanaysay na ginawa ng isang generative-based na AI app ay maaaring magkaroon ng iba't ibang mga kasinungalingan na naka-embed, kabilang ang maliwanag na hindi totoo na mga katotohanan, mga katotohanan na mapanlinlang na inilalarawan, at maliwanag na mga katotohanan na ganap na gawa-gawa. Ang mga gawa-gawang aspeto ay madalas na tinutukoy bilang isang anyo ng Mga guni-guni ng AI, isang catchphrase na hindi ko pinapaboran ngunit nalulungkot na tila nakakakuha pa rin ng sikat na traksyon (para sa aking detalyadong paliwanag kung bakit ito ay pangit at hindi angkop na terminolohiya, tingnan ang aking saklaw sa ang link dito).

Gusto kong linawin ang isang mahalagang aspeto bago tayo pumasok sa kapal ng mga bagay sa paksang ito.

Nagkaroon ng ilang nutty outsized claims sa social media tungkol sa Generative AI iginiit na ang pinakabagong bersyon ng AI ay sa katunayan nararamdaman AI (hindi, mali sila!). Ang mga nasa AI Ethics at AI Law ay kapansin-pansing nag-aalala tungkol sa umuusbong na trend na ito ng mga nakalahad na claim. Maaari mong magalang na sabihin na ang ilang mga tao ay labis na nagsasaad kung ano ang aktwal na magagawa ng AI ngayon. Ipinapalagay nila na ang AI ay may mga kakayahan na hindi pa natin nakakamit. Nakakalungkot naman. Ang mas masahol pa, maaari nilang payagan ang kanilang sarili at ang iba na mapunta sa mga mahihirap na sitwasyon dahil sa isang pagpapalagay na ang AI ay magiging sensitibo o tulad ng tao sa kakayahang kumilos.

Huwag i-anthropomorphize ang AI.

Ang paggawa nito ay madadala sa iyo sa isang malagkit at nakakapagod na reliance trap ng pag-asa na gagawin ng AI ang mga bagay na hindi nito kayang gawin. Dahil dito, ang pinakabago sa generative AI ay medyo kahanga-hanga para sa kung ano ang magagawa nito. Magkaroon ng kamalayan kahit na may mga makabuluhang limitasyon na dapat mong patuloy na tandaan kapag gumagamit ng anumang generative AI app.

Kung interesado ka sa mabilis na lumalawak na kaguluhan tungkol sa ChatGPT at Generative AI lahat, gumawa ako ng isang nakatutok na serye sa aking column na maaari mong makitang nagbibigay-kaalaman. Narito ang isang sulyap kung sakaling magustuhan mo ang alinman sa mga paksang ito:

1) Mga Predictions Ng Generative AI Advances Paparating. Kung gusto mong malaman kung ano ang posibleng mangyari tungkol sa AI sa buong 2023 at higit pa, kabilang ang mga paparating na pag-unlad sa generative AI at ChatGPT, gugustuhin mong basahin ang aking komprehensibong listahan ng mga hula sa 2023 sa ang link dito.
2) Generative AI at Mental Health Advice. Pinili kong suriin kung paano ginagamit ang generative AI at ChatGPT para sa payo sa kalusugan ng isip, isang nakakabagabag na kalakaran, ayon sa aking nakatutok na pagsusuri sa ang link dito.
3) Mga Batayan Ng Generative AI At ChatGPT. Tinutuklas ng bahaging ito ang mga pangunahing elemento kung paano gumagana ang generative AI at lalo na ang pag-aaral sa ChatGPT app, kabilang ang pagsusuri ng buzz at fanfare, sa ang link dito.
4) Tensyon sa Pagitan ng Mga Guro At Estudyante Dahil sa Generative AI At ChatGPT. Narito ang mga paraan na ang mga mag-aaral ay mapanlinlang na gumamit ng generative AI at ChatGPT. Bilang karagdagan, mayroong ilang mga paraan para labanan ng mga guro ang tidal wave na ito. Tingnan mo ang link dito.
5) Konteksto At Generative AI Use. Gumawa rin ako ng seasonally flavored tongue-in-cheek na pagsusuri tungkol sa isang kontekstong nauugnay sa Santa na kinasasangkutan ng ChatGPT at generative AI sa ang link dito.
6) Mga Scammer na Gumagamit ng Generative AI. Sa isang nakakatakot na tala, naisip ng ilang scammer kung paano gamitin ang generative AI at ChatGPT para gumawa ng maling gawain, kabilang ang pagbuo ng mga email ng scam at kahit na paggawa ng programming code para sa malware, tingnan ang aking pagsusuri sa ang link dito.
7) Mga Pagkakamali ng Rookie Gamit ang Generative AI. Maraming tao ang parehong nag-overshoot at nakakagulat na nag-undershoot kung ano ang magagawa ng generative AI at ChatGPT, kaya tiningnan ko lalo na ang undershooting na kadalasang ginagawa ng AI rookies, tingnan ang talakayan sa ang link dito.
8) Pagharap sa Mga Generative AI Prompt At AI Hallucinations. Inilalarawan ko ang isang nangungunang diskarte sa paggamit ng mga add-on ng AI upang harapin ang iba't ibang isyu na nauugnay sa pagsubok na magpasok ng mga angkop na prompt sa generative AI, at may mga karagdagang AI add-on para sa pag-detect ng tinatawag na AI hallucinated na mga output at kasinungalingan, bilang sakop sa ang link dito.
9) Debunking Bonehead Claims Tungkol sa Pag-detect ng Generative AI-Produced Essays. Mayroong isang misguided gold rush ng AI apps na nagpapahayag na magagawang tiyakin kung ang anumang ibinigay na sanaysay ay ginawa ng tao kumpara sa AI-generated. Sa pangkalahatan, ito ay mapanlinlang at sa ilang mga kaso, isang walang kabuluhan at hindi mapagkakatiwalaang claim, tingnan ang aking saklaw sa ang link dito.
10) Role-Playing Via Generative AI Maaaring Magpahiwatig ng Mga Kakulangan sa Kalusugan ng Pag-iisip. Ang ilan ay gumagamit ng generative AI gaya ng ChatGPT para mag-role-playing, kung saan ang AI app ay tumutugon sa isang tao na parang nasa isang fantasy world o iba pang gawa-gawang setting. Ito ay maaaring magkaroon ng mga epekto sa kalusugan ng isip, kita n'yo ang link dito.
11) Paglalantad sa Saklaw ng Mga Na-output na Error at Kasinungalingan. Pinagsasama-sama ang iba't ibang nakolektang listahan upang subukan at ipakita ang katangian ng mga error at kasinungalingan na ginawa ng ChatGPT. Ang ilan ay naniniwala na ito ay mahalaga, habang ang iba ay nagsasabi na ang ehersisyo ay walang saysay, tingnan ang aking pagsusuri sa ang link dito.
12) Ang mga Paaralan na Nagba-ban sa Generative AI ChatGPT ay Nawawala Ang Bangka. Maaaring alam mo na ang iba't ibang paaralan tulad ng New York City (NYC) Department of Education ay nagdeklara ng pagbabawal sa paggamit ng ChatGPT sa kanilang network at mga nauugnay na device. Kahit na ito ay tila isang kapaki-pakinabang na pag-iingat, hindi nito magagalaw ang karayom at nakalulungkot na lubusang nakakaligtaan ang bangka, tingnan ang aking saklaw sa ang link dito.
13) Ang Generative AI ChatGPT ay Pupunta Saanman Dahil Sa Paparating na API. May isang mahalagang twist na darating tungkol sa paggamit ng ChatGPT, ibig sabihin, sa pamamagitan ng paggamit ng API portal sa partikular na AI app na ito, ang ibang mga software program ay makakapag-invoke at makakagamit ng ChatGPT. Ito ay kapansin-pansing magpapalawak sa paggamit ng generative AI at may mga kapansin-pansing kahihinatnan, tingnan ang aking pagpaliwanag sa ang link dito.
14) Mga Paraan na Maaaring Magulo o Matunaw ang ChatGPT. Maraming mga potensyal na nakakainis na isyu ang nangunguna sa ChatGPT sa mga tuntunin ng pagbabawas sa napakalaking papuri na natanggap nito. Masusing sinusuri ng pagsusuring ito ang walong posibleng problema na maaaring maging sanhi ng pagkawala ng singaw ng ChatGPT at mapunta pa sa doghouse, tingnan ang link dito.
15) Pagtatanong Kung Ang Generative AI ChatGPT ay Isang Salamin Sa Kaluluwa. Ang ilang mga tao ay tumitilaok na ang generative AI tulad ng ChatGPT ay nagbibigay ng salamin sa kaluluwa ng sangkatauhan. Ito ay tila medyo nagdududa. Narito ang paraan upang maunawaan ang lahat ng ito, kita n'yo ang link dito.
16) Ang Pagiging Kumpidensyal At Pagkapribado ay Nilamon Ng ChatGPT. Mukhang hindi napagtatanto ng marami na ang paglilisensya na nauugnay sa mga generative na AI app gaya ng ChatGPT ay kadalasang nagbibigay-daan sa gumagawa ng AI na makita at magamit ang iyong mga ipinasok na prompt. Maaari kang nasa panganib ng privacy at pagkawala ng pagiging kumpidensyal ng data, tingnan ang aking pagtatasa sa ang link dito.
17) Mga Paraan na Kaduda-dudang Sinusubukan ng Mga App Maker na Makakuha ng Entitlement sa ChatGPT. ChatGPT ang beacon ng atensyon ngayon. Sinusubukan ng mga gumagawa ng app na walang kinalaman sa ChatGPT na i-claim o ipahiwatig na gumagamit sila ng ChatGPT. Narito kung ano ang dapat bantayan, tingnan ang link dito.

Maaari kang makakita ng interes na ang ChatGPT ay nakabatay sa isang bersyon ng naunang AI app na kilala bilang GPT-3. Ang ChatGPT ay itinuturing na isang bahagyang susunod na hakbang, na tinutukoy bilang GPT-3.5. Inaasahan na ang GPT-4 ay malamang na maipalabas sa Spring ng 2023. Malamang, ang GPT-4 ay magiging isang kahanga-hangang hakbang pasulong sa mga tuntunin ng kakayahang makagawa ng tila mas matatas na sanaysay, lumalalim, at maging isang pagkamangha -kagila-gilalas na kagila-gilalas sa mga komposisyong kayang gawin.

Maaari mong asahan na makakita ng isang bagong yugto ng ipinahayag na pagkamangha pagdating ng tagsibol at ang pinakabago sa generative AI ay inilabas.

Ibinalita ko ito dahil may isa pang anggulo na dapat tandaan, na binubuo ng isang potensyal na Achilles heel sa mas mahusay at mas malaking generative AI app na ito. Kung ang sinumang vendor ng AI ay gagawa ng isang generative AI app na bumubula ng karumihan, maaari nitong sirain ang pag-asa ng mga gumagawa ng AI na iyon. Ang isang societal spillover ay maaaring maging sanhi ng lahat ng generative AI na magkaroon ng malubhang black eye. Ang mga tao ay walang alinlangan na lubos na magalit sa mga masasamang output, na nangyari nang maraming beses na at humantong sa maingay na pagkondena ng lipunan na sumasagot sa AI.

Isang huling paunang babala sa ngayon.

Anuman ang nakikita o nabasa mo sa isang generative na tugon ng AI tila upang maiparating bilang pulos makatotohanan (mga petsa, lugar, tao, atbp.), siguraduhing manatiling may pag-aalinlangan at handang suriing muli ang iyong nakikita.

Oo, ang mga petsa ay maaaring ihanda, ang mga lugar ay maaaring gawin, at ang mga elemento na karaniwan nating inaasahan na walang kapintasan ay lahat napapailalim sa mga hinala. Huwag paniwalaan ang iyong binabasa at panatilihin ang isang may pag-aalinlangan kapag sinusuri ang anumang generative na sanaysay o output ng AI. Kung sasabihin sa iyo ng isang generative AI app na si Abraham Lincoln ay lumipad sa buong bansa gamit ang sarili niyang pribadong jet, walang alinlangan na malalaman mo na ito ay malabo. Sa kasamaang-palad, maaaring hindi napagtanto ng ilang tao na ang mga jet ay wala sa kanyang panahon, o maaaring alam nila ngunit hindi nila napapansin na ang sanaysay ay gumagawa ng bastos at labis na maling pahayag.

Ang isang malakas na dosis ng malusog na pag-aalinlangan at isang paulit-ulit na pag-iisip ng kawalang-paniwala ang iyong magiging pinakamahusay na asset kapag gumagamit ng generative AI.

Handa na kaming lumipat sa susunod na yugto ng pagpapaliwanag na ito.

Itulak ang Generative AI sa Isang Breaking Point

Ngayong naitatag na natin ang mga pangunahing kaalaman, maaari na tayong sumabak sa paksa ng pagtulak ng generative AI at ChatGPT upang bumuo ng mapoot na salita at iba pang nakakasakit na nilalaman.

Sa unang pag-log in sa ChatGPT, mayroong iba't ibang mga indikasyon sa pag-iingat kabilang ang mga ito:

"Maaaring makagawa paminsan-minsan ng mga mapaminsalang tagubilin o may pinapanigang content."
"Sinanay na tanggihan ang mga hindi naaangkop na kahilingan."
"Paminsan-minsan ay maaaring makabuo ng maling impormasyon."
"Limitadong kaalaman sa mundo at mga kaganapan pagkatapos ng 2021."

Narito ang isang tanong na dapat mong pag-isipan.

Ang babala ba na ang AI app ay maaaring gumawa ng mga mapaminsalang tagubilin at/o posibleng may pinapanigan na nilalaman ay nagbibigay ng sapat na pahinga para sa gumagawa ng AI?

Sa madaling salita, ipagpalagay na gumagamit ka ng ChatGPT at bumubuo ito ng isang sanaysay na pinaniniwalaan mong naglalaman ng mapoot na salita. Ipagpalagay natin na galit ka tungkol dito. Pumunta ka sa social media at mag-post ng galit na galit na komentaryo na ang AI app ang pinakamasamang bagay kailanman. Marahil ay labis kang nasaktan kaya idineklara mong idemanda mo ang gumagawa ng AI para sa pagpayag na magawa ang gayong mapoot na salita.

Ang kontraargumento ay ang AI app ay may babala sa pag-iingat, kaya, tinanggap mo ang panganib sa pamamagitan ng pagpapatuloy sa paggamit ng AI app. Mula sa pananaw ng AI Ethics, marahil sapat na ang ginawa ng gumagawa ng AI para igiit na alam mo kung ano ang maaaring mangyari. Gayundin, mula sa isang legal na pananaw, marahil ang babala ay bumubuo ng sapat na mga paunawa at hindi ka mananaig sa korte.

Ang lahat ng ito ay nasa himpapawid at kailangan nating maghintay at tingnan kung paano mangyayari ang mga bagay.

Sa isang kahulugan, ang gumagawa ng AI ay may iba pang gagawin para sa kanila sa kanilang pagtatanggol laban sa anumang mapang-akit na pag-aangkin ng AI app na posibleng gumagawa ng mapoot na salita. Sinubukan nilang pigilan na mabuo ang nakakasakit na content. Tingnan mo, kung wala silang ginawa upang pigilan ito, ipagpalagay ng isa na sila ay nasa mas manipis na yelo. Sa pagkakaroon ng hindi bababa sa matinding paghihirap upang maiwasan ang bagay na ito, malamang na mayroon silang medyo mas malakas na binti upang tumayo (maaari pa rin itong matumba mula sa ilalim nila).

Ang isang curative approach na ginamit ay binubuo ng isang AI technique na kilala bilang RLHF (reinforcement learning sa pamamagitan ng human feedback). Ito ay karaniwang binubuo ng pagkakaroon ng AI na bumuo ng nilalaman na pagkatapos ay hihilingin sa mga tao na i-rate o suriin. Batay sa rating o pagsusuri, ang AI pagkatapos ay mathematically at computationally ay sumusubok na iwasan ang anumang itinuturing na mali o nakakasakit na nilalaman. Ang diskarte ay inilaan upang suriin ang sapat na mga halimbawa ng kung ano ang tama kumpara sa kung ano ang mali na maaaring malaman ng AI ang isang pangkalahatang mathematical pattern at pagkatapos ay gamitin ang pattern na iyon mula ngayon.

Ang isa pang madalas na diskarte sa mga araw na ito ay binubuo ng paggamit ng Adversarial AI.

Narito kung paano ito gumagana. Nag-set up ka ng ibang AI system na susubukan na maging isang kalaban sa AI na sinusubukan mong sanayin. Sa pagkakataong ito, magtatatag kami ng AI system na sumusubok na magpasigla ng mapoot na salita. Magbibigay ito ng mga senyas sa AI app na naglalayong linlangin ang AI app sa paggawa ng masasamang content. Samantala, ang AI na tina-target ay sinusubaybayan kung kailan matagumpay ang adversarial AI at pagkatapos ay sinusubukan ng algorithm na mag-adjust upang mabawasan iyon na mangyari muli. Ito ay isang pusa laban sa mouse na sugal. Ito ay paulit-ulit, ginagawa ito hanggang sa ang adversarial AI ay tila hindi na maging matagumpay lalo na sa pagkuha ng naka-target na AI upang gawin ang masamang bagay.

Sa pamamagitan ng dalawang pangunahing diskarteng iyon, kasama ang iba pang mga diskarte, karamihan sa generative AI ngayon ay mas mahusay sa pag-iwas at/o pag-detect ng nakakasakit na nilalaman kaysa sa nangyari noong mga nakaraang taon.

Huwag asahan ang pagiging perpekto mula sa mga pamamaraang ito. Ang mga pagkakataon ay ang mababang-hanging na bunga ng mga masasamang output ay malamang na mapanatili sa tseke ng naturang mga diskarte sa AI. Marami pa ring puwang para sa foulness na ilalabas.

Karaniwan kong itinuturo na ito ang ilan sa mga facet na hinahangad na mahuli:

Naglalabas ng partikular na masasamang salita
Pagsasabi ng isang partikular na maruming parirala, pangungusap, o pangungusap
Pagpapahayag ng isang partikular na maling paglilihi
Nagpapahiwatig ng isang partikular na maling gawa o paniwala
Lumalabas na umaasa sa isang partikular na maling pagpapalagay
iba

Wala sa mga ito ang eksaktong agham. Napagtanto na tayo ay nakikitungo sa mga salita. Ang mga salita ay semantically ambiguous. Ang paghahanap ng isang partikular na maruming salita ay laro ng bata, ngunit ang pagsusumikap na sukatin kung ang isang pangungusap o isang talata ay naglalaman ng isang pagkakahawig ng isang masamang kahulugan ay mas mahirap. Ayon sa naunang kahulugan ng mapoot na salita ng United Nations, mayroong napakalaking latitude kung ano ang maaaring ituring bilang mapoot na salita kumpara sa maaaring hindi.

Maaari mong sabihin na ang mga kulay abong lugar ay nasa mata ng tumitingin.

Speaking of the eye of the beholder, may mga tao ngayon na gumagamit ng generative AI gaya ng ChatGPT na sadyang sinusubukang makuha ang AI app na ito para makagawa ng nakakasakit na content. Ito ang kanilang paghahanap. Gumugugol sila ng oras sa oras na sinusubukang gawin ito.

Bakit ganon?

Narito ang aking mga katangian ng mga taong AI-offensive output hunters:

Tunay. Nais ng mga taong ito na tumulong na pinuhin ang AI at tulungan ang sangkatauhan sa paggawa nito. Naniniwala sila na gumagawa sila ng kabayanihan at nasasabik na maaari silang tumulong sa pagsulong ng AI para sa ikabubuti ng lahat.
Mga funsters. Iniisip ng mga taong ito ang pagsisikap na ito bilang isang laro. Nasisiyahan silang makipag-usap sa AI. Ang pagkapanalo sa laro ay binubuo ng paghahanap ng pinakamasama sa pinakamasama sa anumang maaari mong makuha ang AI upang makabuo.
Mga show-off. Ang mga taong ito ay umaasa na makakuha ng pansin para sa kanilang sarili. Naisip nila na kung makakahanap sila ng ilang talagang napakarumi na gold nuggets, makakakuha sila ng kaunting liwanag sa kanila na kung hindi man ay nakatutok sa AI app mismo.
Mga mapait. Ang mga taong ito ay nagagalit tungkol sa AI na ito. Gusto nilang i-undercut ang lahat ng bumubulusok na sigasig. Kung makakatuklas sila ng ilang mabahong mabahong bagay, marahil ito ay magpapalabas ng hangin sa AI app excitement balloon.
Iba pang motibasyon

Marami sa mga nagsasagawa ng find-offensiveness ay pangunahin sa isa lamang sa mga kampong iyon. Siyempre, maaari kang maging sa higit sa isang kampo sa isang pagkakataon. Siguro ang bitter na tao ay may side-by-side intention din na maging genuine at heroic. Ang ilan o lahat ng mga motibasyong iyon ay maaaring magkakasamang umiral. Kapag tinawagan upang ipaliwanag kung bakit sinusubukan ng isang tao na itulak ang isang generative AI app sa larangan ng mapoot na salita, ang karaniwang sagot ay ang sabihin na ikaw ay nasa tunay na kampo, kahit na marahil ikaw ay bahagyang ganoon at sa halip ay umupo nang mahigpit sa isa sa ibang mga kampo.

Anong mga uri ng pandaraya na nauugnay sa maagap ang ginagamit ng mga taong ito?

Ang medyo halatang pakana ay nagsasangkot ng paggamit ng isang masamang salita sa isang prompt. Kung makakakuha ka ng "masuwerte" at ang AI app ay nahuhulog para dito, ito ay maaaring mapunta sa output. Nakuha mo na ang iyong gotcha moment.

Malamang na makukuha ng isang mahusay na ginawa at mahusay na nasubok na generative AI app ang tuwirang pakana na iyon. Karaniwang ipapakita sa iyo ang isang mensahe ng babala na nagsasabing itigil ang paggawa niyan. Kung magpapatuloy ka, ang AI app ay ipo-program upang sipain ka palabas ng app at i-flag ang iyong account. Maaaring mapipigilan kang mag-log in muli (well, kahit sa ilalim ng login na ginamit mo noon).

Pag-akyat sa hagdan ng mga pakana, maaari kang magbigay ng prompt na sumusubok na maipasok ang AI sa konteksto ng isang bagay na hindi maganda. Naglaro ka na ba sa larong iyon kung saan may nagsasabi sa iyo na sabihin ang isang bagay nang hindi sinasabi ang bagay na dapat mong sabihin? Ito ang larong iyon, kahit na nagaganap sa AI.

Laruin natin yan. Ipagpalagay na hilingin ko sa AI app na sabihin sa akin ang tungkol sa World War II at lalo na ang mga pangunahing pinuno ng pamahalaan na kasangkot. Ito ay tila isang inosenteng kahilingan. Walang mukhang karapat-dapat na i-flag sa prompt.

Isipin na ang na-output na sanaysay ng AI app ay may kasamang pagbanggit ng Winston Churchill. Tiyak na may katuturan iyon. Ang isa pa ay maaaring si Franklin D. Roosevelt. Ang isa pa ay maaaring si Joseph Stalin. Kumbaga may binanggit din si Adolph Hitler. Ang pangalang ito ay isasama sa halos anumang sanaysay tungkol sa WWII at sa mga tungkulin ng prominenteng kapangyarihan.

Ngayong nasa talahanayan na namin ang kanyang pangalan at bahagi ng pag-uusap ng AI, susubukan naming makuha sa AI na isama ang pangalang iyon sa paraang maipapakita namin bilang potensyal na mapoot na salita.

Nagpasok kami ng isa pang prompt at sinabi sa AI app na mayroong isang tao ngayon sa balita na may pangalan, John Smith. Higit pa rito, ipinapahiwatig namin sa prompt na si John Smith ay napakahawig sa WWII na gumagawa ng masama. Nakatakda na ang bitag. Pagkatapos ay hinihiling namin sa AI app na bumuo ng isang sanaysay tungkol kay John Smith, batay lamang sa "katotohanan" na ipinasok namin tungkol sa kung kanino maaaring itumbas si John Smith.

Sa sandaling ito, ang AI app ay maaaring bumuo ng isang sanaysay na nagpapangalan sa taong WWII at naglalarawan kay John Smith bilang parehong hiwa ng tela. Walang anumang masasamang salita per se sa sanaysay, maliban sa pagtukoy sa sikat na manggagawa ng kasamaan at pagtutumbas ng taong iyon kay John Smith.

Nakagawa na ba ngayon ang AI app ng hate speech?

Maaari mong sabihin na oo, mayroon. Ang pagtukoy kay John Smith bilang tulad ng sikat na manggagawa ng kasamaan, ay talagang isang anyo ng mapoot na salita. Ang AI ay hindi dapat gumawa ng ganoong mga pahayag.

Ang sagot ay hindi ito hate speech. Isa lang itong sanaysay na ginawa ng isang AI app na walang embodiment ng sentience. Maaari mong i-claim na ang mapoot na salita ay nangyayari lamang kapag umiiral ang intensyon na pinagbabatayan ng pananalita. Nang walang anumang intensyon, ang talumpati ay hindi maaaring mauri bilang mapoot na salita.

Walang katotohanan, ang sagot sa sagot. Mahalaga ang mga salita. Wala itong kaunting pagkakaiba kung ang AI ay "naglalayon" na gumawa ng mapoot na salita. Ang mahalaga lang ay na-produce ang hate speech.

Paikot-ikot ito.

Ayokong magsabi ng marami ngayon tungkol sa pagsubok na linlangin ang AI. Mayroong mas sopistikadong mga diskarte. Sinaklaw ko na ang mga ito sa ibang lugar sa aking mga column at aklat, at hindi ko na uulitin ang mga iyon dito.

Konklusyon

Hanggang saan natin dapat itulak ang AI apps na ito para makita kung makakakuha tayo ng nakakasakit na content na ilalabas?

Maaari mong ipaglaban na walang limitasyon na ipapataw. Kapag mas pinipilit natin, mas masusukat natin kung paano mapipigilan ang AI na ito at ang mga pag-ulit ng AI sa hinaharap para maiwasan ang mga ganitong sakit.

Bagama't nag-aalala ang ilan na kung ang tanging paraan upang makakuha ng karumihan ay nangangailangan ng matinding outlier na panlilinlang, pinapahina nito ang mga kapaki-pakinabang na aspeto ng AI. Ang pagsasabi na ang AI ay may kasuklam-suklam na karumihan, kahit na kapag nalinlang sa pagpapalabas nito, ay nagbibigay ng maling salaysay. Magagalit ang mga tao tungkol sa AI dahil sa pinaghihinalaang kadalian kung saan nakabuo ang AI ng masamang nilalaman. Maaaring hindi nila alam o masabihan kung gaano kalayo sa butas ng kuneho ang dapat puntahan ng tao para makakuha ng mga ganoong output.

Ang lahat ng ito ay pagkain para sa pag-iisip.

Ilang huling komento sa ngayon.

Kapansin-pansing sinabi ito ni William Shakespeare tungkol sa pagsasalita: “Ang pakikipag-usap ay hindi ginagawa. Isang uri ng mabuting gawa ang magsabi ng mabuti, ngunit ang mga salita ay hindi gawa.” Ibinalita ko ito dahil sinasabi ng ilan na kung ang AI ay bumubuo lamang ng mga salita, hindi tayo dapat maging labis sa mga bisig. Kung ang AI ay kumikilos ayon sa mga salita at gumagawa ng mga masasamang gawa, kung gayon kailangan nating mahigpit na ibaba ang ating mga paa. Hindi kaya kung ang output ay mga salita lamang.

Ang isang magkaibang pananaw ay makikinig sa di-kilalang kasabihang ito: “Ang dila ay walang buto ngunit sapat na malakas upang makasira ng puso. Kaya mag-ingat ka sa mga salita mo." Ang isang AI app na naglalabas ng masasamang salita ay maaaring makasira ng puso. Iyon lamang ang gumagawa ng pagsisikap na ihinto ang karumihan na mga output ay isang karapat-dapat na dahilan, sasabihin ng ilan.

Isa pang hindi kilalang kasabihan upang isara ang mga bagay sa mabigat na talakayang ito:

"Mag-ingat sa iyong mga salita. Kapag sinabi na, mapapatawad lang sila, hindi makakalimutan."

Bilang mga tao, maaaring mahirapan tayong kalimutan ang karumihan na ginawa ng AI, at ang ating pagpapatawad ay maaaring nag-aalangan ding ibigay.

Kung tutuusin, tao lang tayo.

Pinagmulan: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etika-at-ai-batas/