Dè a th’ ann an LLM agus ciamar a tha e co-cheangailte ri AI Chatbots? Seo na tha fios agad

Nuair a dh’ iarras tu air chatbot AI mar ChatGPT, Claude, Copilot no Gemini rudeigin a dhèanamh, is dòcha gu bheil e coltach gu bheil thu ag eadar-obrachadh le neach. Faodaidh iad freagairt a thoirt dhut – nota post-d, aiste, geàrr-chunntas air iarrtas rannsachaidh – a tha soilleir, gràmair agus dearbhach.

Ach chan eil thu a ‘dèiligeadh ri duine. Chan eil na chatbots sin gu dearbh a’ tuigsinn brìgh fhaclan mar a nì sinn. An àite sin, is iad sin an eadar-aghaidh a bhios sinn a’ cleachdadh airson eadar-obrachadh le modalan cànain mòra, neo LLMn. Tha na teicneòlasan bunaiteach sin air an trèanadh gus aithneachadh mar a tha faclan air an cleachdadh agus dè na faclan a bhios tric a’ nochdadh còmhla, gus an urrainn dhaibh faclan, seantansan no paragrafan san àm ri teachd ro-innse.

Tha luchd-dèanaidh innealan AI ginealach an-còmhnaidh ag ùrachadh tuigse an LLM air faclan gus ro-innse nas fheàrr a dhèanamh. Tha e uile mar phàirt de shruth leantainneach de aon-upmanship a thòisich le toirt a-steach OpenAI de ChatGPT aig deireadh 2022, air a leantainn gu sgiobalta tràth ann an 2023 nuair a thàinig rannsachadh Bing leasaichte le AI aig Microsoft agus Bàrd Google (a-nis Gemini).

Tha sinn a-nis grunn ghinealaichean ann an mean-fhàs LLMn. Thug OpenAI a-steach GPT-4o sa Chèitean, GPT-4o Mini san Iuchar agus OpenAI o1 san t-Sultain. Tha atharrachaidhean aig Google a’ toirt a-steach Gemini 1.5 Pro agus 1.5 Flash. Tha Meta a-nis aig Llama 3, fhad ‘s a tha Anthropic suas ri Claude 3.5.

Ma tha thu a’ faighneachd dè a th’ aig LLMn ri dhèanamh le AI, tha am mìneachadh seo dhutsa.

Dè a th’ ann am modail cànain?

Faodaidh tu smaoineachadh air modail cànain mar neach-fiosachaidh airson faclan.

“Is e modal cànain rudeigin a dh’ fheuchas ri ro-innse cò ris a bhios cànan a’ toirt a-mach,” thuirt Mark Riedl, àrd-ollamh ann an Sgoil Coimpiutaireachd Eadar-ghnìomhach Georgia Tech agus stiùiriche co-cheangailte air Ionad Ionnsachaidh Inneal Georgia Tech. “Is e an rud a tha a ‘dèanamh rudeigin mar mhodail cànain an urrainn dha faclan san àm ri teachd a ro-innse le faclan a bh’ ann roimhe.”

Tha seo mar bhunait air gnìomhachd fèin-choileanta nuair a tha thu a’ teacsadh, a bharrachd air AI chatbots.

Dè a th’ ann am modail cànain mòr?

Ann am modail cànain mòr tha tòrr fhaclan, bho raon farsaing de stòran. Tha na modailean sin air an tomhas anns an rud ris an canar “parameters.”

Dè th’ ann am paramadair?

Uill, bidh LLMn a’ cleachdadh lìonraidhean neural, a tha nam modalan ionnsachaidh inneal a bhios a’ gabhail a-steach agus a’ dèanamh àireamhachadh matamataigeach gus toradh a thoirt gu buil. Tha an àireamh de chaochladairean anns na h-àireamhaidhean sin nam paramadairean. Faodaidh 1 billean paramadair no barrachd a bhith aig modal cànain mòr.

“Tha fios againn gu bheil iad mòr nuair a bheir iad a-mach làn pharagraf de theacsa siùbhlach ciallach,” thuirt Riedl.

A bheil leithid de rud ann ri modail cànain bheag?

Tha. Tha companaidhean teignigeach mar Microsoft a’ sgaoileadh mhodalan nas lugha a tha air an dealbhadh gus obrachadh “air inneal” agus gun a bhith feumach air na h-aon ghoireasan coimpiutaireachd ri LLM ach a dh’ aindeoin sin a’ cuideachadh luchd-cleachdaidh a bhith a’ faighinn a-steach do chumhachd AI ginealach.

Dè a tha fo chochall modail cànain mòr?

Nuair a tha Anthropic mapadh an “inntinn” den mhodail cànain mòr Claude 3.0 Sonnet aige, lorg e gu bheil gach stàit a-staigh (“dè a tha am modail ‘a’ smaoineachadh ‘mus sgrìobh e a fhreagairt”) air a dhèanamh le bhith a’ cothlamadh feartan, no pàtrain gnìomhachd neuron. (Tha na neurons fuadain ann an lìonraidhean neural coltach ri giùlan nan neurons nar brains.)

Le bhith a’ toirt a-mach na gnìomhachdan neuron sin bho Claude 3.0 Sonnet, bha e comasach dha Anthropic mapa de na stàitean a-staigh aige fhaicinn mar a bhios e a’ gineadh fhreagairtean. Lorg an tòiseachaidh AI gu robh pàtrain gnìomhachd neuron ag amas air bailtean-mòra, daoine, eileamaidean atamach, raointean saidheansail agus co-chòrdadh prògramadh, a bharrachd air bun-bheachdan nas eas-chruthach leithid biastagan ann an còd coimpiutair, claonadh gnè aig an obair agus còmhraidhean mu bhith a’ cumail dìomhaireachdan.

Aig a’ cheann thall, thuirt Anthropic, “tha eagrachadh bun-bheachdan taobh a-staigh a’ mhodail AI a ’freagairt, co-dhiù beagan, ris na beachdan daonna againn mu choltas.”

Ciamar a bhios modalan cànain mòra ag ionnsachadh?

Bidh LLMn ag ionnsachadh tro phròiseas bunaiteach AI ris an canar ionnsachadh domhainn.

“Tha e gu math coltach ri nuair a bhios tu a’ teagasg leanabh – bidh thu a’ nochdadh tòrr eisimpleirean, ”thuirt Jason Alan Snyder, CTO cruinneil de bhuidheann sanasachd Momentum Worldwide.

Ann am faclan eile, bidh thu a’ biathadh leabharlann de shusbaint don LLM (ris an canar dàta trèanaidh) leithid leabhraichean, artaigilean, còd agus puist meadhanan sòisealta gus a chuideachadh le bhith a’ tuigsinn mar a thathas a’ cleachdadh fhaclan ann an co-theacsan eadar-dhealaichte, agus eadhon na nuances cànain nas seòlta. . Bidh am modail seo a’ cnàmh tòrr a bharrachd na b’ urrainn do dhuine a-riamh a leughadh nam beatha – rudeigin a rèir òrdugh trilleanan de chomharran.

Bidh comharran a’ cuideachadh mhodalan AI a bhith a’ briseadh sìos agus a’ làimhseachadh teacsa. Faodaidh tu smaoineachadh air modal AI mar leughadair a dh’ fheumas cuideachadh. Bidh am modail a’ briseadh sìos seantans ann am pìosan nas lugha, no comharran — a tha co-ionann ri ceithir caractaran sa Bheurla, no timcheall air trì cairteal de dh’fhacal — gus an tuig iad gach pìos agus an uairsin an ciall iomlan.

Às an sin, faodaidh an LLM sgrùdadh a dhèanamh air mar a tha faclan a’ ceangal agus co-dhùnadh dè na faclan a bhios tric a’ nochdadh còmhla.

“Tha e coltach ri bhith a’ togail am mapa mòr seo de dhàimhean fhaclan, ”thuirt Snyder. “Agus an uairsin bidh e a’ tòiseachadh a bhith comasach air an rud fìor spòrsail, fionnar seo a dhèanamh, agus bidh e a ’dèanamh ro-innse dè an ath fhacal a th’ ann …

Bidh an ro-aithris agus an atharrachadh seo a’ tachairt billeanan de thursan, agus mar sin tha an LLM an-còmhnaidh ag ùrachadh a thuigse air cànan agus a’ fàs nas fheàrr air pàtrain aithneachadh agus ro-innse faclan san àm ri teachd. Faodaidh e eadhon bun-bheachdan agus fìrinnean ionnsachadh bhon dàta gus ceistean a fhreagairt, cruthan teacsa cruthachail a ghineadh agus cànanan eadar-theangachadh. Ach chan eil iad a ‘tuigsinn brìgh fhaclan mar a tha sinn a’ dèanamh – chan eil fios aca ach na dàimhean staitistigeil.

Bidh LLMn cuideachd ag ionnsachadh na freagairtean aca a leasachadh tro ionnsachadh ath-neartachaidh bho fhios air ais bho dhaoine.

“Gheibh thu breithneachadh no roghainn bho dhaoine air dè am freagairt a b’ fheàrr leis na beachdan a chaidh a thoirt seachad, ”thuirt Maarten Sap, àrd-ollamh cuideachaidh aig Institiud Teicneòlasan Cànain aig Oilthigh Charnegie Mellon. “Agus an uairsin faodaidh tu am modail a theagasg gus na freagairtean aige a leasachadh.”

Dè bhios modalan cànain mòra a’ dèanamh?

Le sreath de dh’fhaclan cuir a-steach, bidh LLM a’ ro-innse an ath fhacal ann an sreath.

Mar eisimpleir, smaoinich air an abairt, “Chaidh mi a sheòladh air an gorm dhomhainn …”

Is dòcha gum biodh a’ mhòr-chuid a’ tomhas “muir” oir tha seòladh, domhainn is gorm uile nam faclan a tha sinn a’ ceangal ris a’ mhuir. Ann am faclan eile, bidh gach facal a ‘suidheachadh co-theacsa airson na bu chòir a thighinn air adhart.

“Tha na modalan cànain mòra sin, leis gu bheil tòrr pharamadairean aca, is urrainn dhaibh tòrr phàtranan a stòradh,” thuirt Riedl. “Tha iad glè mhath air a bhith comasach air na sanasan sin a thaghadh agus tuairmsean fìor mhath a dhèanamh air na tha ri thighinn.”

Dè bhios modalan cànain mòra a’ dèanamh fìor mhath?

Tha LLMn fìor mhath air faighinn a-mach a’ cheangail eadar faclan agus a’ dèanamh teacsa a tha nàdarrach.

“Bidh iad a’ gabhail a-steach, a dh’ fhaodadh a bhith gu tric mar sheata stiùiridh, leithid, ‘Dèan seo dhòmhsa’ no ‘Innis dhomh mu dheidhinn seo’ no ‘Geàrr-chunntas air seo’ agus is urrainn dhaibh na pàtrain sin a thoirt a-mach às an cuir a-steach agus toradh fada a thoirt gu buil. sreath de fhreagairt siùbhlach,” thuirt Riedl.

Càite a bheil modalan cànain mòra a’ strì?

Ach tha grunn laigsean aca.

An toiseach, chan eil iad math air an fhìrinn innse. Gu dearbh, bidh iad uaireannan dìreach a’ dèanamh stuth a tha fìor, mar nuair a ChatGPT ghairm sia cùisean cùirte meallta ann an aithghearr laghail, no ‘n uair a Bhard air a chreidsinn le mearachd Teileasgop fànais James Webb le bhith a’ togail a’ chiad dealbhan de phlanaid taobh a-muigh ar siostam grèine. Canar hallucinations riutha sin.

“Tha iad gu math neo-earbsach leis an fhaireachdainn gu bheil iad a’ connsachadh agus a ’dèanamh suas tòrr rudan,” thuirt Sap. “Chan eil iad air an trèanadh no air an dealbhadh ann an dòigh sam bith gus rud sam bith fìrinneach a spadadh a-mach.”

Bidh iad cuideachd a’ strì le ceistean a tha gu bunaiteach eadar-dhealaichte bho rud sam bith ris an do thachair iad roimhe. Tha sin air sgàth gu bheil iad ag amas air pàtrain a lorg agus a fhreagairt.

Is e deagh eisimpleir duilgheadas matamataigeach le seata àireamhan sònraichte.

“Is dòcha nach bi e comasach dha an àireamhachadh sin a dhèanamh ceart leis nach eil e dha-rìribh a’ fuasgladh matamataigs, ”thuirt Riedl. “Tha e a’ feuchainn ri do cheist matamataigs a cheangal ri eisimpleirean roimhe de cheistean matamataigeach a chunnaic i roimhe. ”

Agus ged a tha iad air leth math air ro-innse fhaclan, chan eil iad math air ro-innse mun àm ri teachd, a tha a’ toirt a-steach dealbhadh agus dèanamh cho-dhùnaidhean.

“Am beachd a bhith a’ dealbhadh mar a bhios daoine ga dhèanamh… a’ smaoineachadh air na diofar shuidheachaidhean is roghainnean eile agus a’ dèanamh roghainnean, tha e coltach gur e cnap-starra gu math cruaidh a tha seo dha na modalan cànain mòra a th’ againn an-dràsta,” thuirt Riedl.

Mu dheireadh, bidh iad a ‘strì ri tachartasan làithreach oir mar as trice chan eil an dàta trèanaidh aca a’ dol suas gu àm sònraichte agus chan eil rud sam bith a thachras às deidh sin mar phàirt den bhunait eòlais aca. Agus leis nach eil comas aca eadar-dhealachadh a dhèanamh eadar na tha fìrinneach agus na tha dualtach, faodaidh iad le misneachd fiosrachadh ceàrr a thoirt seachad mu thachartasan gnàthach.

Chan eil iad cuideachd ag eadar-obrachadh leis an t-saoghal mar a nì sinn.

“Tha seo ga dhèanamh duilich dhaibh tuigse fhaighinn air nuances agus iom-fhillteachd thachartasan gnàthach a dh’ fheumas gu tric tuigse fhaighinn air co-theacsa, daineamaigs sòisealta agus builean san t-saoghal fhìor, ”thuirt Snyder.

Ciamar a leasaicheas modalan cànain mòra?

Tha sinn mu thràth a’ faicinn companaidhean ginealachd AI mar OpenAI, Google agus modalan ioma-mhodach deasbaid Adobe, a tha air an trèanadh chan ann a-mhàin air teacsa ach cuideachd air ìomhaighean, bhidio agus claisneachd.

Agus tha sinn a’ faicinn comasan lorg a’ tighinn air adhart nas fhaide na na tha na modailean air an trèanadh air, a’ toirt a-steach ceangal le einnseanan sgrùdaidh mar Google gus an urrainn dha na modailean rannsachaidhean lìn a dhèanamh agus na toraidhean sin a bhiadhadh a-steach don LLM. Tha seo a’ ciallachadh gum b’ urrainn dhaibh ceistean a thuigsinn nas fheàrr agus freagairtean a thoirt seachad a tha nas àmaile.

“Cuidichidh seo leis na modalan ceangail againn a bhith gnàthach agus ùraichte oir is urrainn dhaibh coimhead air fiosrachadh ùr air an eadar-lìn agus sin a thoirt a-steach,” thuirt Riedl.

B’ e sin an t-amas, mar eisimpleir, le Bing le cumhachd AI. An àite a bhith a’ cleachdadh innealan rannsachaidh gus na freagairtean aige a neartachadh, choimhead Microsoft ri AI gus an einnsean sgrùdaidh aige fhèin a leasachadh, gu ìre le bhith a’ tuigsinn nas fheàrr an fhìor bhrìgh air cùl cheistean luchd-cleachdaidh agus a’ rangachadh nan toraidhean airson na ceistean sin nas fheàrr.

Ach tha glacaidhean ann. Dh’ fhaodadh sgrùdadh lìn hallucinations a dhèanamh nas miosa às aonais dòighean sgrùdaidh fiosrachaidh iomchaidh nan àite. Agus dh’fheumadh LLMn ionnsachadh mar a mheasadh iad earbsachd stòran lìn mus toir iad luaidh orra. Dh’ ionnsaich Google gur e an dòigh chruaidh leis a’ chiad turas mearachdach de na toraidhean rannsachaidh AI Overviews na bu thràithe am-bliadhna. Às deidh sin leasaich a’ chompanaidh sgrùdaidh na toraidhean AI Overviews aca gus geàrr-chunntasan meallta no a dh’ fhaodadh a bhith cunnartach a lughdachadh.

Aig an aon àm, tha modalan a’ toirt a-steach Lumiere Google agus Sora aig OpenAI eadhon ag ionnsachadh ìomhaighean, bhidio agus claisneachd a ghineadh. Tha Google agus Adobe air peeks a leigeil ma sgaoil air innealan as urrainn geamannan brìgheil agus ceòl a ghineadh, gus sealltainn do luchd-cleachdaidh far a bheil an teicneòlas air a stiùireadh.

Tha coltas ann cuideachd gum faic sinn leasachaidhean ann an comasan LLM chan ann a-mhàin eadar-theangachadh cànanan bhon Bheurla ach a bhith a’ tuigsinn agus a’ còmhradh ann an cànanan a bharrachd cuideachd.



Fuente