మీరు VLM ప్రాంప్ట్ రాస్తూంటే మోడల్ ఎలా చూస్తుందో కాకుండా మనిషిలా ఊహించడం వల్ల రిజల్ట్ తలక్రిందులుగా వస్తోంది చాలా మందికి ఇదో పెద్ద  సమస్యగా మారింది 

ఇమేజ్ గురించి ముందుగా డిస్క్రైబ్ చేయకుండా డైరెక్ట్ గా కాన్సెప్ట్ ఇచ్చేస్తే  మోడల్ కన్ఫ్యూజ్ ఆవుతుంది ఎందుకంటే అది పిక్సెల్స్ సీక్వెన్స్ లో అర్థం చేసుకుంటుంది  

మీరు రిజల్ట్ చెప్పి రీజన్ అడుగుతారు కానీ VLMలకు రీజన్ ముందు కాంటెక్స్ట్ తర్వాత రిజల్ట్ కావాలి అప్పుడే క్లియర్ అవుట్‌పుట్ వస్తుంది  

ఇమేజ్ లోని ముఖ్యమైన భాగాలను క్లియర్ గా చూపించకపోతే మోడల్ అనవసర వివరాలపై ఎక్కువగా ఫోకస్ చేసి రాంగ్ అవుట్ పుట్ ఇస్తుంది 

ముందు టాస్క్ ఇచ్చి తర్వాత డేటా ఇస్తే VLM కన్ఫ్యూజన్ అవుతుంది ఎందుకంటే అది డేటా ఆధారితంగా ఆలోచిస్తుంది అందుకే ముందే విజువల్ ఇన్ఫర్మేషన్ ఇవ్వాలి 

మనిషిలా స్టోరీ చెబితే కాదు మెషీన్ లా దశలుగా చెప్పినప్పుడే విజువల్ మోడల్ సరిగ్గా రియాకక్ట్ అవుతుంది ఇది చాలామందికి అర్థం కాక తప్పులు మళ్లీ మళ్లీ జరుగుతాయి 

మీరు ఊహించిన సందర్భం మోడల్ చూడదు కాబట్టి మీరు చూసినదంతా క్లియర్ గా చెప్పాలి. అవసరమైన ప్రతీ అంశం క్రమంగా వివరించాలి అప్పుడే బెటర్ రిజల్ట్ ఉంటుంది 

VLMలు ప్రశ్నకు సమాధానం ఇవ్వవు అవి ముందుగా విజువల్ రిప్రజెంటేషన్ తరువాత అర్థం తీసుకుంటాయి ఈ విషయాన్ని అర్థం చేసుకుంటే ప్రాంప్ట్‌లు వెంటనే ఇంప్రూవ్ అవుతాయి 

మీ ప్రాంప్ట్ వెనుకబడినట్లు అనిపిస్తే మీరు ఆలోచన క్రమాన్ని రివర్స్ చేసి వాడుతున్నారని సంకేతం ముందు చూడటం తర్వాత అర్థం చేసుకోవటం ఈ ప్రాసెస్ పాటిస్తే ప్రాబ్లెమ్ సాల్వ్ అవుతుంది 

సరైన VLM ప్రాంప్ట్ అంటే ఫస్ట్ షో నెక్స్ట్ అస్క్ అనే సింపుల్ రూల్ పాటించడం ఇది మార్చితే మీ అవుట్‌పుట్ స్థాయి పూర్తిగా మారుతుంది